全球智能體榜單新SOTA!中國公司登頂,Office三件套一鍵生成,全程可控可溯源,打工人直接拿來用
還有類似NotebookLM的在線私人知識庫的功能。
白交 發自 凹非寺
量子位 | 公眾號 QbitAI
左超Manus,右跨Genspark,GAIA榜單上又一家中國公司登頂!
天工超級智能體(Skywork Super Agents),出自昆侖萬維,今日剛一上線即霸榜。

Agent賽道開始熱鬧之后,GAIA就成為大家摩拳擦掌的競技場。
作為一個評估Agent解決實際問題能力的基準,它包括450個問題,這些問題需要不同級別的工具支持和自主能力,為此它還劃分了三個Level水平。
結果能夠看到,天工超級智能體(Skywork Super Agents)在前兩個Level都以較大分數超過Manus和OpenAI的Deep Research,最后一個較高難度的Level 3,能力與Manus持平。
另外,它還在SimpleQA排行榜上,實現了對OpenAI和當前SOTA的超越。

除了在排行榜表現驚艷,它還有很多與其他產品不同的細節點。
摘一個最重要的(對打工人最友好的)來說。
它支持五種模態一站式生成,包括Office三件套(Word、PPT、Excel)、網站、網頁、播客,一應俱全。
而且生成的結果可溯源、可編輯,還有類似NotebookLM的在線私人知識庫的功能。
要知道,以前Agent那么多,但對打工人都不是特別的友好,生成的報告無法溯源、支持的文件格式又有限……

現在似乎是一個真正強大且對打工人友好的Agent來了,具體來看看。
超越Genspark和Manus,GAIA榜單第一
在說天工超級智能體(Skywork Super Agents)之前,有必要說說GAIA的含金量。
它之所以能成為眾多Agent/大模型屢試不鮮的通用Benchmark,主要在于它提出了真實世界中一系列需要基本能力的問題,如推理、多模態處理、網頁瀏覽和一般工具使用熟練程度。
而且還很細致地區分了三個層次,分別代表著不同的難易程度,級別越高,難度越大。

Level 1,往往不需要任何工具,或者有且最多只使用一種工具,但步驟不超過5步。
Level 2,涉及到的步驟在5-10步之間,需要結合不同的工具。
Level 3,這一級別的問題已經接近通用Agent了,要求采取任意長的行動序列,使用任意數量的工具,并能訪問整個世界。
不過別看這么復雜,但其實這種難度只是「AI限定」,對人類來說很簡單。他們的實驗表明,人類答題者的得分率為92%,而裝有插件的GPT-4的得分率僅為15%。
這種顯著的差異與「當前大模型在諸多任務優于人類」的現象形成了鮮明的對比。
于是乎這也就成為了海內外Agent的擂臺,結果沒想到現在又出現一個國產Agent「天工超級智能體」(Skywork Super Agents)突出重圍,實現SOTA。
另外,它還收獲了SimpleQA上評分第一、Product Hunt日榜第一。
具體來看看產品。
從入口上看,目前只有網頁端口,界面相比其他Agent產品豐富和清晰不少,覆蓋的模式和場景都更全面一些。

在模式中有六種可以選擇,其中Office三件套(文檔、PPT、表格)還都是專家模式。
尤其是表格的首發,讓AI生成數據表格和圖標,這是其他Agent產品尚且還不具備的。
而這次通用模式,它可以生成音樂、MV、宣傳片、繪本、有聲書等內容。昆侖萬維過去在多模態技術上的多方面探索這次沉淀下來,并且All in One。

此外它還可以細分場景,基本上我們日常生活工作高頻場景都覆蓋了。

這樣拆分其實簡化了用戶的流程,不需要再去多思考如何想提示詞,只需選定一個模式和場景,簡單地提出一個需求就可以搞定,直接降低了使用門檻。
當然有一些詳細需求且里面的場景沒有涉及到,也跟其他Agent/AI助手一樣,支持「通用」場景和模式。
比如生成個游戲/網頁,研究報告啥的。
我是個技術小白,我想從零做一個小游戲的微信小程序,要真正能夠上線分享給其他人的,請問我應該一步步怎么做,給我寫一個詳細完整的攻略和教程,要具有實際可操作性,步驟要清晰,閱讀起來不要太費勁。

給我做個網頁,一個tab是微信聊天界面,另一個tab是朋友圈,模擬歷史上的各位皇帝在聊天和發朋友圈,要符合各個皇帝的性格和特點,然后互相還會在朋友圈點贊,增加一個繼續看的按鈕,每次點擊都會觸發新的聊天和朋友圈事件。

整體看下來,其他智能體有的它都有,而且產品功能設計得更貼合用戶習慣,大大簡化了用戶使用門檻。
那就來看看它的真本事~徹底地來實測感受一下。
實測天工超級智能體:真正對打工人友好
這次天工超級智能體(Skywork Super Agents)支持了Office三件套,據說還做了專門的優化,那就來看看它的實力所在。
首先來看看PPT模式。
主題:大模型與智能體科普,目標:中小學生
在如此簡單的提示詞驅動下,它就開始運作了。當然除了Prompt,也可以投喂資料或你的個人知識庫內容,可以是圖片、在線文檔、網頁、PDF。
發起任務后,它會根據任務生成一個表單, 你可以跳過也可以修改,這樣讓需求更具體。
這樣也能讓它更能get你的需求,避免沒有搞清楚就開干。這是不是比工作伙伴靠譜聰明多了(Bushi)。

確認需求之后,它會生成一個「待辦清單」,包括收集、整理、生成大綱到制作等詳細步驟,這里也有一個「確認」的操作需要你來執行,有任何補充也都OK。

整個過程在一些關鍵節點上都會有這種把關的「表單」需要你來執行,比如確認PPT大綱,當然也可以跳過。總之就是關鍵步驟更可控,而不是一股腦地完成,避免一步錯步步錯,讓它最后完成的結果也能更符合你的預期。
在使用各種MCP依次完成步驟之后,來看看生成的結果,整體看上去還是不錯。
風格和排版設計也很契合中小學生這一群體,仔細一看還會發現有動畫效果?!可以說是很全面了,畢竟我就不會弄這個。

里面的案例也不局限于文本這一形式,還有視頻、圖片等多種模態穿插,而且也都是可溯源的真實案例,是真正可以直接拿出去用的程度。

這種高可用的特點,其實還挺驚艷的。
畢竟不是所有Agent平臺都能生成這么豐富的多模態內容,也不是所有平臺生成的內容都真實可用,但此處天工超級智能體(Skywork Super Agents)兩者都實現了,不僅有用還好用,對于用戶來說還敢直接在真實場景中使用。
而要是需要微調內容,它也支持「可編輯」,文字所到之處,都可以進行調整。

最后支持PPT、PDF以及HTML導出。

值得一提的是,在要完成其他的需求或者需要跳轉其他的任務時,可以將它置于后臺自行運作。然后就靜靜地等待它完成之后來「通知」你。

之前使用其他Agent可能還會擔心置于后臺就不干活的情況,經過這一番實測來看,它生成過程以及結果都還挺穩定的。
這種「通知」的設置,真的就有種擁有一個打工助理的感覺:你忙你的,我做我的,我做完再跟你匯報~

接下來再來試試其他兩件套:Excel和Word模式。
Excel模式下,要求它統計GitHub上熱門的MCP項目,要求有項目名稱、作者、Star數。在確認具體需求之后,它就開始運作了。

得到的結果是醬嬸的~能夠看到項目都是最新更新的,最后還附帶了個Star排名表。


再來看看word模式:AI產品經理的面試指南,要求給問答清單寫優秀示例。

最后這些生成的內容,都可以儲存在知識庫中,也可以自己上傳pdf、doc、ppt、xls等多種格式的文件,可以上傳錄音,也可以上傳url和youtube視頻播放地址。每個知識庫支持上傳最多50個文檔,方便之后可以調用。
適合工作場景的「三件套」模式說完了,通用模式其實更有意思。它集成了十余個MCP,包括網頁搜索、圖片搜索、網頁爬取、文檔搜索、思考分析、圖片生成、圖片理解、語音生成、音樂生成、視頻生成、股票查詢等。
于是在各種工具混合之后,就可以生成一些酷炫的產物,比如MV、宣傳片、有聲書、繪本……
幫我生成一個小貓的旅行vlog,內容分別是小貓到法國埃菲爾鐵塔、美國自由女神像、中國長城、澳大利亞悉尼歌劇院、埃及金字塔、印度泰姬陵、日本富士山等地旅游并與這些著名景點自拍合照,配樂輕松歡快。
最后,他們還考慮到了開發者,也就是今天,他們在GitHub上開源了DeepResearch Agent框架。并且把生成「三件套」的能力,集成MCP,供開發者調用。
DeepResearch Agent框架開源:https://github.com/SkyworkAI/DeepResearchAgent
MCP地址:https://mcp.so/server/skywork-super-agents/Skywork-ai
智能體從有用、敢用到好用
整個產品體驗下來,能夠感知到的是,AI Agent賽道從“技術秀場”向“真實生產力工具”的跨越。
首先,它不僅以GAIA榜單冠軍和SimpleQA評分第一的成績證明了技術能力的領先。
它還更通過一系列基于用戶特點的產品設計,比如Office三件套深度優化、多模態一站式生成和可溯源可編輯的交互設計,重新定義了智能體的價值標準:
從“有用”到“敢用”,最終實現“好用”。
智能體雖然能夠讓AI開始觸達到真實任務執行中去,但往往會因生成內容有限,結果不可控被職場人束之高閣,但天工超級智能體(Skywork Super Agents)正在打破這樣的信任壁壘。
比如全鏈路可控,從“需求確認-大綱審核-內容溯源”,讓用戶隨時介入關鍵決策點,而且交付流程穩定,后臺任務持續運行的特點,解決了AI工具“半成品爛尾”的痛點……用戶才敢真正將核心工作交付給智能體。
此外,天工的好用易用其實并非簡單的界面優化,而是圍繞“真實需求-可用結果”一整套的閉環設計。
像場景化入口將“提示詞工程”轉化為“選模式-填需求”的極簡操作,私人知識庫支持導入企業文檔、會議記錄等私有數據,讓輸出結果天然貼合用戶知識體系;真實場景中往往數據類型更為復雜,還會涉及跨模態聯動,智能體能夠做到多模態一站式生成,落地場景就可以進一步得到延伸和擴展。
當下,全球Agent賽道激戰正酣,OpenAI、Google等巨頭押注通用智能體,還有一群像Genspark、Manus爭先恐后的創業玩家。
中國玩家們,以天工超級智能體(Skywork Super Agents)的突破為例,其實正在探索一條更本質的進化路徑:
AI的價值不在于炫技刷榜,而是針對真實用戶體驗,甚至可以讓人忘記技術所在。
這場“有用→敢用→好用”的進化,或許正是撬動AI大規模落地的終極密碼。
目前海外版國內版均已上線,可戳下方鏈接體驗哦~
海外版:https://skywork.ai
國內版:https://tiangong.cn
- 空間智能卡脖子難題被杭州攻克!難倒GPT-5后,六小龍企業出手了2025-08-28
- 陳丹琦有了個公司郵箱,北大翁荔同款2025-08-28
- 英偉達最新芯片B30A曝光2025-08-20
- AI應用如何落地政企?首先不要卷通用大模型2025-08-12



