全球智能體榜單新SOTA！中國公司登頂，Office三件套一鍵生成，全程可控可溯源，打工人直接拿來用

白交 2025-05-22 10:55:44 來源：量子位

還有類似NotebookLM的在線私人知識庫的功能。

白交發自凹非寺

量子位 | 公眾號 QbitAI

左超Manus，右跨Genspark，GAIA榜單上又一家中國公司登頂！

天工超級智能體（Skywork Super Agents），出自昆侖萬維，今日剛一上線即霸榜。

全球智能體榜單新SOTA！中國公司登頂，Office三件套一鍵生成，全程可控可溯源，打工人直接拿來用

Agent賽道開始熱鬧之后，GAIA就成為大家摩拳擦掌的競技場。

作為一個評估Agent解決實際問題能力的基準，它包括450個問題，這些問題需要不同級別的工具支持和自主能力，為此它還劃分了三個Level水平。

結果能夠看到，天工超級智能體（Skywork Super Agents）在前兩個Level都以較大分數超過Manus和OpenAI的Deep Research，最后一個較高難度的Level 3，能力與Manus持平。

另外，它還在SimpleQA排行榜上，實現了對OpenAI和當前SOTA的超越。

除了在排行榜表現驚艷，它還有很多與其他產品不同的細節點。

摘一個最重要的（對打工人最友好的）來說。

它支持五種模態一站式生成，包括Office三件套（Word、PPT、Excel）、網站、網頁、播客，一應俱全。

而且生成的結果可溯源、可編輯，還有類似NotebookLM的在線私人知識庫的功能。

要知道，以前Agent那么多，但對打工人都不是特別的友好，生成的報告無法溯源、支持的文件格式又有限……

現在似乎是一個真正強大且對打工人友好的Agent來了，具體來看看。

超越Genspark和Manus，GAIA榜單第一

在說天工超級智能體（Skywork Super Agents）之前，有必要說說GAIA的含金量。

它之所以能成為眾多Agent/大模型屢試不鮮的通用Benchmark，主要在于它提出了真實世界中一系列需要基本能力的問題，如推理、多模態處理、網頁瀏覽和一般工具使用熟練程度。

而且還很細致地區分了三個層次，分別代表著不同的難易程度，級別越高，難度越大。

Level 1，往往不需要任何工具，或者有且最多只使用一種工具，但步驟不超過5步。

Level 2，涉及到的步驟在5-10步之間，需要結合不同的工具。

Level 3，這一級別的問題已經接近通用Agent了，要求采取任意長的行動序列，使用任意數量的工具，并能訪問整個世界。

不過別看這么復雜，但其實這種難度只是「AI限定」，對人類來說很簡單。他們的實驗表明，人類答題者的得分率為92%，而裝有插件的GPT-4的得分率僅為15%。

這種顯著的差異與「當前大模型在諸多任務優于人類」的現象形成了鮮明的對比。

于是乎這也就成為了海內外Agent的擂臺，結果沒想到現在又出現一個國產Agent「天工超級智能體」（Skywork Super Agents）突出重圍，實現SOTA。

另外，它還收獲了SimpleQA上評分第一、Product Hunt日榜第一。

具體來看看產品。

從入口上看，目前只有網頁端口，界面相比其他Agent產品豐富和清晰不少，覆蓋的模式和場景都更全面一些。

在模式中有六種可以選擇，其中Office三件套（文檔、PPT、表格）還都是專家模式。

尤其是表格的首發，讓AI生成數據表格和圖標，這是其他Agent產品尚且還不具備的。

而這次通用模式，它可以生成音樂、MV、宣傳片、繪本、有聲書等內容。昆侖萬維過去在多模態技術上的多方面探索這次沉淀下來，并且All in One。

此外它還可以細分場景，基本上我們日常生活工作高頻場景都覆蓋了。

這樣拆分其實簡化了用戶的流程，不需要再去多思考如何想提示詞，只需選定一個模式和場景，簡單地提出一個需求就可以搞定，直接降低了使用門檻。

當然有一些詳細需求且里面的場景沒有涉及到，也跟其他Agent/AI助手一樣，支持「通用」場景和模式。

比如生成個游戲/網頁，研究報告啥的。

我是個技術小白，我想從零做一個小游戲的微信小程序，要真正能夠上線分享給其他人的，請問我應該一步步怎么做，給我寫一個詳細完整的攻略和教程，要具有實際可操作性，步驟要清晰，閱讀起來不要太費勁。

給我做個網頁，一個tab是微信聊天界面，另一個tab是朋友圈，模擬歷史上的各位皇帝在聊天和發朋友圈，要符合各個皇帝的性格和特點，然后互相還會在朋友圈點贊，增加一個繼續看的按鈕，每次點擊都會觸發新的聊天和朋友圈事件。

整體看下來，其他智能體有的它都有，而且產品功能設計得更貼合用戶習慣，大大簡化了用戶使用門檻。

那就來看看它的真本事~徹底地來實測感受一下。

實測天工超級智能體：真正對打工人友好

這次天工超級智能體（Skywork Super Agents）支持了Office三件套，據說還做了專門的優化，那就來看看它的實力所在。

首先來看看PPT模式。

主題：大模型與智能體科普，目標：中小學生

在如此簡單的提示詞驅動下，它就開始運作了。當然除了Prompt，也可以投喂資料或你的個人知識庫內容，可以是圖片、在線文檔、網頁、PDF。

發起任務后，它會根據任務生成一個表單，你可以跳過也可以修改，這樣讓需求更具體。

這樣也能讓它更能get你的需求，避免沒有搞清楚就開干。這是不是比工作伙伴靠譜聰明多了（Bushi）。

確認需求之后，它會生成一個「待辦清單」，包括收集、整理、生成大綱到制作等詳細步驟，這里也有一個「確認」的操作需要你來執行，有任何補充也都OK。

整個過程在一些關鍵節點上都會有這種把關的「表單」需要你來執行，比如確認PPT大綱，當然也可以跳過。總之就是關鍵步驟更可控，而不是一股腦地完成，避免一步錯步步錯，讓它最后完成的結果也能更符合你的預期。

在使用各種MCP依次完成步驟之后，來看看生成的結果，整體看上去還是不錯。

風格和排版設計也很契合中小學生這一群體，仔細一看還會發現有動畫效果？！可以說是很全面了，畢竟我就不會弄這個。

里面的案例也不局限于文本這一形式，還有視頻、圖片等多種模態穿插，而且也都是可溯源的真實案例，是真正可以直接拿出去用的程度。

這種高可用的特點，其實還挺驚艷的。

畢竟不是所有Agent平臺都能生成這么豐富的多模態內容，也不是所有平臺生成的內容都真實可用，但此處天工超級智能體（Skywork Super Agents）兩者都實現了，不僅有用還好用，對于用戶來說還敢直接在真實場景中使用。

而要是需要微調內容，它也支持「可編輯」，文字所到之處，都可以進行調整。

最后支持PPT、PDF以及HTML導出。

值得一提的是，在要完成其他的需求或者需要跳轉其他的任務時，可以將它置于后臺自行運作。然后就靜靜地等待它完成之后來「通知」你。

之前使用其他Agent可能還會擔心置于后臺就不干活的情況，經過這一番實測來看，它生成過程以及結果都還挺穩定的。

這種「通知」的設置，真的就有種擁有一個打工助理的感覺：你忙你的，我做我的，我做完再跟你匯報~

接下來再來試試其他兩件套：Excel和Word模式。

Excel模式下，要求它統計GitHub上熱門的MCP項目，要求有項目名稱、作者、Star數。在確認具體需求之后，它就開始運作了。

得到的結果是醬嬸的~能夠看到項目都是最新更新的，最后還附帶了個Star排名表。

再來看看word模式：AI產品經理的面試指南，要求給問答清單寫優秀示例。

最后這些生成的內容，都可以儲存在知識庫中，也可以自己上傳pdf、doc、ppt、xls等多種格式的文件，可以上傳錄音，也可以上傳url和youtube視頻播放地址。每個知識庫支持上傳最多50個文檔，方便之后可以調用。

適合工作場景的「三件套」模式說完了，通用模式其實更有意思。它集成了十余個MCP，包括網頁搜索、圖片搜索、網頁爬取、文檔搜索、思考分析、圖片生成、圖片理解、語音生成、音樂生成、視頻生成、股票查詢等。

于是在各種工具混合之后，就可以生成一些酷炫的產物，比如MV、宣傳片、有聲書、繪本……

幫我生成一個小貓的旅行vlog，內容分別是小貓到法國埃菲爾鐵塔、美國自由女神像、中國長城、澳大利亞悉尼歌劇院、埃及金字塔、印度泰姬陵、日本富士山等地旅游并與這些著名景點自拍合照，配樂輕松歡快。

最后，他們還考慮到了開發者，也就是今天，他們在GitHub上開源了DeepResearch Agent框架。并且把生成「三件套」的能力，集成MCP，供開發者調用。

DeepResearch Agent框架開源：https://github.com/SkyworkAI/DeepResearchAgent

MCP地址：https://mcp.so/server/skywork-super-agents/Skywork-ai

智能體從有用、敢用到好用

整個產品體驗下來，能夠感知到的是，AI Agent賽道從“技術秀場”向“真實生產力工具”的跨越。

首先，它不僅以GAIA榜單冠軍和SimpleQA評分第一的成績證明了技術能力的領先。

它還更通過一系列基于用戶特點的產品設計，比如Office三件套深度優化、多模態一站式生成和可溯源可編輯的交互設計，重新定義了智能體的價值標準：

從“有用”到“敢用”，最終實現“好用”。

智能體雖然能夠讓AI開始觸達到真實任務執行中去，但往往會因生成內容有限，結果不可控被職場人束之高閣，但天工超級智能體（Skywork Super Agents）正在打破這樣的信任壁壘。

比如全鏈路可控，從“需求確認-大綱審核-內容溯源”，讓用戶隨時介入關鍵決策點，而且交付流程穩定，后臺任務持續運行的特點，解決了AI工具“半成品爛尾”的痛點……用戶才敢真正將核心工作交付給智能體。

此外，天工的好用易用其實并非簡單的界面優化，而是圍繞“真實需求-可用結果”一整套的閉環設計。

像場景化入口將“提示詞工程”轉化為“選模式-填需求”的極簡操作，私人知識庫支持導入企業文檔、會議記錄等私有數據，讓輸出結果天然貼合用戶知識體系；真實場景中往往數據類型更為復雜，還會涉及跨模態聯動，智能體能夠做到多模態一站式生成，落地場景就可以進一步得到延伸和擴展。

當下，全球Agent賽道激戰正酣，OpenAI、Google等巨頭押注通用智能體，還有一群像Genspark、Manus爭先恐后的創業玩家。

中國玩家們，以天工超級智能體（Skywork Super Agents）的突破為例，其實正在探索一條更本質的進化路徑：

AI的價值不在于炫技刷榜，而是針對真實用戶體驗，甚至可以讓人忘記技術所在。

這場“有用→敢用→好用”的進化，或許正是撬動AI大規模落地的終極密碼。

目前海外版國內版均已上線，可戳下方鏈接體驗哦~

海外版：https://skywork.ai
國內版：https://tiangong.cn

白交

空間智能卡脖子難題被杭州攻克！難倒GPT-5后，六小龍企業出手了2025-08-28
陳丹琦有了個公司郵箱，北大翁荔同款2025-08-28
英偉達最新芯片B30A曝光2025-08-20
AI應用如何落地政企？首先不要卷通用大模型2025-08-12

全球智能體榜單新SOTA！中國公司登頂，Office三件套一鍵生成，全程可控可溯源，打工人直接拿來用

超越Genspark和Manus，GAIA榜單第一

實測天工超級智能體：真正對打工人友好

智能體從有用、敢用到好用

熱門文章

英偉達巧用8B模型秒掉GPT-5，開源了

“豆包手機”在二手市場價格都翻倍了……

DeepSeekV3.2技術報告還是老外看得細

谷歌新架構突破Transformer超長上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年