起底“豆包手機”：核心技術探索早已開源，GUI Agent布局近兩年，“全球首款真正的AI手機”

西風 2025-12-09 15:51:19 來源：量子位

UI-TARS持續進化

嘻瘋發自凹非寺

量子位 | 公眾號 QbitAI

3萬臺首批備貨被一搶而空、在二手市場價格翻番的當紅炸子雞“豆包手機”，更多技術詳情得到證實。

事實證明，豆包手機助手技術預覽版背后，是字節在“系統級GUI Agent”賽道上布局了近兩年的大棋。

在官方演示中，搭載在工程樣機nubia M153上的它，能代替用戶操作手機，跨應用自動化執行任務。

比如一次性下達多個指令，讓它一口氣完成在飛書上代為請假、提交差旅申請、預訂出差高鐵票等復雜任務：

而據量子位最新打聽到的消息，這套圖形界面操作能力，正是建立在字節自研的UI-TARS模型基礎之上。

開發者對此系列模型應該并不陌生。初代一經開源便引發熱議，被評價性能優于當時曝光的OpenAI Operator（UI-TARS在Operator正式發布前就已發布）。

“豆包手機”使用的則是UI-TARS閉源版本，不僅性能優于其開源版本，還針對Mobile Use進行了大量優化。

換言之，豆包手機助手的核心技術探索方向，實際上早就開源了。

PS：關鍵后來正式發布的Operator，還要開200美元一個月的Pro會員才能用……

UI-TARS模型的持續進化與應用

早在今年1月，字節Seed團隊與清華聯手開源初代UI-TARS，為系統級AI Agent奠定基礎。此后，團隊便沿著這條路線持續深耕，不斷迭代打磨能力。

團隊指出，原生Agent需具備感知、動作、推理、記憶四大核心能力。

因此，初代UI-TARS圍繞這些能力進行了四大關鍵創新。

1）通過大規模GUI截圖數據集和五大感知任務（元素描述、標記區域感知等）增強GUI感知精度。

2）設計跨平臺統一動作空間，整合標注軌跡與開源數據提升動作定位準確性。

3）融入600萬高質量GUI教程和多種推理模式（任務分解、反思等），注入System-2深思型推理能力。

4）借助數百臺虛擬機自動收集交互軌跡，通過多階段過濾、反思調優和直接偏好優化（DPO）解決數據瓶頸，實現模型迭代優化。

在GUI Agent基準測試中，初代UI-TARS已有突破性表現，一舉拿下多個SOTA。

僅過短短3個月，團隊又推出了全新的開源版本UI-TARS-1.5。

在延續前代基礎架構的前提下，UI-TARS-1.5新增強化學習驅動的推理機制，讓模型在執行動作前能通過思考過程進行推理，顯著提升了性能與推理階段的擴展性。

在多項標準基準測試中，UI-TARS-1.5相比前代模型實現了顯著進步。

在GUI定位任務上，刷新SOTA：

同時，在測試中，團隊引入新玩法——讓UI-TARS-1.5玩游戲。

團隊指出，與數學或編程等領域不同，游戲往往要求直覺式、常識性的推理以及策略性的前瞻思考，非常適合作為基準任務。

他們從poki.com挑選14款游戲進行測試，通過標準化評分，UI-TARS-1.5在與OpenAI CUA、Claude 3.7的對決中勝出。

今年9月，UI-TARS-2的發布將智能體能力推向新高度，也為豆包手機助手提供了關鍵技術支撐。

UI-TARS-2瞄準的是讓智能體真正實現圖形界面的自主交互。

它進一步解決了前代模型及現有GUI Agent面臨的數據可擴展性、多輪強化學習（RL）穩定性、純GUI操作局限與環境穩定性四大問題。

UI-TARS-2以多輪強化學習為核心，通過四大核心技術實現突破：

首先，團隊設計了可擴展的數據飛輪（Data Flywheel），通過“持續預訓練-監督微調-拒絕采樣-多輪RL”的循環迭代，讓模型與訓練數據協同進化。高質量軌跡流入監督微調數據集，低質量軌跡補充至持續預訓練數據集，形成自增強閉環。

其次，團隊設計了在長時序設定中穩定優化的訓練框架，憑借有狀態異步rollout、流式更新與增強型PPO，解決長周期任務優化難題。

另外，打破純GUI操作的邊界，UI-TARS-2構建了一個混合GUI中心環境（Hybrid GUI-centered Environment）。

通過SDK把文件系統、終端命令以及外部工具都接入進來，讓圖形界面操作可以和系統級資源打通，不再局限于“模擬鼠標鍵盤點來點去”。

最后，團隊還開發了統一的沙盒平臺，以標準化API管理云端VM、瀏覽器游戲沙盒等異構環境，支撐數百萬次交互的大規模訓練與評估。

采用532M參數視覺編碼器與23B激活參數的MoE LLM架構，UI-TARS-2在多場景表現全面提升。

15款游戲集合的平均標準化得分為59.77，更趨近人類水平，在LMGame-Bench中與OpenAI o3等前沿模型競爭力相當。

綜上，幾經迭代，UI-TARS研究成果現已成為最受歡迎的開源多模態智能體之一。

在GitHub，該項目也已狂攬8.3k Star。

而根據我們了解，豆包手機助手正是在這一成熟技術基礎上，進一步針對手機端做了深度定制與優化，最終形成可實際落地的產品形態。

官方回應權限爭議，網友拆解工程設計

豆包手機助手技術預覽版發布后迅速爆火，同時也難免引發了一些爭議性討論。

比如豆包手機助手的“應用權限”清單中，列舉了INJECT_EVENTS系統級權限用于操作手機。于是，有關AI獲取高權限是否會造成安全風險的討論蔓延開來。

針對此關注，官方很快作出回應。

總結而言，用戶需要主動授權才能調用該權限使用操作手機功能，而且目前行業的AI助手都要使用類似該權限才能提供操作手機服務。比如現在很多手機可以用語音助手定鬧鐘，就是通過INJECT_EVENTS權限實現的。

同時，豆包手機助手在遇到敏感授權，如支付、身份驗證等，會暫停任務交由人工接管完成操作。

最近，也有網友從工程角度對豆包手機進行了深入拆解與分析。

例如小紅書博主@宵逝(27fall 找直博版)，他在測試完豆包手機助手后，寫了一篇長達2385字的分析。

△圖注：引用內容已獲本人授權

在隱私方面，@宵逝(27fall 找直博版)實測發現其“視覺管道是Filtered的”。比如你開著B站畫中畫或是視頻通話懸浮窗，讓它操作主屏幕，它“看”不到懸浮窗，截屏只包含目標應用界面。

基于此，他推測豆包手機助手“獲取的Screenshot并不是讀取Display Buffer（物理屏幕輸出流），而是基于Activity Hierarchy抓取Targeted Activity，這意味著它在物理層面上就無法監控你的視頻通話畫面”。

另外，他還觀察到，當Agent在后臺執行長鏈任務時，前臺打入電話或者切換App，Agent仍在后臺持續運行而不會被掛起。

這可能意味著豆包手機助手在OS層做了“并行運行”的虛擬化設計：后臺有一個獨立的Virtual Display（影子屏幕）供Agent執行任務，從而不與用戶的前臺界面互相干擾。

博主直言，這種OS級魔改，讓他很多時候感覺“字節還得是字節”。

此外值得一提的是，在他看來，“最有意思的設計”是豆包手機助手把Agent拆成了標準模式和Pro模式兩套技術棧，“這不僅僅是模型大小的區別，而是完全不同的兩套Pipeline”。

他注意到標準模式走的是Naive Simulation，主要依賴淺層視覺（VLM），響應極快，prompt小、通過壓低IO token獲得速度優勢。

在測試時缺陷是，在遇到“相冊里的截圖（包含偽造的搜索按鈕）”這種視覺陷阱時，它會傻乎乎地去點擊圖片里的按鈕。

他表示，這是典型的System 1直覺反應（也可能是上下文沒傳當前系統狀態等detail信息）。

而Pro模式則走的是Deep Reasoning+Tool Use。在同樣的“截圖陷阱”測試中，它會明顯出現Pause&Think的過程，隨后拒絕點擊并建議切換瀏覽器。

博主推測Pro所使用的模型，可能用的是thinking模式下的Agent，亦或是做了更多post-train的升級版，框架上做了上下文工程。

該博主還做了更深入的分析，感興趣的童鞋可以去原帖沖一波。

綜合觀察分析下來，他表示“認可它的代碼邏輯是安全的：它有隔離、有熔斷、有本地化處理”。但也理解大家的質疑，代碼是干凈的，但掌握代碼的人呢？這就是一個技術之外的社會學問題了。

不過，他也表達了自己的態度：

如果它能幫我處理掉80%的瑣事，我愿意讓渡一部分經過脫敏的、非核心隱私的數據。

比起被無良App偷偷傳通訊錄，后臺悄咪咪利用漏洞查我信息，我更愿意把數據交給一個有著嚴格RAG機制和系統級隔離的Agent。

有意思的是，一邊有人討論隱私，一邊也有人的關注點在于“能幫我打游戲、刷分嗎？”

笑死，網友前腳剛問，后腳官方就最新發布了基于行業發展主動限制其部分能力的聲明——

包括限制刷分、刷激勵的使用場景以及限制部分游戲類使用場景，也將暫時下線操作銀行、互聯網支付等金融類APP的能力。

“全球第一款真正AI手機”

買到“豆包手機”的網友，真實上手實測后還說了些什么？體驗到底咋樣？

在華創業者Taylor Ogan拿到了手機后，就在??上連發帖子，給出的評價那是相當的高（發出宋丹丹的聲音），稱其為“又一次DeepSeek時刻，這是全球第一部真正的AI智能手機”。

他發視頻展示用英語簡單下達一個關于找人幫代排隊的任務，只見豆包手機助手自主選定了應用、完成任務相關設置，最后直接給他呈現了一個確認界面。

換作平時，我自己都不知道該怎么操作，而這部手機短短幾秒就搞定了。

他還展示了告訴豆包手機助手從其當前所在位置打輛無人車去某公園，只見它會獲取其GPS位置，知道哪些無人車運營商覆蓋其所在區域和目的地，并完成路線規劃，接著打開打車軟件逐步點擊應用界面，詢問其具體要去公園的哪個位置，并根據最近的上車點完成叫車。

有人看他的手機界面，問他“為啥不先把語言設置改成英語”，Taylor Ogan回應“甚至都不需要”。

Hugging Face亞太區生態負責人Tiezhen Wang也轉發評價：

它已經證明：手機操作可以成為一種操作系統級的原生能力，這將定義下一代AI原生手機。

很顯而易見的一點是，未來出行會變得輕松許多。你可以直接用英語交流，而AI Agent會自動在所有中文App中完成你需要的操作。

另外，老羅在“豆包手機”發布后，也點贊表示“技術革命是誰都攔不住的”，還和網友在評論區觀點交鋒了一下（雖然這款手機也被發現了羅永浩“錘子手機”代碼）……

當然，目前“豆包手機”搭載的豆包手機助手還只是技術預覽版，距離成熟產品尚有空間，也遠談不上完美。

官方也在反復強調，軟件方面尚無法保證成熟手機產品的功能完善度。

但不可否認的是，它已經展現出下一代手機的可能：手機不再是被動操作的工具，而是能主動理解意圖、獨立完成任務的伙伴。

從這個意義上說，“全球第一款真正的AI手機”稱號，它確實配得上。

豆包手機豆包手機助手

西風

起底“豆包手機”：核心技術探索早已開源，GUI Agent布局近兩年，“全球首款真正的AI手機”

UI-TARS模型的持續進化與應用

官方回應權限爭議，網友拆解工程設計

“全球第一款真正AI手機”

相關閱讀

“豆包手機”在二手市場價格都翻倍了……

熱門文章

英偉達巧用8B模型秒掉GPT-5，開源了

“豆包手機”在二手市場價格都翻倍了……

DeepSeekV3.2技術報告還是老外看得細

谷歌新架構突破Transformer超長上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年