階躍開源4B Agent模型，跑通所有安卓設備，手搓黨一鍵部署

衡宇 2025-11-30 15:04:32 來源：量子位

告別GUI Agent工程基建噩夢

GELab-Zero團隊投稿

量子位 | 公眾號 QbitAI

首次將GUI Agent模型與完整配套基建同步開放，支持手搓黨一鍵部署！

這就是階躍星辰剛剛開源的GELab-Zero。

其中4B版本的GUI Agent模型在手機端、電腦端等多個GUI榜單上全面刷新同尺寸模型性能紀錄，取得SOTA成績。

隨著AI在手機等消費終端的普及，Mobile Agent正從“能不能用”邁向“能否規模化落地”。

GUI Agent是執行能力最強的形態之一。它基于視覺理解即可適配幾乎所有App，無需廠商額外改造，接入成本極低。

此外，階躍還同步開源了基于真實業務場景的自建評測標準AndroidDaily，以期推動GUI領域模型評測向消費級、規模化應用發展。

同尺寸性能 SOTA，端到端、輕量化、速度快

要知道，讓GUI Agent在不同品牌與系統版本的設備上順暢運行并不輕松。

移動生態的高度碎片化讓開發者需處理多設備ADB連接、依賴安裝、權限配置、推理服務部署、任務編排與回放等繁瑣流程，工程成本高昂，精力難以聚焦在策略創新與體驗設計上。

要推動移動端Agent真正規模化，必須首先降低開發與使用門檻，讓開發者專注于創造價值，而非重復搭建底層設施。

基于此，階躍開源了GELab-Zero。

它主要包含三部分：

一個能在本地運行的GUI Agent模型GELab-Zero-4B-preview
即插即用的完整推理工程基建，解決所有臟活累活
基于真實業務場景的自建評測標準AndroidDaily

研究團隊在ScreenSpot、OSWorld、MMBench、Android World多個開源基準測試上對GELab-Zero-4B-preview模型進行了全面評估。

這些基準測試涵蓋了GUI理解、定位、交互等多個維度。

從測試結果可以看出，GELab-Zero-4B-preview在多項開源基準測試中超越其他主流模型，拿下同尺寸SOTA。

值得一提的是，GELab-Zero-4B-preview的表現還超越了參數量更大的GUI-Owl-32B等模型，性能更優，也更易部署。

來看一下研究團隊給出的示例場景。

復雜任務

場景1：在外賣平臺同時采購跨品類、不同規格和數量的商品。

Prompt：去餓了么離我最近的盒馬鮮生購買：紅顏草莓300g、秘魯比安卡藍莓125g（果徑18mm）、當季新鮮黃心土豆500g、粉糯貝貝南瓜750g、盒馬大顆粒蝦滑、2瓶盒馬純黑豆豆漿300ml、小王子夏威夷果可可脆120g、盒馬菠菜面、盒馬五香牛肉、5袋好歡螺柳州螺獅粉（加辣加臭）400g、m&m’s牛奶巧克力豆100g

可以看到，模型精準識別了物品信息，并順暢地完成了多步驟、重復性的購買操作。

場景2：在企業福利APP中領取餐券。

Prompt：打開給到App，在我的，下滑尋找，員工權益-奮斗食代，幫我領劵。

上述示例展示了GELab-Zero-4B-preview執行的能力和范圍具有很強的泛化性，無論在國民級APP還是小眾產品平臺，都可以順利完成任務。

模糊指令

場景1：在某個視頻平臺上播放指定演員的經典作品。

Prompt：在騰訊視頻上找一部成龍的經典動作片播放。

接到指令后，GELab-Zero-4B-preview自主拆解“經典”這一需求，確定執行標準。

過程中，模型先打開騰訊視頻，識別并關閉了彈窗，搜索“成龍”后在電影類目中選擇了頁面上成龍評分最高的代表作播放。

場景2：找一個周末能帶孩子玩的地方。

Prompt：幫我找個周末能帶孩子去玩的地方。

接到指令后，模型首先在內容平臺搜索“北京周末帶娃”，然后自主判斷衡量標準后為用戶推薦北京園博園“頑酷奇遇”，并為用戶提煉出該地點的亮點——“有巨型裝置卡通，親子活動豐富”。

可以看到，GELab-Zero-4B-preview模型能夠很好地執行復雜任務和模糊指令，不僅可以準確、流暢地執行涉及到多步驟、多主體、重復操作的任務，也能對“好看”“適合玩的”“經典”等偏籠統和主觀性的指令進行自主拆解，確定執行路徑和標準。

GUI+基建=GUI Agent MCP，一鍵拉起部署

針對GUI智能體，研究人員構建了一整套完整的技術架構體系，可以一鍵拉起獲得類似開源GUI Agent MCP的體驗。

具體能力如下：

輕量級本地推理
支持4B模型在消費級硬件上運行，兼顧低延遲與隱私。
一鍵任務啟動
提供統一部署流水線，自動處理環境依賴和設備管理。
多設備任務分發
可以分發到多臺手機并記錄交互軌跡，實現可觀測、可復現。
多種Agent模式
涵蓋ReAct閉環、多智能體協作以及定時任務等多種工作模式。

這些能力讓GELab-Zero能夠靈活應對真實場景的復雜任務流，并為后續擴展提供扎實底座。

Agent開發者可基于這套基建快速測試新想法、驗證交互策略；企業級用戶則能直接復用這套基建，將MCP能力快速植入到產品業務中。

自建并開源貼合真實業務場景的評測基準

此外，研究團隊基于手機、IoT、汽車等行業頭部公司的真實合作案例，建立了高度貼合業務場景的評測基準。

當前的主流基準測試，大部分聚焦于生產力類應用（如郵件與文檔處理）。

然而在日常真實場景中，用戶高頻依賴的卻是生活服務類應用，如外賣、打車、社交、支付等，而這部分場景不僅覆蓋面更廣，也更能體現當下GUI Agent 的實用價值。

為此研究者提出 AndroidDaily，一個面向真實世界、動態演進的多維基準體系。

它聚焦在現代生活六大核心維度：飲食、出行、購物、居住、信息消費、娛樂，并優先選擇在這些類別中具有代表性（高頻使用、應用商店日活排名靠前）的主流應用進行測試，高度還原真實任務執行流程（包括詢問用戶更多信息補充輸入、高危操作請求用戶接管）。

評測結果顯示，GELab-Zero-4B-preview在AndroidDaily測試中準確率達到73.4% ，在移動端復雜任務中表現優秀。

為了平衡評估的全面性和執行效率，AndroidDaily采用了靜態評測和端到端評測雙軌評估體系。

靜態評測考察模型的grounding（界面理解、元素識別）和action規劃能力，用于檢驗其在推理與執行一致性等基礎層面的表現。

端到端測試重點衡量GUI Agent在真實環境中處理復雜任務時的執行效果與穩定性。

其中，靜態測試包含3146個actions，提供任務描述和逐步的屏幕截圖，要求Agent預測每一步的動作類型和動作值（如點擊坐標、輸入文本），主要評估數值準確率。

這種方法無需復雜的工程基礎設施，可以快速、低成本地進行大規模模型迭代和測試。

而端到端測試包含235個任務，典型任務場景包括出行交通（打車、導航、公共交通等）、購物消費（電商購物、支付、訂單管理等）、社交通訊（消息發送、社交互動等）、內容消費（新聞閱讀、視頻觀看、內容收藏等）、本地服務（外賣、到店服務）等。

在完全功能化的測試環境（如真實設備或模擬器）中進行，Agent需要從頭到尾自主執行任務，最終以整體任務成功率作為評價指標，能真實反映智能體在復雜環境中的綜合能力。

團隊表示，希望通過GELab-Zero的開源，進一步降低移動端Agent的開發門檻，讓更多開發者能夠快速構建和驗證自己的想法。

未來，研究團隊將始終堅持開放、可控、隱私優先的原則，持續優化模型性能、擴展跨平臺支持、豐富生態工具鏈。

GitHub:
https://github.com/stepfun-ai/gelab-zero
抱抱臉:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview

GUI Agent 開源

衡宇

階躍開源4B Agent模型，跑通所有安卓設備，手搓黨一鍵部署

同尺寸性能 SOTA，端到端、輕量化、速度快

復雜任務

模糊指令

GUI+基建=GUI Agent MCP，一鍵拉起部署

自建并開源貼合真實業務場景的評測基準

相關閱讀

阿里開源人機對話模型ESIM，達摩院90后科學家研發，曾創世界紀錄

3D版DeepSeek卷起開源月：兩大基礎模型率先SOTA！又是VAST

GitHub上的開源代碼到底受不受美國出口管制

OpenAI突宣開源計劃：端側模型or小模型二選一！奧特曼在線征集投票

宇樹機器人成賽博科比！英偉達CMU新研究，投籃模仿籃球巨星，代碼論文全開源

說人話教AI打游戲，Facebook開源迷你版星際，成果登上NeurIPS

熱門文章

DeepSeek-V3.2系列開源，性能直接對標Gemini-3.0-Pro

階躍開源4B Agent模型，跑通所有安卓設備，手搓黨一鍵部署

Transformer作者爆料GPT-5.1內幕！OpenAI內部命名規則變亂了

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

階躍開源4B Agent模型，跑通所有安卓設備，手搓黨一鍵部署

同尺寸性能 SOTA，端到端、輕量化、速度快

復雜任務

模糊指令

GUI+基建=GUI Agent MCP，一鍵拉起部署

自建并開源貼合真實業務場景的評測基準

相關閱讀

阿里開源人機對話模型ESIM，達摩院90后科學家研發，曾創世界紀錄

3D版DeepSeek卷起開源月：兩大基礎模型率先SOTA！又是VAST

GitHub上的開源代碼到底受不受美國出口管制

OpenAI突宣開源計劃：端側模型or小模型二選一！奧特曼在線征集投票

宇樹機器人成賽博科比！英偉達CMU新研究，投籃模仿籃球巨星，代碼論文全開源

說人話教AI打游戲，Facebook開源迷你版星際，成果登上NeurIPS

熱門文章

DeepSeek-V3.2系列開源，性能直接對標Gemini-3.0-Pro

階躍開源4B Agent模型，跑通所有安卓設備，手搓黨一鍵部署

Transformer作者爆料GPT-5.1內幕！OpenAI內部命名規則變亂了

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創 語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式