你的專屬“鋼鐵俠”助手OSAgents來了！浙大等10個(gè)機(jī)構(gòu)全新綜述

奇月 2025-01-03 15:52:05 來源：量子位

一文看懂超級(jí)智能助手

OS Agents團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

電影《鋼鐵俠》中，托尼·斯塔克的助手賈維斯（J.A.R.V.I.S.）能幫他控制各種系統(tǒng)并自動(dòng)完成任務(wù)，曾讓無數(shù)觀眾羨慕不已。

現(xiàn)在，這樣的超級(jí)智能助手，終于變成現(xiàn)實(shí)了！

隨著多模態(tài)大語言模型的爆發(fā)式進(jìn)化，OS Agents橫空出世，它們能無縫操控電腦和手機(jī)，為你自動(dòng)搞定繁瑣任務(wù)。

從Anthropic的Computer Use，到蘋果的Apple Intelligence，再到智譜AI的AutoGLM，以及Google DeepMind的Project Mariner，科技巨頭們的野心都指向了同一個(gè)目標(biāo)：打造真正意義上的操作系統(tǒng)智能助手。

OS Agents 已經(jīng)不僅僅是“助手”，它們正在改寫“人機(jī)交互”的游戲規(guī)則。

最近，浙江大學(xué)聯(lián)手OPPO、零一萬物等十個(gè)機(jī)構(gòu)共同梳理了一篇綜述文章《OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use》，不僅詳細(xì)解讀了OS Agents的硬核技術(shù)構(gòu)造，還盤點(diǎn)了它們的評(píng)估方法和未來挑戰(zhàn)。

科技行業(yè)的下一個(gè)新風(fēng)口，會(huì)是OS Agents嗎？

OS Agents商業(yè)學(xué)術(shù)同時(shí)迸發(fā)

像賈維斯這樣的超級(jí)AI助手，一般被稱為OS Agents，它們能夠通過操作系統(tǒng)（OS）提供的環(huán)境和接口（如圖形用戶界面，GUI），在諸如電腦或者手機(jī)等計(jì)算設(shè)備上自動(dòng)化的完成各類任務(wù)。

OS Agents有巨大的潛力改善全球數(shù)十億用戶的生活，想象一個(gè)世界：在線購物、預(yù)訂差旅等日?；顒?dòng)都可以由這些智能體無縫完成，這將大幅提高人們的生活效率和生產(chǎn)力。

過去，諸如Siri[1]、Cortana[2]和Google Assistant[3]等AI助手，已經(jīng)展示了這一潛力。然而，由于模型能力在過去較為有限，導(dǎo)致這些產(chǎn)品只能完成有限的任務(wù)。

幸運(yùn)的是，隨著多模態(tài)大語言模型的不斷發(fā)展，如Gemini[4] 、GPT[5] 、Grok[6] 、Yi[7] 和Claude[8] 系列模型（排名根據(jù)2024年12月22日更新的 Chatbot Arena LLM Leaderboard[9]），這一領(lǐng)域迎來了新的可能性。

(M)LLMs展現(xiàn)出令人矚目的能力，使得OS Agents能夠更好地理解復(fù)雜任務(wù)并在計(jì)算設(shè)備上執(zhí)行。

基礎(chǔ)模型公司和手機(jī)廠商近期在這一領(lǐng)域動(dòng)作頻頻，例如最近由Anthropic推出的Computer Use[10]、由蘋果公司推出的Apple Intelligence[11]、由智譜AI推出的AutoGLM[12]和由Google DeepMind推出的Project Mariner [13]。

其中，Computer Use利用Claude[14]與用戶的計(jì)算機(jī)直接互動(dòng)，可以實(shí)現(xiàn)無縫的任務(wù)自動(dòng)化。

與此同時(shí)，學(xué)術(shù)界已經(jīng)提出了各種方法來構(gòu)建基于(M)LLM的OS Agents。

例如，OS-Atlas[15]提出一種 GUI 基礎(chǔ)模型，通過跨多個(gè)平臺(tái)綜合 GUI 操作數(shù)據(jù)，大幅改進(jìn)了模型對(duì) GUI 的操作能力，提升OOD任務(wù)的表現(xiàn)。

而OS-Copilot[16]則是一種OS Agents框架，能夠使智能體在少監(jiān)督情況下實(shí)現(xiàn)廣泛的計(jì)算機(jī)任務(wù)自動(dòng)化，并展示了其在多種應(yīng)用中的泛化能力和自我改進(jìn)能力。

△OS Agents的部分代表性商業(yè)產(chǎn)品與學(xué)術(shù)研究

本文是對(duì)OS Agents進(jìn)行的一次全面綜述。

首先闡明OS Agents的基礎(chǔ)，探討了其關(guān)鍵要素，包括環(huán)境、觀察空間和動(dòng)作空間，并概述了理解、規(guī)劃和執(zhí)行操作等核心能力。

接著，審視了構(gòu)建OS Agents的方法，重點(diǎn)關(guān)注OS Agents領(lǐng)域特定的基礎(chǔ)模型和智能體框架的開發(fā)。

隨后，文章詳細(xì)回顧了評(píng)估協(xié)議和基準(zhǔn)測(cè)試，展示了OS Agents在多種任務(wù)中的評(píng)估方式。

最后，文章討論了當(dāng)前的挑戰(zhàn)并指出未來研究的潛在方向，包括安全與隱私、個(gè)性化與自我進(jìn)化。

本文旨在梳理OS Agents研究的現(xiàn)狀，為學(xué)術(shù)研究和工業(yè)開發(fā)提供幫助。

為了進(jìn)一步推動(dòng)該領(lǐng)域的創(chuàng)新，團(tuán)隊(duì)還維護(hù)了一個(gè)開源的GitHub倉庫，包含250+有關(guān)OS Agents的論文以及其他相關(guān)資源，并且仍在持續(xù)更新中。（鏈接在文章末尾～）

△OS Agents基礎(chǔ)：關(guān)鍵要素和核心能力

OS Agents基礎(chǔ)

關(guān)鍵要素 (Key Component)

要實(shí)現(xiàn) OS Agents 對(duì)計(jì)算設(shè)備的通用控制，需要通過與操作系統(tǒng)提供的環(huán)境、輸入和輸出接口進(jìn)行交互來完成目標(biāo)。

為滿足這種交互需求，現(xiàn)有的 OS Agents 依賴三個(gè)關(guān)鍵要素：

環(huán)境（Environment）：智能體操作的系統(tǒng)或平臺(tái)，例如電腦、手機(jī)和瀏覽器。環(huán)境是智能體完成任務(wù)的舞臺(tái)，支持從簡(jiǎn)單的信息檢索到復(fù)雜的多步驟操作。
觀察空間（Observation Space）：智能體可獲取的所有信息范圍。這些信息諸如屏幕截圖、文本描述或GUI界面結(jié)構(gòu)，是智能體理解環(huán)境和任務(wù)的基礎(chǔ)。例如，網(wǎng)頁的 HTML 代碼或手機(jī)的屏幕截圖。
動(dòng)作空間（Action Space）：智能體與環(huán)境交互的動(dòng)作集合。它定義了可執(zhí)行的操作，如點(diǎn)擊、輸入文本、導(dǎo)航操作甚至調(diào)用外部工具。這使得智能體能夠自動(dòng)化完成任務(wù)并優(yōu)化工作流。

核心能力 (Capability)

在OS Agents的這些關(guān)鍵要素后，如何與操作系統(tǒng)正確、有效的交互，這就需要考驗(yàn)OS Agents自身各方面的能力。

OS Agents必須掌握的核心能力可以總結(jié)為如下三點(diǎn)：

理解（Understanding）：OS Agents 首先需要理解復(fù)雜的操作環(huán)境。無論是 HTML 代碼、屏幕截圖，還是屏幕界面中密集的圖標(biāo)和文本信息，智能體都需要通過理解能力提取關(guān)鍵內(nèi)容，構(gòu)建對(duì)任務(wù)和環(huán)境的全面認(rèn)知。這種理解能力是處理信息檢索等任務(wù)的前提。
規(guī)劃（Planning）：在任務(wù)執(zhí)行中，OS Agents 的規(guī)劃能力至關(guān)重要。規(guī)劃能力要求OS Agents將復(fù)雜任務(wù)拆解為多個(gè)子任務(wù)，并制定操作序列來實(shí)現(xiàn)目標(biāo)。同時(shí)，它們最好還要能夠據(jù)環(huán)境變化動(dòng)態(tài)調(diào)整計(jì)劃，以適應(yīng)復(fù)雜的操作系統(tǒng)環(huán)境，例如動(dòng)態(tài)網(wǎng)頁和實(shí)時(shí)更新的用戶屏幕界面。
操作（Grounding）：OS Agents最終需要將規(guī)劃轉(zhuǎn)化為具體的、可執(zhí)行的操作，例如點(diǎn)擊按鈕、輸入文本或調(diào)用 API。這種將規(guī)劃“落地”的能力使得它們能夠在真實(shí)環(huán)境中高效完成任務(wù)，并實(shí)現(xiàn)從文字描述到操作執(zhí)行的精準(zhǔn)轉(zhuǎn)換。

OS Agents的構(gòu)建

基礎(chǔ)模型 (Foundation Model)

要構(gòu)建能夠高效執(zhí)行任務(wù)的 OS Agents ，其核心在于開發(fā)適配的基礎(chǔ)模型。

這些模型不僅需要理解復(fù)雜的屏幕界面，還要在多模態(tài)場(chǎng)景下執(zhí)行任務(wù)。

下面是對(duì)基礎(chǔ)模型的架構(gòu)與訓(xùn)練策略的詳細(xì)歸納與總結(jié)：

△OS Agents基礎(chǔ)模型：架構(gòu)、預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)

架構(gòu)（Architecture）：我們將主要的模型架構(gòu)分為四個(gè)類別：1、Existing LLMs：直接采用開源的大語言模型架構(gòu)，將結(jié)構(gòu)化的屏幕界面信息以文本形式輸入給LLMs，從而使得模型可以感知環(huán)境；2、Existing MLLMs：直接采用開源的多模態(tài)大語言模型架構(gòu)，整合文本和視覺處理能力，提升對(duì)GUI的理解能力，減少文本化視覺信息而造成的特征損失；3、?Concatenated MLLMs：由LLM與視覺編碼器橋接而成，靈活性更高，可以根據(jù)任務(wù)需求選擇不同的語言模型和視覺模型進(jìn)行組合；4、Modified MLLMs：對(duì)現(xiàn)有 MLLM 架構(gòu)進(jìn)行優(yōu)化調(diào)整，以解決特定場(chǎng)景的挑戰(zhàn)，如：添加額外模塊（高分辨率視覺編碼器或圖像分割模塊等），以更細(xì)致地感知和理解屏幕界面細(xì)節(jié)。

預(yù)訓(xùn)練（Pre-training）：預(yù)訓(xùn)練為模型構(gòu)建打下基礎(chǔ)，通過海量數(shù)據(jù)提升對(duì)屏幕界面的理解能力。數(shù)據(jù)源包括公共數(shù)據(jù)集、合成數(shù)據(jù)集；預(yù)訓(xùn)練任務(wù)覆蓋屏幕定位（Screen Grounding）、屏幕理解（Screen Understanding）與光學(xué)字符識(shí)別（OCR）等。

監(jiān)督微調(diào)（Supervised Fine-tuning）：監(jiān)督微調(diào)讓模型更貼合 GUI 場(chǎng)景，是提升OS Agents規(guī)劃能力和執(zhí)行能力的重要手段。例如，通過記錄任務(wù)執(zhí)行軌跡生成訓(xùn)練數(shù)據(jù)，或利用 HTML 渲染屏幕界面細(xì)節(jié)，提升模型對(duì)不同 GUI 的泛化能力。

強(qiáng)化學(xué)習(xí)（Reinforcement Learning）：現(xiàn)階段的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了用(M)LLMs作為特征提取到(M)LLM-as-Agent的范式轉(zhuǎn)變，幫助了OS Agents在動(dòng)態(tài)環(huán)境中交互，根據(jù)獎(jiǎng)勵(lì)反饋，不斷優(yōu)化決策。這種方法不僅提升了智能體的對(duì)齊程度，還為視覺和多模態(tài)智能體提供了更強(qiáng)的泛化能力與任務(wù)適配性。

近期OS Agents基礎(chǔ)模型的相關(guān)論文總結(jié)如下：

△OS Agents基礎(chǔ)模型近期研究工作總結(jié)

智能體框架 (Agent Framework)

OS Agents 除了需要強(qiáng)大的基礎(chǔ)模型，還需要搭配上Agent框架來增強(qiáng)感知、規(guī)劃、記憶和行動(dòng)能力。

這些模塊協(xié)同工作，使 OS Agents 能夠高效應(yīng)對(duì)復(fù)雜的任務(wù)和環(huán)境。

以下是OS Agents框架中四大關(guān)鍵模塊的總結(jié)歸納：

△OS Agents框架：感知、規(guī)劃、記憶和行動(dòng)

感知（Perception）：感知作為OS Agents 的“眼睛”，通過輸入的多模態(tài)數(shù)據(jù)（如屏幕截圖、HTML 文檔）觀察環(huán)境。我們將感知細(xì)分為：1、文本感知：將操作系統(tǒng)的狀態(tài)轉(zhuǎn)化為結(jié)構(gòu)化文本描述，如 DOM 樹或 HTML 文件；2、屏幕界面感知：使用視覺編碼器對(duì)屏幕界面截圖進(jìn)行理解，通過視覺定位（如按鈕、菜單）和語義連接（如 HTML 標(biāo)記）精準(zhǔn)識(shí)別關(guān)鍵元素。

規(guī)劃（Planning）：規(guī)劃作為OS Agents 的“大腦”，負(fù)責(zé)制定任務(wù)的執(zhí)行策略，可以分為：1、全局規(guī)劃：一次生成完整計(jì)劃并執(zhí)行；2、迭代規(guī)劃：隨著環(huán)境變化動(dòng)態(tài)調(diào)整計(jì)劃，使智能體能夠適應(yīng)實(shí)時(shí)更新的屏幕界面和任務(wù)需求。

記憶（Memory）：OS Agents框架的“記憶”部分可以幫助存儲(chǔ)任務(wù)數(shù)據(jù)、操作歷史和環(huán)境狀態(tài)。記憶分為三個(gè)類型：1、內(nèi)部記憶（Internal Memory）：存儲(chǔ)操作歷史、屏幕截圖、狀態(tài)數(shù)據(jù)和動(dòng)態(tài)環(huán)境信息，支持任務(wù)執(zhí)行的上下文理解和軌跡優(yōu)化。例如，借助截圖解析屏幕界面布局或根據(jù)歷史操作生成決策；2、外部記憶（External Memory）：提供長(zhǎng)期知識(shí)支持，例如通過調(diào)用外部工具（如 API）或知識(shí)庫獲取領(lǐng)域背景知識(shí)，輔助復(fù)雜任務(wù)的決策；3、特定記憶（Specific Memory）：聚焦于特定任務(wù)的知識(shí)和用戶需求，例如存儲(chǔ)子任務(wù)分解方法、用戶偏好或屏幕界面交互功能，提供高度針對(duì)性的操作支持。此外，我們還總結(jié)了多種記憶優(yōu)化策略。

行動(dòng)（Action）：我們將OS Agents 的行動(dòng)范圍定義為動(dòng)作空間，這包含操作系統(tǒng)交互的方式，我們將其細(xì)分為三個(gè)類別：1、輸入操作：輸入是 OS Agents 與數(shù)字屏幕界面交互的基礎(chǔ)，主要包括鼠標(biāo)操作、觸控操作和鍵盤操作；2、導(dǎo)航操作：使 OS Agents 能夠探索和移動(dòng)于目標(biāo)平臺(tái)，獲取執(zhí)行任務(wù)所需的信息；3、擴(kuò)展操作：突破了傳統(tǒng)屏幕界面交互的限制，為智能體提供更靈活的任務(wù)執(zhí)行能力，例如：代碼執(zhí)行與API 調(diào)用。

近期有關(guān)OS Agents框架的論文總結(jié)如下：

△OS Agents框架近期研究工作總結(jié)

OS Agents的評(píng)估

在 OS Agents 的發(fā)展中，科學(xué)的評(píng)估起到了關(guān)鍵作用，幫助開發(fā)者衡量智能體在各種場(chǎng)景中的性能。

下面的表格總結(jié)了近期有關(guān)OS Agents評(píng)估基準(zhǔn)的論文：

△OS Agents Benchmark近期研究工作總結(jié)

評(píng)估協(xié)議 (Evaluation Protocol)

操作系統(tǒng)智能體評(píng)估的核心可總結(jié)為兩個(gè)關(guān)鍵問題：評(píng)估過程應(yīng)如何進(jìn)行與需要對(duì)哪些方面進(jìn)行評(píng)估。

下面本文將圍繞這兩個(gè)問題，闡述操作系統(tǒng)智能體的評(píng)估原則和指標(biāo)。

評(píng)估原則（Evaluation Principle）：OS Agents 的評(píng)估結(jié)合了多維度的技術(shù)方法，提供對(duì)其能力與局限性的全面洞察，主要分為兩種類型：1、客觀評(píng)估（Objective Evaluation）：通過標(biāo)準(zhǔn)化的數(shù)值指標(biāo)，評(píng)估智能體在特定任務(wù)中的性能。例如，操作的準(zhǔn)確性、任務(wù)的成功率以及語義匹配的精準(zhǔn)度。這樣的評(píng)估方法能快速且標(biāo)準(zhǔn)化地衡量智能體的性能；2、主觀評(píng)估（Subjective Evaluation）：基于人類用戶的主觀感受，評(píng)估智能體的輸出質(zhì)量，包括其相關(guān)性、自然性、連貫性和整體效果。越來越多的研究也利用(M)LLM-as-Judge來進(jìn)行評(píng)估，從而提高效率和一致性。
評(píng)估指標(biāo)（Evaluation Metric）：評(píng)估指標(biāo)聚焦于 OS Agents 的理解、規(guī)劃和操作能力，衡量其在不同任務(wù)中的表現(xiàn)。主要包括以下兩個(gè)方面：1、步驟級(jí)指標(biāo)：評(píng)估智能體在每一步操作中的準(zhǔn)確性，如任務(wù)執(zhí)行中動(dòng)作的語義匹配程度、操作準(zhǔn)確性等；2、任務(wù)級(jí)指標(biāo)：聚焦于整個(gè)任務(wù)完成情況，包括任務(wù)的成功率和完成任務(wù)的效率。

評(píng)估基準(zhǔn) (Evaluation Benchmark)

為了全面評(píng)估 OS Agents 的性能，研究者開發(fā)了多種評(píng)估基準(zhǔn)，涵蓋不同平臺(tái)、環(huán)境設(shè)置和任務(wù)類別。

這些基準(zhǔn)測(cè)試為衡量智能體的跨平臺(tái)適應(yīng)性、動(dòng)態(tài)任務(wù)執(zhí)行能力提供了科學(xué)依據(jù)。

評(píng)估平臺(tái)（Evaluation Platform）：評(píng)估平臺(tái)構(gòu)建了集成的評(píng)估環(huán)境，不同平臺(tái)具有獨(dú)特的挑戰(zhàn)和評(píng)估重點(diǎn)，我們將其主要分為三類：移動(dòng)平臺(tái)（Mobile）、桌面平臺(tái)（Desktop）與網(wǎng)頁平臺(tái)（Web）。

基準(zhǔn)設(shè)置（Benchmark Setting）：該部分將 OS Agents 的評(píng)估環(huán)境分為兩大類：靜態(tài)（Static）環(huán)境和交互式（Interactive）環(huán)境，并進(jìn)一步將交互式環(huán)境細(xì)分為模擬（Simulated）環(huán)境和真實(shí)世界（Real-World）環(huán)境。靜態(tài)環(huán)境適用于基礎(chǔ)任務(wù)的離線評(píng)估，而交互式環(huán)境（尤其是真實(shí)世界環(huán)境）更能全面測(cè)試OS Agents在復(fù)雜動(dòng)態(tài)場(chǎng)景中的實(shí)際能力。真實(shí)世界環(huán)境強(qiáng)調(diào)泛化能力和動(dòng)態(tài)適應(yīng)性，是未來評(píng)估的重要方向。

任務(wù)（Task）：為了全面評(píng)估OS Agents的能力，當(dāng)前的基準(zhǔn)測(cè)試整合了各種專業(yè)化任務(wù)，涵蓋從系統(tǒng)級(jí)任務(wù)（如安裝和卸載應(yīng)用程序）到日常應(yīng)用任務(wù)（如發(fā)送電子郵件和在線購物）。主要可以分為以下三類：1、GUI 定位（GUI Grounding）：評(píng)估OS Agents將指令轉(zhuǎn)換為屏幕界面操作的能力，即如何在操作系統(tǒng)中與指定的可操作元素交互；2、信息處理（Information Processing）：評(píng)估OS Agents高效處理和總結(jié)信息的能力，尤其在動(dòng)態(tài)和復(fù)雜環(huán)境中，從大量數(shù)據(jù)中提取有用信息；3、智能體任務(wù)（Agentic Tasks）：評(píng)估OS Agents的核心能力，如規(guī)劃和執(zhí)行復(fù)雜任務(wù)的能力。這類任務(wù)為智能體提供目標(biāo)或指令，要求其在沒有顯式指導(dǎo)的情況下完成任務(wù)。

挑戰(zhàn)與未來

本部分討論了 OS Agents 面臨的主要挑戰(zhàn)及未來發(fā)展的方向，重點(diǎn)聚焦于安全與隱私（Safety & Privacy）以及個(gè)性化與自我進(jìn)化（Personalization & Self-Evolution）兩個(gè)方面。

安全與隱私

安全與隱私是OS Agents開發(fā)中必須重視的領(lǐng)域。

OS Agents 面臨多種攻擊方式，包括間接提示注入攻擊、惡意彈出窗口和對(duì)抗性指令生成，這些威脅可能導(dǎo)致系統(tǒng)執(zhí)行錯(cuò)誤操作或泄露敏感信息。

盡管目前已有適用于LLMs的安全框架，但針對(duì)OS Agents的防御機(jī)制仍顯不足。

當(dāng)前研究主要集中于設(shè)計(jì)專門應(yīng)對(duì)注入攻擊和后門攻擊等特殊威脅的防御方案，急待開發(fā)全面的且可擴(kuò)展防御框架，以提升 OS Agents 的整體安全性和可靠性。

為評(píng)估OS Agents在不同場(chǎng)景下的魯棒性，還引入了一些智能體安全基準(zhǔn)測(cè)試，用于全面測(cè)試和改進(jìn)系統(tǒng)的安全表現(xiàn)，例如ST-WebAgentBench[17]和MobileSafetyBench[18]。

個(gè)性化與自我進(jìn)化

個(gè)性化OS Agents需要根據(jù)用戶偏好不斷調(diào)整行為和功能。

多模態(tài)大語言模型正逐步支持理解用戶歷史記錄和動(dòng)態(tài)適應(yīng)用戶需求，OpenAI的Memory功能[19]在這一方向上已經(jīng)取得了一定進(jìn)展。

讓智能體通過用戶交互和任務(wù)執(zhí)行過程持續(xù)學(xué)習(xí)和優(yōu)化，從而提升個(gè)性化程度和性能。

未來將記憶機(jī)制擴(kuò)展到更復(fù)雜的形式，如音頻、視頻、傳感器數(shù)據(jù)等，從而提供更高級(jí)的預(yù)測(cè)能力和決策支持。

同時(shí)，支持用戶數(shù)據(jù)驅(qū)動(dòng)的自我優(yōu)化，增強(qiáng)用戶體驗(yàn)。

總結(jié)

多模態(tài)大語言模型的發(fā)展為操作系統(tǒng)智能體（OS Agents）創(chuàng)造了新的機(jī)遇，使得實(shí)現(xiàn)先進(jìn)AI助手的想法更加接近現(xiàn)實(shí)。

本綜述旨在概述OS Agents的基礎(chǔ)，包括其關(guān)鍵組成部分和能力。

此外，文章還回顧了構(gòu)建OS Agents的多種方法，特別關(guān)注領(lǐng)域特定的基礎(chǔ)模型和智能體框架。

在評(píng)估協(xié)議和基準(zhǔn)測(cè)試中，團(tuán)隊(duì)成員細(xì)致分析了各類評(píng)估指標(biāo)，并且將基準(zhǔn)測(cè)試從環(huán)境、設(shè)定與任務(wù)進(jìn)行分類。

展望未來，團(tuán)隊(duì)明確了需要持續(xù)研究和關(guān)注的挑戰(zhàn)，例如安全與隱私、個(gè)性化與自我進(jìn)化等。這些領(lǐng)域是進(jìn)一步研究的重點(diǎn)。

本綜述總結(jié)了該領(lǐng)域的當(dāng)前狀態(tài)，并指出了未來工作的潛在方向，旨在為OS Agents的持續(xù)發(fā)展貢獻(xiàn)力量，并增強(qiáng)其在學(xué)術(shù)界和工業(yè)界的應(yīng)用價(jià)值與實(shí)際意義。

如有錯(cuò)誤，歡迎大家批評(píng)指正，作者也表示，期待各位同行朋友交流討論！

論文鏈接：https://github.com/OS-Agent-Survey/OS-Agent-Survey
項(xiàng)目主頁：https://os-agent-survey.github.io/

參考文獻(xiàn)：
[1]Apple Inc. Siri – apple, 2024.?https://www.apple.com/siri/
[2]Microsoft Research. Cortana research – microsoft research, 2024.?https://www.microsoft.com/en-us/research/group/cortana-research/
[3]Google. Google assistant, 2024.?https://assistant.google.com/
[4]Google. Gemini – google.?https://gemini.google.com/
[5]OpenAI. Home – openai.?https://openai.com/
[6]xAI. x.ai.?https://x.ai/
[7]01.AI. 01.ai.?https://www.lingyiwanwu.com/
[8]Anthropic. Anthropic.?https://www.anthropic.com/
[9]Chatbot arena: An open platform for evaluating llms by human preference, 2024.?https://arxiv.org/abs/2403.04132
[10]Anthropic. 3.5 models and computer use – anthropic, 2024a.?https://www.anthropic.com/news/3-5-models-and-computer-use
[11]Apple. Apple intelligence, 2024.?https://www.apple.com/apple-intelligence/
[12]Autoglm: Autonomous foundation agents for guis.?https://arxiv.org/abs/2411.00820
[13]Google DeepMind. Project mariner, 2024.?https://deepmind.google/technologies/project-mariner/
[14]Anthropic. Claude model – anthropic, 2024b.?https://www.anthropic.com/claude
[15]Os-atlas: A foundation action model for generalist gui agents.?https://arxiv.org/abs/2410.23218
[16]Os-copilot: Towards generalist computer agents with self-improvement.?https://arxiv.org/abs/2402.07456
[17]St-webagentbench: A benchmark for evaluating safety and trustworthiness in web agents, 2024.?http://arxiv.org/abs/2410.06703
[18]Mobilesafetybench: Evaluating safety of autonomous agents in mobile device control, 2024.?https://arxiv.org/abs/2410.17520^Memory?and new controls for ChatGPT.?https://openai.com/index/memory-and-new-controls-for-chatgpt/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

奇月

你的專屬“鋼鐵俠”助手OSAgents來了！浙大等10個(gè)機(jī)構(gòu)全新綜述

OS Agents團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

OS Agents商業(yè)學(xué)術(shù)同時(shí)迸發(fā)

△OS Agents的部分代表性商業(yè)產(chǎn)品與學(xué)術(shù)研究

△OS Agents基礎(chǔ)：關(guān)鍵要素和核心能力