色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

你的專屬“鋼鐵俠”助手OSAgents來了!浙大等10個(gè)機(jī)構(gòu)全新綜述

一文看懂超級(jí)智能助手

OS Agents團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

電影《鋼鐵俠》中,托尼·斯塔克的助手賈維斯(J.A.R.V.I.S.)能幫他控制各種系統(tǒng)并自動(dòng)完成任務(wù),曾讓無數(shù)觀眾羨慕不已。

現(xiàn)在,這樣的超級(jí)智能助手,終于變成現(xiàn)實(shí)了!

隨著多模態(tài)大語言模型的爆發(fā)式進(jìn)化,OS Agents橫空出世,它們能無縫操控電腦和手機(jī),為你自動(dòng)搞定繁瑣任務(wù)。

從Anthropic的Computer Use,到蘋果的Apple Intelligence,再到智譜AI的AutoGLM,以及Google DeepMind的Project Mariner,科技巨頭們的野心都指向了同一個(gè)目標(biāo):打造真正意義上的操作系統(tǒng)智能助手。

OS Agents 已經(jīng)不僅僅是“助手”,它們正在改寫“人機(jī)交互”的游戲規(guī)則。

最近,浙江大學(xué)聯(lián)手OPPO、零一萬物等十個(gè)機(jī)構(gòu)共同梳理了一篇綜述文章《OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use》,不僅詳細(xì)解讀了OS Agents的硬核技術(shù)構(gòu)造,還盤點(diǎn)了它們的評(píng)估方法和未來挑戰(zhàn)。

科技行業(yè)的下一個(gè)新風(fēng)口,會(huì)是OS Agents嗎?

圖片

OS Agents商業(yè)學(xué)術(shù)同時(shí)迸發(fā)

像賈維斯這樣的超級(jí)AI助手,一般被稱為OS Agents,它們能夠通過操作系統(tǒng)(OS)提供的環(huán)境和接口(如圖形用戶界面,GUI),在諸如電腦或者手機(jī)等計(jì)算設(shè)備上自動(dòng)化的完成各類任務(wù)。

OS Agents有巨大的潛力改善全球數(shù)十億用戶的生活,想象一個(gè)世界:在線購物、預(yù)訂差旅等日?;顒?dòng)都可以由這些智能體無縫完成,這將大幅提高人們的生活效率和生產(chǎn)力。

過去,諸如Siri[1]、Cortana[2]和Google Assistant[3]等AI助手,已經(jīng)展示了這一潛力。然而,由于模型能力在過去較為有限,導(dǎo)致這些產(chǎn)品只能完成有限的任務(wù)。

幸運(yùn)的是,隨著多模態(tài)大語言模型的不斷發(fā)展,如Gemini[4] 、GPT[5] 、Grok[6] 、Yi[7] 和Claude[8] 系列模型(排名根據(jù)2024年12月22日更新的 Chatbot Arena LLM Leaderboard[9]),這一領(lǐng)域迎來了新的可能性。

(M)LLMs展現(xiàn)出令人矚目的能力,使得OS Agents能夠更好地理解復(fù)雜任務(wù)并在計(jì)算設(shè)備上執(zhí)行。

基礎(chǔ)模型公司和手機(jī)廠商近期在這一領(lǐng)域動(dòng)作頻頻,例如最近由Anthropic推出的Computer Use[10]、由蘋果公司推出的Apple Intelligence[11]、由智譜AI推出的AutoGLM[12]和由Google DeepMind推出的Project Mariner [13]。

其中,Computer Use利用Claude[14]與用戶的計(jì)算機(jī)直接互動(dòng),可以實(shí)現(xiàn)無縫的任務(wù)自動(dòng)化。

與此同時(shí),學(xué)術(shù)界已經(jīng)提出了各種方法來構(gòu)建基于(M)LLM的OS Agents。

例如,OS-Atlas[15]提出一種 GUI 基礎(chǔ)模型,通過跨多個(gè)平臺(tái)綜合 GUI 操作數(shù)據(jù),大幅改進(jìn)了模型對(duì) GUI 的操作能力,提升OOD任務(wù)的表現(xiàn)。

而OS-Copilot[16]則是一種OS Agents框架,能夠使智能體在少監(jiān)督情況下實(shí)現(xiàn)廣泛的計(jì)算機(jī)任務(wù)自動(dòng)化,并展示了其在多種應(yīng)用中的泛化能力和自我改進(jìn)能力。

圖片

OS Agents的部分代表性商業(yè)產(chǎn)品與學(xué)術(shù)研究

本文是對(duì)OS Agents進(jìn)行的一次全面綜述。

首先闡明OS Agents的基礎(chǔ),探討了其關(guān)鍵要素,包括環(huán)境、觀察空間和動(dòng)作空間,并概述了理解、規(guī)劃和執(zhí)行操作等核心能力。

接著,審視了構(gòu)建OS Agents的方法,重點(diǎn)關(guān)注OS Agents領(lǐng)域特定的基礎(chǔ)模型和智能體框架的開發(fā)。

隨后,文章詳細(xì)回顧了評(píng)估協(xié)議和基準(zhǔn)測(cè)試,展示了OS Agents在多種任務(wù)中的評(píng)估方式。

最后,文章討論了當(dāng)前的挑戰(zhàn)并指出未來研究的潛在方向,包括安全與隱私、個(gè)性化與自我進(jìn)化。

本文旨在梳理OS Agents研究的現(xiàn)狀,為學(xué)術(shù)研究和工業(yè)開發(fā)提供幫助。

為了進(jìn)一步推動(dòng)該領(lǐng)域的創(chuàng)新,團(tuán)隊(duì)還維護(hù)了一個(gè)開源的GitHub倉庫,包含250+有關(guān)OS Agents的論文以及其他相關(guān)資源,并且仍在持續(xù)更新中。(鏈接在文章末尾~)

圖片

OS Agents基礎(chǔ):關(guān)鍵要素和核心能力

OS Agents基礎(chǔ)

關(guān)鍵要素 (Key Component)

要實(shí)現(xiàn) OS Agents 對(duì)計(jì)算設(shè)備的通用控制,需要通過與操作系統(tǒng)提供的環(huán)境、輸入和輸出接口進(jìn)行交互來完成目標(biāo)。

為滿足這種交互需求,現(xiàn)有的 OS Agents 依賴三個(gè)關(guān)鍵要素:

  • 環(huán)境(Environment):智能體操作的系統(tǒng)或平臺(tái),例如電腦、手機(jī)和瀏覽器。環(huán)境是智能體完成任務(wù)的舞臺(tái),支持從簡(jiǎn)單的信息檢索到復(fù)雜的多步驟操作。
  • 觀察空間(Observation Space):智能體可獲取的所有信息范圍。這些信息諸如屏幕截圖、文本描述或GUI界面結(jié)構(gòu),是智能體理解環(huán)境和任務(wù)的基礎(chǔ)。例如,網(wǎng)頁的 HTML 代碼或手機(jī)的屏幕截圖。
  • 動(dòng)作空間(Action Space):智能體與環(huán)境交互的動(dòng)作集合。它定義了可執(zhí)行的操作,如點(diǎn)擊、輸入文本、導(dǎo)航操作甚至調(diào)用外部工具。這使得智能體能夠自動(dòng)化完成任務(wù)并優(yōu)化工作流。

核心能力 (Capability)

在OS Agents的這些關(guān)鍵要素后,如何與操作系統(tǒng)正確、有效的交互,這就需要考驗(yàn)OS Agents自身各方面的能力。

OS Agents必須掌握的核心能力可以總結(jié)為如下三點(diǎn):

  • 理解(Understanding):OS Agents 首先需要理解復(fù)雜的操作環(huán)境。無論是 HTML 代碼、屏幕截圖,還是屏幕界面中密集的圖標(biāo)和文本信息,智能體都需要通過理解能力提取關(guān)鍵內(nèi)容,構(gòu)建對(duì)任務(wù)和環(huán)境的全面認(rèn)知。這種理解能力是處理信息檢索等任務(wù)的前提。
  • 規(guī)劃(Planning):在任務(wù)執(zhí)行中,OS Agents 的規(guī)劃能力至關(guān)重要。規(guī)劃能力要求OS Agents將復(fù)雜任務(wù)拆解為多個(gè)子任務(wù),并制定操作序列來實(shí)現(xiàn)目標(biāo)。同時(shí),它們最好還要能夠據(jù)環(huán)境變化動(dòng)態(tài)調(diào)整計(jì)劃,以適應(yīng)復(fù)雜的操作系統(tǒng)環(huán)境,例如動(dòng)態(tài)網(wǎng)頁和實(shí)時(shí)更新的用戶屏幕界面。
  • 操作(Grounding):OS Agents最終需要將規(guī)劃轉(zhuǎn)化為具體的、可執(zhí)行的操作,例如點(diǎn)擊按鈕、輸入文本或調(diào)用 API。這種將規(guī)劃“落地”的能力使得它們能夠在真實(shí)環(huán)境中高效完成任務(wù),并實(shí)現(xiàn)從文字描述到操作執(zhí)行的精準(zhǔn)轉(zhuǎn)換。

OS Agents的構(gòu)建

基礎(chǔ)模型 (Foundation Model)

要構(gòu)建能夠高效執(zhí)行任務(wù)的 OS Agents ,其核心在于開發(fā)適配的基礎(chǔ)模型。

這些模型不僅需要理解復(fù)雜的屏幕界面,還要在多模態(tài)場(chǎng)景下執(zhí)行任務(wù)。

下面是對(duì)基礎(chǔ)模型的架構(gòu)與訓(xùn)練策略的詳細(xì)歸納與總結(jié):

圖片

OS Agents基礎(chǔ)模型:架構(gòu)、預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)

架構(gòu)(Architecture):我們將主要的模型架構(gòu)分為四個(gè)類別:1、Existing LLMs:直接采用開源的大語言模型架構(gòu),將結(jié)構(gòu)化的屏幕界面信息以文本形式輸入給LLMs,從而使得模型可以感知環(huán)境;2、Existing MLLMs:直接采用開源的多模態(tài)大語言模型架構(gòu),整合文本和視覺處理能力,提升對(duì)GUI的理解能力,減少文本化視覺信息而造成的特征損失;3、?Concatenated MLLMs:由LLM與視覺編碼器橋接而成,靈活性更高,可以根據(jù)任務(wù)需求選擇不同的語言模型和視覺模型進(jìn)行組合;4、Modified MLLMs:對(duì)現(xiàn)有 MLLM 架構(gòu)進(jìn)行優(yōu)化調(diào)整,以解決特定場(chǎng)景的挑戰(zhàn),如:添加額外模塊(高分辨率視覺編碼器或圖像分割模塊等),以更細(xì)致地感知和理解屏幕界面細(xì)節(jié)。

預(yù)訓(xùn)練(Pre-training):預(yù)訓(xùn)練為模型構(gòu)建打下基礎(chǔ),通過海量數(shù)據(jù)提升對(duì)屏幕界面的理解能力。數(shù)據(jù)源包括公共數(shù)據(jù)集、合成數(shù)據(jù)集;預(yù)訓(xùn)練任務(wù)覆蓋屏幕定位(Screen Grounding)、屏幕理解(Screen Understanding)與光學(xué)字符識(shí)別(OCR)等。

監(jiān)督微調(diào)(Supervised Fine-tuning):監(jiān)督微調(diào)讓模型更貼合 GUI 場(chǎng)景,是提升OS Agents規(guī)劃能力和執(zhí)行能力的重要手段。例如,通過記錄任務(wù)執(zhí)行軌跡生成訓(xùn)練數(shù)據(jù),或利用 HTML 渲染屏幕界面細(xì)節(jié),提升模型對(duì)不同 GUI 的泛化能力。

強(qiáng)化學(xué)習(xí)(Reinforcement Learning):現(xiàn)階段的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了用(M)LLMs作為特征提取到(M)LLM-as-Agent的范式轉(zhuǎn)變,幫助了OS Agents在動(dòng)態(tài)環(huán)境中交互,根據(jù)獎(jiǎng)勵(lì)反饋,不斷優(yōu)化決策。這種方法不僅提升了智能體的對(duì)齊程度,還為視覺和多模態(tài)智能體提供了更強(qiáng)的泛化能力與任務(wù)適配性。

近期OS Agents基礎(chǔ)模型的相關(guān)論文總結(jié)如下:

圖片

OS Agents基礎(chǔ)模型近期研究工作總結(jié)

智能體框架 (Agent Framework)

OS Agents 除了需要強(qiáng)大的基礎(chǔ)模型,還需要搭配上Agent框架來增強(qiáng)感知、規(guī)劃、記憶和行動(dòng)能力。

這些模塊協(xié)同工作,使 OS Agents 能夠高效應(yīng)對(duì)復(fù)雜的任務(wù)和環(huán)境。

以下是OS Agents框架中四大關(guān)鍵模塊的總結(jié)歸納:

圖片

OS Agents框架:感知、規(guī)劃、記憶和行動(dòng)

感知(Perception):感知作為OS Agents 的“眼睛”,通過輸入的多模態(tài)數(shù)據(jù)(如屏幕截圖、HTML 文檔)觀察環(huán)境。我們將感知細(xì)分為:1、文本感知:將操作系統(tǒng)的狀態(tài)轉(zhuǎn)化為結(jié)構(gòu)化文本描述,如 DOM 樹或 HTML 文件;2、屏幕界面感知:使用視覺編碼器對(duì)屏幕界面截圖進(jìn)行理解,通過視覺定位(如按鈕、菜單)和語義連接(如 HTML 標(biāo)記)精準(zhǔn)識(shí)別關(guān)鍵元素。

規(guī)劃(Planning):規(guī)劃作為OS Agents 的“大腦”,負(fù)責(zé)制定任務(wù)的執(zhí)行策略,可以分為:1、全局規(guī)劃:一次生成完整計(jì)劃并執(zhí)行;2、迭代規(guī)劃:隨著環(huán)境變化動(dòng)態(tài)調(diào)整計(jì)劃,使智能體能夠適應(yīng)實(shí)時(shí)更新的屏幕界面和任務(wù)需求。

記憶(Memory):OS Agents框架的“記憶”部分可以幫助存儲(chǔ)任務(wù)數(shù)據(jù)、操作歷史和環(huán)境狀態(tài)。記憶分為三個(gè)類型:1、內(nèi)部記憶(Internal Memory):存儲(chǔ)操作歷史、屏幕截圖、狀態(tài)數(shù)據(jù)和動(dòng)態(tài)環(huán)境信息,支持任務(wù)執(zhí)行的上下文理解和軌跡優(yōu)化。例如,借助截圖解析屏幕界面布局或根據(jù)歷史操作生成決策;2、外部記憶(External Memory):提供長(zhǎng)期知識(shí)支持,例如通過調(diào)用外部工具(如 API)或知識(shí)庫獲取領(lǐng)域背景知識(shí),輔助復(fù)雜任務(wù)的決策;3、特定記憶(Specific Memory):聚焦于特定任務(wù)的知識(shí)和用戶需求,例如存儲(chǔ)子任務(wù)分解方法、用戶偏好或屏幕界面交互功能,提供高度針對(duì)性的操作支持。此外,我們還總結(jié)了多種記憶優(yōu)化策略。

行動(dòng)(Action):我們將OS Agents 的行動(dòng)范圍定義為動(dòng)作空間,這包含操作系統(tǒng)交互的方式,我們將其細(xì)分為三個(gè)類別:1、輸入操作:輸入是 OS Agents 與數(shù)字屏幕界面交互的基礎(chǔ),主要包括鼠標(biāo)操作、觸控操作和鍵盤操作;2、導(dǎo)航操作:使 OS Agents 能夠探索和移動(dòng)于目標(biāo)平臺(tái),獲取執(zhí)行任務(wù)所需的信息;3、擴(kuò)展操作:突破了傳統(tǒng)屏幕界面交互的限制,為智能體提供更靈活的任務(wù)執(zhí)行能力,例如:代碼執(zhí)行與API 調(diào)用。

近期有關(guān)OS Agents框架的論文總結(jié)如下:

圖片

OS Agents框架近期研究工作總結(jié)

OS Agents的評(píng)估

在 OS Agents 的發(fā)展中,科學(xué)的評(píng)估起到了關(guān)鍵作用,幫助開發(fā)者衡量智能體在各種場(chǎng)景中的性能。

下面的表格總結(jié)了近期有關(guān)OS Agents評(píng)估基準(zhǔn)的論文:

圖片

OS Agents Benchmark近期研究工作總結(jié)

評(píng)估協(xié)議 (Evaluation Protocol)

操作系統(tǒng)智能體評(píng)估的核心可總結(jié)為兩個(gè)關(guān)鍵問題:評(píng)估過程應(yīng)如何進(jìn)行與需要對(duì)哪些方面進(jìn)行評(píng)估。

下面本文將圍繞這兩個(gè)問題,闡述操作系統(tǒng)智能體的評(píng)估原則和指標(biāo)。

  • 評(píng)估原則(Evaluation Principle):OS Agents 的評(píng)估結(jié)合了多維度的技術(shù)方法,提供對(duì)其能力與局限性的全面洞察,主要分為兩種類型:1、客觀評(píng)估(Objective Evaluation):通過標(biāo)準(zhǔn)化的數(shù)值指標(biāo),評(píng)估智能體在特定任務(wù)中的性能。例如,操作的準(zhǔn)確性、任務(wù)的成功率以及語義匹配的精準(zhǔn)度。這樣的評(píng)估方法能快速且標(biāo)準(zhǔn)化地衡量智能體的性能;2、主觀評(píng)估(Subjective Evaluation):基于人類用戶的主觀感受,評(píng)估智能體的輸出質(zhì)量,包括其相關(guān)性、自然性、連貫性和整體效果。越來越多的研究也利用(M)LLM-as-Judge來進(jìn)行評(píng)估,從而提高效率和一致性。
  • 評(píng)估指標(biāo)(Evaluation Metric):評(píng)估指標(biāo)聚焦于 OS Agents 的理解、規(guī)劃和操作能力,衡量其在不同任務(wù)中的表現(xiàn)。主要包括以下兩個(gè)方面:1、步驟級(jí)指標(biāo):評(píng)估智能體在每一步操作中的準(zhǔn)確性,如任務(wù)執(zhí)行中動(dòng)作的語義匹配程度、操作準(zhǔn)確性等;2、任務(wù)級(jí)指標(biāo):聚焦于整個(gè)任務(wù)完成情況,包括任務(wù)的成功率和完成任務(wù)的效率。

評(píng)估基準(zhǔn) (Evaluation Benchmark)

為了全面評(píng)估 OS Agents 的性能,研究者開發(fā)了多種評(píng)估基準(zhǔn),涵蓋不同平臺(tái)、環(huán)境設(shè)置和任務(wù)類別。

這些基準(zhǔn)測(cè)試為衡量智能體的跨平臺(tái)適應(yīng)性、動(dòng)態(tài)任務(wù)執(zhí)行能力提供了科學(xué)依據(jù)。

評(píng)估平臺(tái)(Evaluation Platform):評(píng)估平臺(tái)構(gòu)建了集成的評(píng)估環(huán)境,不同平臺(tái)具有獨(dú)特的挑戰(zhàn)和評(píng)估重點(diǎn),我們將其主要分為三類:移動(dòng)平臺(tái)(Mobile)、桌面平臺(tái)(Desktop)與網(wǎng)頁平臺(tái)(Web)。

基準(zhǔn)設(shè)置(Benchmark Setting):該部分將 OS Agents 的評(píng)估環(huán)境分為兩大類:靜態(tài)(Static)環(huán)境和交互式(Interactive)環(huán)境,并進(jìn)一步將交互式環(huán)境細(xì)分為模擬(Simulated)環(huán)境和真實(shí)世界(Real-World)環(huán)境。靜態(tài)環(huán)境適用于基礎(chǔ)任務(wù)的離線評(píng)估,而交互式環(huán)境(尤其是真實(shí)世界環(huán)境)更能全面測(cè)試OS Agents在復(fù)雜動(dòng)態(tài)場(chǎng)景中的實(shí)際能力。真實(shí)世界環(huán)境強(qiáng)調(diào)泛化能力和動(dòng)態(tài)適應(yīng)性,是未來評(píng)估的重要方向。

任務(wù)(Task):為了全面評(píng)估OS Agents的能力,當(dāng)前的基準(zhǔn)測(cè)試整合了各種專業(yè)化任務(wù),涵蓋從系統(tǒng)級(jí)任務(wù)(如安裝和卸載應(yīng)用程序)到日常應(yīng)用任務(wù)(如發(fā)送電子郵件和在線購物)。主要可以分為以下三類:1、GUI 定位(GUI Grounding):評(píng)估OS Agents將指令轉(zhuǎn)換為屏幕界面操作的能力,即如何在操作系統(tǒng)中與指定的可操作元素交互;2、信息處理(Information Processing):評(píng)估OS Agents高效處理和總結(jié)信息的能力,尤其在動(dòng)態(tài)和復(fù)雜環(huán)境中,從大量數(shù)據(jù)中提取有用信息;3、智能體任務(wù)(Agentic Tasks):評(píng)估OS Agents的核心能力,如規(guī)劃和執(zhí)行復(fù)雜任務(wù)的能力。這類任務(wù)為智能體提供目標(biāo)或指令,要求其在沒有顯式指導(dǎo)的情況下完成任務(wù)。

挑戰(zhàn)與未來

本部分討論了 OS Agents 面臨的主要挑戰(zhàn)及未來發(fā)展的方向,重點(diǎn)聚焦于安全與隱私(Safety & Privacy)以及個(gè)性化與自我進(jìn)化(Personalization & Self-Evolution)兩個(gè)方面。

安全與隱私

安全與隱私是OS Agents開發(fā)中必須重視的領(lǐng)域。

OS Agents 面臨多種攻擊方式,包括間接提示注入攻擊、惡意彈出窗口和對(duì)抗性指令生成,這些威脅可能導(dǎo)致系統(tǒng)執(zhí)行錯(cuò)誤操作或泄露敏感信息。

盡管目前已有適用于LLMs的安全框架,但針對(duì)OS Agents的防御機(jī)制仍顯不足。

當(dāng)前研究主要集中于設(shè)計(jì)專門應(yīng)對(duì)注入攻擊和后門攻擊等特殊威脅的防御方案,急待開發(fā)全面的且可擴(kuò)展防御框架,以提升 OS Agents 的整體安全性和可靠性。

為評(píng)估OS Agents在不同場(chǎng)景下的魯棒性,還引入了一些智能體安全基準(zhǔn)測(cè)試,用于全面測(cè)試和改進(jìn)系統(tǒng)的安全表現(xiàn),例如ST-WebAgentBench[17]和MobileSafetyBench[18]。

個(gè)性化與自我進(jìn)化

個(gè)性化OS Agents需要根據(jù)用戶偏好不斷調(diào)整行為和功能。

多模態(tài)大語言模型正逐步支持理解用戶歷史記錄和動(dòng)態(tài)適應(yīng)用戶需求,OpenAI的Memory功能[19]在這一方向上已經(jīng)取得了一定進(jìn)展。

讓智能體通過用戶交互和任務(wù)執(zhí)行過程持續(xù)學(xué)習(xí)和優(yōu)化,從而提升個(gè)性化程度和性能。

未來將記憶機(jī)制擴(kuò)展到更復(fù)雜的形式,如音頻、視頻、傳感器數(shù)據(jù)等,從而提供更高級(jí)的預(yù)測(cè)能力和決策支持。

同時(shí),支持用戶數(shù)據(jù)驅(qū)動(dòng)的自我優(yōu)化,增強(qiáng)用戶體驗(yàn)。

總結(jié)

多模態(tài)大語言模型的發(fā)展為操作系統(tǒng)智能體(OS Agents)創(chuàng)造了新的機(jī)遇,使得實(shí)現(xiàn)先進(jìn)AI助手的想法更加接近現(xiàn)實(shí)。

本綜述旨在概述OS Agents的基礎(chǔ),包括其關(guān)鍵組成部分和能力。

此外,文章還回顧了構(gòu)建OS Agents的多種方法,特別關(guān)注領(lǐng)域特定的基礎(chǔ)模型和智能體框架。

在評(píng)估協(xié)議和基準(zhǔn)測(cè)試中,團(tuán)隊(duì)成員細(xì)致分析了各類評(píng)估指標(biāo),并且將基準(zhǔn)測(cè)試從環(huán)境、設(shè)定與任務(wù)進(jìn)行分類。

展望未來,團(tuán)隊(duì)明確了需要持續(xù)研究和關(guān)注的挑戰(zhàn),例如安全與隱私、個(gè)性化與自我進(jìn)化等。這些領(lǐng)域是進(jìn)一步研究的重點(diǎn)。

本綜述總結(jié)了該領(lǐng)域的當(dāng)前狀態(tài),并指出了未來工作的潛在方向,旨在為OS Agents的持續(xù)發(fā)展貢獻(xiàn)力量,并增強(qiáng)其在學(xué)術(shù)界和工業(yè)界的應(yīng)用價(jià)值與實(shí)際意義。

如有錯(cuò)誤,歡迎大家批評(píng)指正,作者也表示,期待各位同行朋友交流討論!

論文鏈接:https://github.com/OS-Agent-Survey/OS-Agent-Survey
項(xiàng)目主頁:https://os-agent-survey.github.io/

參考文獻(xiàn):
[1]Apple Inc. Siri – apple, 2024.?https://www.apple.com/siri/
[2]Microsoft Research. Cortana research – microsoft research, 2024.?https://www.microsoft.com/en-us/research/group/cortana-research/
[3]Google. Google assistant, 2024.?https://assistant.google.com/
[4]Google. Gemini – google.?https://gemini.google.com/
[5]OpenAI. Home – openai.?https://openai.com/
[6]xAI. x.ai.?https://x.ai/
[7]01.AI. 01.ai.?https://www.lingyiwanwu.com/
[8]Anthropic. Anthropic.?https://www.anthropic.com/
[9]Chatbot arena: An open platform for evaluating llms by human preference, 2024.?https://arxiv.org/abs/2403.04132
[10]Anthropic. 3.5 models and computer use – anthropic, 2024a.?https://www.anthropic.com/news/3-5-models-and-computer-use
[11]Apple. Apple intelligence, 2024.?https://www.apple.com/apple-intelligence/
[12]Autoglm: Autonomous foundation agents for guis.?https://arxiv.org/abs/2411.00820
[13]Google DeepMind. Project mariner, 2024.?https://deepmind.google/technologies/project-mariner/
[14]Anthropic. Claude model – anthropic, 2024b.?https://www.anthropic.com/claude
[15]Os-atlas: A foundation action model for generalist gui agents.?https://arxiv.org/abs/2410.23218
[16]Os-copilot: Towards generalist computer agents with self-improvement.?https://arxiv.org/abs/2402.07456
[17]St-webagentbench: A benchmark for evaluating safety and trustworthiness in web agents, 2024.?http://arxiv.org/abs/2410.06703
[18]Mobilesafetybench: Evaluating safety of autonomous agents in mobile device control, 2024.?https://arxiv.org/abs/2410.17520^Memory?and new controls for ChatGPT.?https://openai.com/index/memory-and-new-controls-for-chatgpt/

版權(quán)所有,未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用,違者必究。
图片区小说区国产精品视频| 亚洲无码久久久久久久| 亚洲激情在线观看| 国产精品欧美一区二区三区| 国产肉体xxxx裸体784大胆| 亚洲va韩国va欧美va精四季| 97精品免费视频| 欧美午夜精品久久久久久久| av网站一区二区三区| 99在线观看精品视频| 成人高潮免费视频| 日本高清一区二区视频| 欧美爱爱视频网站| 国产91视觉| 欧美精品激情在线观看| 日韩精品免费在线播放| 在线免费观看日本欧美| 久久在线观看免费| 久久99蜜桃精品| 中文字幕一区二区三区波野结| 中文字幕国产专区| 亚洲欧美天堂在线| 亚洲AV无码片久久精品| 最新国产成人在线观看| 日韩免费高清一区二区| 亚洲三级电影全部在线观看高清| 免费在线观看黄网站| 极品少妇xxxx偷拍精品少妇| 久久久999国产| 激情亚洲综合在线| a级片在线观看免费| 午夜宅男在线视频| 国产深夜男女无套内射| 久久国产精品久久精品国产| 亚洲在线免费看| 日本sm极度另类视频| 久久精彩免费视频| 国产欧美在线播放| 国产乱人伦真实精品视频| 欧美日本亚洲视频| 大胆欧美人体视频| 精品国产一区二区三区久久狼黑人| 亚洲国产精品大全| 日韩成人中文字幕| 日本久久亚洲电影| 国产91在线高潮白浆在线观看| 国产精品一区二区a| 99久久久精品免费观看国产| 99国产视频在线| 中文字幕人妻熟女人妻洋洋| 超级碰在线观看| 欧美日韩午夜爽爽| 亚洲の无码国产の无码步美| 久久国产精品无码一级毛片| 黄色片中文字幕| 中文字幕在线观看精品| 国产69精品久久久久777| 狠狠色狠狠色综合日日91app| 国产精品国产自产拍在线| 亚洲私人影院在线观看| 亚洲国产欧美一区| 国产欧美va欧美va香蕉在| 在线观看av的网址| 性少妇xx生活| 精品久久免费视频| 最新中文字幕免费| 无码国产精品高潮久久99| 视频一区欧美日韩| 国产成人在线视频播放| 国产日韩欧美电影| 午夜欧美一区二区三区在线播放| 欧美日韩另类在线| 欧美一区二区大片| 日韩在线视频导航| 国产精品日韩一区| 欧美亚洲另类久久综合| 国产一级片91| 免费网站观看www在线观| 中文字幕日韩第一页| 久久久亚洲综合| 婷婷夜色潮精品综合在线| 中文字幕精品国产| 久热精品在线视频| 日韩国产成人在线| 国产微拍精品一区| 国产一区二区视频免费观看| 久久一区亚洲| 色综合亚洲欧洲| 亚洲黄页视频免费观看| 国产精品18毛片一区二区| 性猛交ⅹ×××乱大交| 影音先锋制服丝袜| 精品久久久久久久久久久久久久久久| 精品毛片在线观看| 成人av电影在线网| 色综合一区二区| 情事1991在线| 在线观看日本www| 欧美成人一二三区| 91美女片黄在线观看91美女| 色哟哟精品一区| 国产欧美一区二区三区久久| 中国特级黄色片| 日韩伦理在线视频| 亚洲乱码精品一二三四区日韩在线| 91精品国产福利| 精品久久sese| 91性高潮久久久久久久| 久青草免费视频| 日韩有码一区二区三区| 久久久高清一区二区三区| 色婷婷av一区二区三区之红樱桃 | 色91精品久久久久久久久| 97精品人妻一区二区三区香蕉| 色综合久久综合网97色综合| 成人在线观看网址| 国产传媒免费在线观看| 国产精品美女久久久久久久网站| 日产日韩在线亚洲欧美| 国产在线观看无码免费视频| 91毛片在线观看| 97超级碰碰碰| 一区二区精品免费视频| 亚洲人视频在线| 日本一级二级视频| 日本特黄久久久高潮| 中文字幕亚洲综合久久菠萝蜜| 中文字幕最新精品| 五月婷婷激情久久| 久久国产综合精品| 亚洲国产一区视频| 91国产丝袜在线播放| 欧美猛男gaygay网站| 97精品国产97久久久久久| www.日本久久| 成人国产电影网| 51ⅴ精品国产91久久久久久| 色播五月综合| 粉嫩aⅴ一区二区三区| 色综合天天综合网天天看片| 久久免费看av| 伊人久久中文字幕| 欧美一区二区私人影院日本| 欧美美女黄色网| 美腿丝袜在线亚洲一区| 91黄色免费观看| 天天爱天天做天天操| 蜜臀久久久久久999| 亚洲国产中文字幕| 成人在线观看av| 影音先锋国产在线| 亚洲精品久久久久中文字幕欢迎你| 久久久久久久久久伊人| 奇米888四色在线精品| 欧美高清视频在线| 顶臀精品视频www| 色婷婷av一区二区三区gif| 亚洲第一综合网站| 免费成人在线视频观看| 国产精品久久久久77777| 日本女优爱爱视频| 成人精品视频.| 91手机在线播放| 国产伦精品一区二区三区妓女| 在线播放日韩精品| 中文字幕不卡在线播放| 日韩成人在线网站| 日韩免费毛片视频| 91免费看视频| 日韩免费中文专区| 2019国产精品视频| 亚洲ⅴ国产v天堂a无码二区| 日本黄色一区二区| 在线观看国产黄| 日韩在线观看视频免费| 天天爽天天爽天天爽| 成人avav影音| 91蝌蚪porny| 亚洲资源在线网| 欧美视频一二三| 亚洲天堂网在线观看视频| 区一区二区三区中文字幕| 精品一区电影国产| 26uuu精品一区二区在线观看| 亚洲成人av中文字幕| 日本中文字幕有码| 欧美人狂配大交3d怪物一区| 日本猛少妇色xxxxx免费网站| 欧美va亚洲va在线观看蝴蝶网| 亚洲精品中文在线观看| 99久re热视频精品98| 欧美电影免费观看完整版| 色老头一区二区| 一区二区三区不卡在线| 精品欧美国产一区二区三区| 亚洲区 欧美区| av中文字幕一区| 三上悠亚在线一区| 97人人模人人爽人人喊中文字| 亚洲最新在线观看| 精品人妻无码一区二区三区蜜桃一| 日本a在线天堂| 欧美日本精品一区二区三区| 日韩欧美精品网站| 亚洲精品在线视频观看| 亚洲一区在线播放| 青青草激情视频| 欧美一区二区色| 久久成人小视频| 欧美一区二区三区公司| 国产亚洲色婷婷久久| 日韩一区欧美小说| 人人爽人人爽人人片| 亚洲aa中文字幕| av色综合久久天堂av综合| 乱人伦xxxx国语对白| 色综合久综合久久综合久鬼88| 国产精品白丝在线| 成人av在线资源| 日产国产欧美视频一区精品| 天天综合网久久综合网| 爱爱爱爱免费视频| 国产成人亚洲精品| 中文字幕不卡在线播放| 无码人妻丰满熟妇啪啪网站| 欧美一级电影久久| 成人欧美一区二区三区| 久青草视频在线观看| 日韩视频中文字幕| 超碰超碰超碰超碰| 国产人妻精品久久久久野外| 成人国产一区二区三区| 欧美日韩一区不卡| 国产一区二区三区四区五区入口 | 91国产福利在线| 国产偷拍一区二区| 久久久久亚洲av无码a片| 青青草视频一区| av网页在线观看| 亚洲综合在线中文字幕| 天天综合色天天综合色h| 久久婷婷国产麻豆91| 欧美日韩精品综合| 日韩网站在线观看| 一区二区三区精品在线| 天堂а√在线中文在线鲁大师| 天天干天天做天天操| 自拍偷拍一区二区三区| 欧美日韩色婷婷| 中文字幕69页| 一区二区三区 日韩| 国产欧美日本在线| xxx一区二区| 中文久久乱码一区二区| 波多野结衣电车痴汉| 免费看一级黄色| 国产乱女淫av麻豆国产| 精品人妻少妇一区二区| 日韩三级电影免费观看| 神马久久久久久| 久久久久久久国产精品影院| 日本黄色片视频| 欧美一区二区成人6969| 亚洲视频精选在线| 无码一区二区三区| 日韩色妇久久av| 亚洲欧美一区二区三区国产精品 | 成 人 黄 色 小说网站 s色| 成人午夜在线视频一区| 91麻豆国产精品| 亚洲人成色777777老人头| 伊人成人免费视频| 国内精品在线观看视频| 国产 福利 在线| 国产69精品久久久久999小说| 五月天婷婷在线观看视频| 国产三级国产精品| 久草福利资源在线观看| 欧美肥妇bbwbbw| 美女喷白浆视频| 欧美伦理一区二区| 国产精品国内视频| 国产综合在线看| 日韩亚洲精品电影| 91精品国产aⅴ一区二区| 日本午夜视频在线观看| 香蕉久久夜色| 亚洲女人天堂视频| 国产欧美综合在线观看第十页| 国产又大又粗又硬| 国产一卡二卡三卡四卡| 国产sm调教视频| 亚洲一二在线观看| 欧美日韩一区在线观看| 欧美日韩在线综合| 精品噜噜噜噜久久久久久久久试看| 精品国产网站在线观看| 欧美一级黄色网| 51蜜桃传媒精品一区二区| 欧美一区二区三区…… | 日韩精品最新在线观看| 日本一区二区在线| 国产精品久久久久久影视| 亚洲成人激情视频| 色综合一个色综合| 亚洲午夜精品网| 国产亚洲一区二区在线观看| 香蕉视频国产在线| 免费一级a毛片夜夜看| 国产精品久久久久久在线 | 中文字幕资源在线观看| 亚洲最大成人在线观看| av永久免费观看| 国产日韩在线观看一区| 亚洲另类中文字| 91免费观看网站| 国产91丝袜美女在线播放| av免费在线不卡| av影院午夜一区| 亚洲成在线观看| 欧美一区二区在线免费观看| 亚洲免费影视第一页| 日韩在线视频二区| 亚洲va欧美va国产综合久久| 亚洲国产精品视频一区| 午夜大片在线观看| 欧美日韩精品在线观看视频| 中文字幕无线码一区| www.四虎在线观看| 国产a级毛片一区| 天天影视网天天综合色在线播放| 日韩午夜在线影院| 秋霞av鲁丝片一区二区| 国产精品嫩草影院8vv8| 亚洲va在线va天堂va偷拍| 国产精品日日摸夜夜爽| 成年人在线免费看片| 亚洲制服丝袜在线播放| 丰满少妇在线观看资源站| 国产熟女一区二区三区四区| 成人激情午夜影院| 日韩av影院在线观看| 欧美成人免费大片| 给我免费播放片在线观看| 日韩久久久久久久久| 国产成人精品影视| 欧美乱妇一区二区三区不卡视频| 97久久天天综合色天天综合色hd| 亚洲在线www| 国产色一区二区三区| 久久精品国产亚洲av久| 老司机免费视频一区二区三区| 久久久精品久久久| 日韩在线视频在线观看| av鲁丝一区鲁丝二区鲁丝三区| 精品国产无码一区二区三区| 婷婷丁香久久五月婷婷| 国产不卡一区二区在线观看| 免费不卡av网站| 久久人人爽av| 国产精品视频第一页| 精品毛片网大全| 国产伦一区二区三区色一情| 精品无码久久久久久久久| 欧美日韩美女视频| 免费激情视频在线观看| 亚洲国产精品精华液2区45| 欧美一级片免费在线| 97人妻人人揉人人躁人人| 国产白丝一区二区三区 | 亚洲欧美日韩图片| 18视频在线观看娇喘| 久久精品久久国产| 亚洲成人自拍偷拍| 国产精品成人久久久久| 国产3p露脸普通话对白| 国产精品人妻一区二区三区| 天天av天天翘天天综合网色鬼国产 | 一级少妇精品久久久久久久| 国产精品一区免费在线观看| 欧美老少配视频| 精品国产综合久久| 污污污www精品国产网站| 欧美国产精品一区二区三区| 国产精品久久久久久网站| 中文字幕美女视频| 一区二区三区日韩在线| 亚洲欧洲久久久| 日韩在线免费观看视频| 免费麻豆国产一区二区三区四区| 欧美丰满少妇xxxxx高潮对白| 欧美大片在线播放| 亚洲欧洲成人在线| 在线成人激情视频| 久久久久无码精品| 国产精一区二区三区| www欧美日韩| 波多野结衣办公室33分钟| 日本久久一区二区| 大片在线观看网站免费收看| 男人午夜免费视频| 欧美日韩亚洲高清一区二区| 一区二区三区四区五区精品| 国产精品久久久久久免费播放 | 久久精品一区二区三区不卡免费视频| 91网站免费入口| 五月开心婷婷久久| 182在线视频| 欧美日韩精品一区二区| 亚洲xxxx3d|