色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

“最強具身VLA大模型”,究竟強在哪兒?

讓機器人從失敗中學習

henry 發自 凹非寺

量子位 | 公眾號 QbitAI

看似輕描淡寫,實則力透紙背。

Physical Intelligence刷屏全網的機器人基礎模型π*0.6,一亮相就秀出了實力:

讓機器人連續一整天制作意式濃縮咖啡,數小時不間斷折疊各類衣物,還能精準組裝工廠所需的包裝紙箱。

π*0.6的加持下,這些任務的成功率都達到了90%以上。

“最強具身VLA大模型”,究竟強在哪兒?

然而,仔細閱讀論文就會發現,比起連做13個小時咖啡,π*0.6真正的突破在于引入了一種更直覺的學習方法——Recap:

  • 指導:用人類示范教它基礎動作
  • 輔導:糾錯指導讓它修正錯誤
  • 練習:從自主經驗中不斷優化、變得更強

這徹底扭轉了過去機器人只會逼近 “真值” 的模仿學習模式,讓機器人能從自己的錯誤中成長。

就連網友也直呼:

從錯誤中學習,這不比人都強?

“最強具身VLA大模型”,究竟強在哪兒?

最強VLA模型——π*0.6

π*0.6延續了Physical Intelligence此前一貫的VLA(視覺-語言-動作模型)路線,是今年四月份發布π0.5以來最新的VLA模型。

“最強具身VLA大模型”,究竟強在哪兒?

總的來說,π*0.6的核心貢獻在于提出了一種通用訓練方法——基于優勢條件策略的經驗與糾偏強化學習(RL with Experience & Corrections via Advantage-conditioned Policies,RECAP)。

“最強具身VLA大模型”,究竟強在哪兒?

RECAP讓VLA能夠使用獎勵反饋和人類介入進行訓練,其主要包含三個階段:

  • 離線RL:基于多機器人、多任務的示范數據(包括失敗數據)訓練價值函數和策略
  • 微調:用人類示范將π*0.6適配到具體任務(咖啡/折衣服/組裝盒子)
  • 在線階段:機器人自主執行任務,獲得稀疏獎勵,并結合專家在線糾偏,更新價值函數,再通過優勢條件化改進策略
“最強具身VLA大模型”,究竟強在哪兒?

接下來,讓我們具體來看。

首先,對于為什么RECAP選擇價值函數,而不是標準的策略梯度,這里有個關鍵的巧思。

一方面,真實機器人數據極度異構:包括人類示范、專家干預、以及機器人在不同策略下的執行軌跡。標準的策略梯度方法需要on-policy的新鮮數據,難以有效吸收這些歷史混合數據,因此天然不適合具身場景。

另一方面,VLA模型基于Flow Matching生成連續動作,這類模型沒有顯式的log π(a|s),導致無法像傳統策略那樣對直接求梯度。

換句話說,PPO、REINFORCE 這些算法在這種模型結構上根本施展不開。

因此,RECAP沒有走傳統RL的路線,而是采用了一個巧妙的“優勢條件化”策略:

模型仍按監督學習方式訓練,但額外給它一個輸入,告訴它當前動作的優勢值(advantage)。優勢越高,代表“這個動作更值得模仿”。

于是整個流程變成了:

價值函數負責評價 → 優勢條件化負責表達 → VLA用監督學習吸收所有數據

換句話說,RECAP用價值函數判斷動作質量,再用優勢條件化把原本需要RL求解的策略更新,重新寫成了大模型最擅長的監督學習問題。

“最強具身VLA大模型”,究竟強在哪兒?

訓練價值函數與策略提取

為了讓模型從異構數據中學習,首先需要訓練一個能夠識別“好壞”的價值函數。無論數據來自哪里(演示或自主嘗試),處理過程如下:

  • 計算經驗回報:對每條軌跡,從當前時間步到結束計算累計回報,并歸一化、離散化成201個區間,為價值函數提供訓練目標。
  • 訓練分布式價值函數:用多任務分布式價值函數預測離散價值分布,通過最小化交叉熵損失進行訓練,再提取連續價值函數,得到每個狀態-動作的實際價值。
  • 計算優勢(advantage):用動作的實際回報減去價值函數預測,得到優勢值,并二值化形成高/低優勢指標,作為策略訓練的額外輸入,引導模型選擇更優動作。

有了優勢信號,我們就能實現高效的策略提取。這種方法完美滿足了前文提到的對離線RL的需求:

  • 充分利用多樣化的離策略數據:包括最初的人類示范、專家干預,以及機器人自主執行的軌跡(既有最新策略的,也有早期策略的)。
  • 可擴展性:方法需要能夠應用于大型VLA模型,包括那些使用流匹配(flow matching)或擴散(diffusion)生成動作的模型。
  • 同時利用優劣數據:既要有效利用近似最優的動作,也要利用次優動作的數據,這對于通過自主經驗提升策略尤其重要。

通過這種設計,RECAP成功地在不依賴昂貴在線PPO更新的情況下,利用混合質量的離線數據實現了機器人的自我進化。

在線階段:專家糾錯 + 自主經驗

在機器人自主執行階段,RECAP通過兩類數據持續優化策略:

  • 專家糾錯:專家遠程干預糾正嚴重錯誤(如紙箱折疊順序顛倒),每一次糾錯動作都會被標記為“正向優勢”,訓練模型學習如何恢復錯誤。
  • 自主經驗:模型自主完成的軌跡,無論成功還是失敗,都納入訓練數據。通過價值函數和優勢指標,自動篩選有效信號,優化精細動作。

模型架構與性能

π*0.6是在π0.6基礎上構建的,而π0.6又是對π0.5的升級版本。

“最強具身VLA大模型”,究竟強在哪兒?

π0.6的Backbone從Pi0、π0.5的Gemma(2.6B)擴展到Gemma3(4B),Action Expert參數量也升級到了860M。

在模型架構方面,π0.6延續了π0π0.5架構,通過流匹配(flow matching) 和離散動作token 輸出生成動作片段。

從實驗來看,研究團隊在三個高難度的現實任務中評估了模型:折疊多樣化的衣物、組裝紙箱(工廠環境)和制作濃縮咖啡。

在最難的任務(如折疊多樣化衣物和制作咖啡)中,RECAP將任務的吞吐量(每小時成功次數)提高了一倍以上,相比于僅進行監督微調(SFT)的模型,RECAP將任務失敗率降低了約2倍。

“最強具身VLA大模型”,究竟強在哪兒?

與此同時,模型表現出極高的穩定性,例如連續13小時制作咖啡、連續2小時折疊衣物而無需人為重置。

從失敗經驗中學習

正如開頭提到的,Recap最具啟發性的地方,莫過于它讓機器人能夠從錯誤經驗中學習

俗話說“失敗乃成功之母”,但在傳統的模仿學習,乃至更廣泛的監督學習中,逼近真值或最優解通常被認為是最直接、最有效的策略。

這種方法在大規模語言模型(LLM)和其他機器學習系統上確實表現出色,數學上也簡潔優雅。

然而,對于現實世界的機器人,僅僅知道如何做對,卻不知道如何從錯誤中恢復,就會成為關鍵障礙。

在LLM等生成靜態輸出的AI系統中,監督學習假設數據是獨立同分布(i.i.d.),預測輸出不會影響后續輸入,因此偶爾的偏差不會帶來致命問題。

“最強具身VLA大模型”,究竟強在哪兒?

但對于需要持續與外界互動的系統,例如機器人,情況則完全不同。

模仿學習中模型的每一次動作都會影響未來狀態,一旦出現輕微錯誤,就可能進入訓練數據未覆蓋的新狀態,從而觸發滾雪球式誤差。這些錯誤疊加后,任務可能徹底失敗。

因此,要想讓機器人“每次都成功”,光靠復制示范數據是不夠的。

解決之道在于:讓視覺-語言-動作(VLA)模型能夠從自身實際犯過的錯誤中學習,就像人類通過練習不斷糾正失誤一樣。

問題在于,這些經歷該如何標注?如果簡單地讓模型復制過去的行為,它只會學會重復錯誤。關鍵是如何從“壞數據”中提煉出有效的訓練信號。

Recap通過指導中輔以糾正,練習中輔以強化來實現這一點:

教練式糾偏(corrections)當機器人犯錯時,專家通過遙操作介入,示范如何恢復、如何更好地完成任務。

不同于傳統的示范教學,這里不是教“該怎么做”,而是教“當事情出錯時該如何修正”。

這種針對性糾偏彌補了傳統模仿數據的不足,是防止錯誤累積的關鍵。

強化學習(reinforcement learning)

然而,僅僅依靠人類提供糾正措施是遠遠不夠的,機器人需要自主學習。

機器人需要根據一個回合的總體結果自行判斷其行為的好壞,并迭代地學習執行好的行為,同時避免壞的行為。

由此,就引出了基于對錯獎勵的強化學習。

如上文所說,為了實現強化學習,核心在于解決信用分配(credit assignment)的問題。

比如,要知道機器人執行的哪些動作導致了好的結果,哪些動作導致了壞的結果。

這里,Recap通過訓練一個價值函數(value function)來應對這一挑戰,它可以預測當前狀態相較于其他狀態的優劣。

“最強具身VLA大模型”,究竟強在哪兒?

△圖源:Reinforcement learning: An introduction

舉例來說,在經典的格子世界中,智能體會通過一次次嘗試更新每個狀態的價值:落在好格子上,價值提高;掉進壞格子里,價值降低。

隨著價值評估逐漸準確,智能體自然會傾向于選擇那些通向高價值狀態的動作。

同樣的邏輯放到機器人身上:價值函數的變化為模型提供了一個簡單而強大的判斷信號。

  • 讓價值上升的動作:代表機器人朝任務成功更近了一步,應當被強化;
  • 讓價值下降的動作:意味著偏離目標,需要被抑制或修正。

舉例來說,在折疊衣服任務中(左圖),紅色區域表示機器人突然將衣服拉起的錯誤動作,對應價值下降;而綠色區域表示機器人正確完成折疊時,價值上升。

“最強具身VLA大模型”,究竟強在哪兒?

可以說,價值函數幫助機器人識別“關鍵步驟”與“錯誤來源”,讓它真正具備在復雜真實環境中從經驗中變強的能力。

當訓練好價值函數后,下一步是“策略抽取”:讓策略(即VLA模型)以價值變化為條件進行訓練。

所有數據——包括成功和未成功——都被保留,同時告知模型哪些動作是有效的、哪些動作應避免。

這種優勢條件化(advantage-conditioned)訓練能夠讓模型在保留全部經驗的前提下,從失敗中學習,從而表現超越單純示范數據的水平。

綜上,Recap不僅讓機器人學會了執行任務,更重要的是,它讓機器人學會了自我糾正和優化策略,為后續復雜任務的魯棒性和效率提升提供了可擴展的解決方案。

與此同時,如果從好數據(示范)少,壞數據(錯誤經驗)多的視角來看,π*0.6 的突破可能更具深遠意義 ——

它證明了機器人能從真實執行中收集的 “不完美經驗” 里,提煉出高效的學習信號,這也為后續機器人研究開辟了全新思路,提供了極具價值的探索方向。

參考鏈接:

[1]https://www.pi.website/download/pistar06.pdf

[2]https://www.pi.website/blog/pistar06

[3]https://www.physicalintelligence.company/download/pi05.pdf

[4]https://x.com/svlevine/status/1990574916622856290

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
国产精品乱码妇女bbbb| 日韩一级在线视频| 成人中心免费视频| 夜夜操天天操亚洲| 成人午夜免费影院| 欧美一区二区三区在线播放| 高潮白浆女日韩av免费看| 国产亚洲自拍av| 超碰97人人在线| 亚洲国产精品一区二区尤物区| 日本少妇高清视频| 亚洲综合日韩在线| 91tv亚洲精品香蕉国产一区7ujn| 亚洲国产精品小视频| 国产精品suv一区二区三区| 久99久在线| 欧美剧情片在线观看| 国产在线视频你懂的| 免费一级黄色大片| 激情六月丁香婷婷| 免费成人看片网址| 亚洲人成7777| 精品少妇久久久| 亚洲一区高清| 一个人看的www久久| 91麻豆国产在线观看| 99成人在线观看| 波多野结衣久草一区| 高清不卡在线观看| 一本色道久久综合亚洲| 穿情趣内衣被c到高潮视频| 久久精品99久久香蕉国产色戒| 精品免费囯产一区二区三区| 国产精成人品localhost| 欧美日韩国产高清一区二区三区| 久久蜜桃资源一区二区老牛| 稀缺呦国内精品呦| 精品日韩电影| 亚洲图片在区色| 国产精品久久久久久久久久免费看 | 亚洲视频sss| 久久伊人色综合| 亚洲高清免费一级二级三级| 色一情一乱一乱一区91av| 国产一线在线观看| 中文字幕亚洲日本| 国产精品一码二码三码在线| 亚洲欧美综合精品久久成人| 亚洲激情欧美激情| 日本vs亚洲vs韩国一区三区二区| 永久av免费网站| 亚洲精品成人区在线观看| 日韩欧美视频免费观看| 国产精品一区视频网站| 中文字幕日韩欧美精品在线观看| 亚洲va欧美va天堂v国产综合| 美女在线视频一区| 男女啊啊啊视频| 日韩不卡一二三| 亚洲春色综合另类校园电影| 日本免费久久高清视频| 精品亚洲永久免费精品| 自拍偷拍国产精品| 手机看片福利在线| 波多野结衣视频观看| 日韩福利在线视频| 九九热精品在线播放| 四虎免费在线观看视频| 亚洲一区二区三区久久| 欧美疯狂性受xxxxx另类| 欧美日韩国产综合一区二区 | 91在线精品一区二区三区| a视频免费在线观看| 激情五月婷婷在线| av无码一区二区三区| 亚洲成人福利在线观看| 久久99国产精品99久久| 成人写真视频福利网| 欧美精品久久久久久久| 精品五月天久久| 在线成人av影院| 亚洲另类春色国产| 中文字幕在线免费不卡| 激情综合网av| 久久婷婷影院| 日韩激情一二三区| 在线观看国产精品入口男同| 欧美人妻精品一区二区三区| xxxx日本免费| 少妇真人直播免费视频| 精品国产av色一区二区深夜久久 | 国产精品亚发布| 欧美在线视频一区二区| 在线精品高清中文字幕| 日韩在线免费av| 麻豆成人在线看| 久久久久久com| 欧美日韩成人免费| 欧美与黑人午夜性猛交久久久| 久久久久久久爱| 91地址最新发布| 国语自产偷拍精品视频偷| 午夜精品久久久久久久久久久久久| 在线亚洲欧美视频| 日韩大陆毛片av| 日韩中文字幕在线免费观看| 亚洲男人天堂2023| 久久视频在线观看免费| 欧美成人精品xxx| 欧洲中文字幕国产精品| 日本欧美爱爱爱| 91av视频导航| 国产亚洲欧美一区二区三区| 91丨九色丨国产| 日韩欧美一区二区三区四区| 男女啪啪免费观看| 日批视频在线免费看| 国内精品在线观看视频| 黄大色黄女片18第一次| 在线国产视频一区| 欧美日韩一级大片| 国产一级片视频| 99久久久国产精品无码网爆| 中文字幕第一区综合| 青青在线视频一区二区三区| 香港三级日本三级a视频| 亚洲xxxxx性| 久久久一本精品99久久精品66| 亚洲精品第一区二区三区| 欧美国产亚洲一区| 日本xxxx免费| 91福利入口| 国产精品嫩草影院一区二区 | 国产成人免费视频网站高清观看视频| 久久久久国产成人精品亚洲午夜| 亚洲一区二区欧美激情| 桥本有菜av在线| 99视频精品全部免费看| 熟女人妻一区二区三区免费看| 1024手机在线视频| 草草视频在线播放| 99热在这里有精品免费| 日韩欧美在线视频日韩欧美在线视频| 亚洲精品美女免费| 国产精品欧美激情| 中文国产成人精品| 亚洲最大成人网色| 无码aⅴ精品一区二区三区浪潮| 无码aⅴ精品一区二区三区浪潮| 国产性猛交xx乱| 黄色av网站免费在线观看| 91麻豆文化传媒在线观看| 亚洲自拍偷拍av| 中文字幕精品网| 成人h在线播放| 污色网站在线观看| 粉嫩av性色av蜜臀av网站| 在线观看亚洲国产| 粉嫩av一区二区三区| 亚洲三级 欧美三级| 欧洲成人午夜精品无码区久久| 国产精品久久久久久久久免费丝袜| 色偷偷av亚洲男人的天堂| 91午夜视频在线观看| 在线成人免费观看| 精品人妻二区中文字幕| 国产欧美一区二区精品仙草咪| 超碰97国产在线| 亚洲AV午夜精品| y97精品国产97久久久久久| 国产ts丝袜人妖系列视频| 黄色成人av在线| 一区二区在线播放视频| 国产日韩精品久久久| 亚洲高清在线观看一区| 亚洲欧美日韩成人在线| 性欧美亚洲xxxx乳在线观看| 免费在线观看a视频| 亚洲成av人**亚洲成av**| 午夜精品短视频| 久久99国产精品久久99| 欧美一级片在线播放| 久久久国产精华液| 日韩欧美综合一区| 久久久精品视频国产| 亚洲一级二级三级在线免费观看| 久久99精品久久久久久久青青日本| 狠狠躁夜夜躁av无码中文幕| 国产精品久久久久久久久久久新郎| 久久精品国产av一区二区三区| 日韩欧美色综合网站| 日批视频免费看| 欧洲一区二区三区免费视频| 网站一区二区三区| 亚洲精品国产成人久久av盗摄| 久久久久久亚洲精品| 亚洲成年人专区| 欧美一级特黄视频| 亚洲一区二区3| 国产日韩换脸av一区在线观看| 精品一卡二卡三卡四卡日本乱码| 无码人中文字幕| 亚洲国产精品成人综合色在线婷婷| 久久久久久有精品国产| 精品1卡二卡三卡四卡老狼| 国产一区二区三区蝌蚪| xxx成人少妇69| 热久久精品免费视频| 精品亚洲成a人| 精品国产美女在线| 精品人妻一区二区三区免费| 国产成人精品影视| 这里只有精品在线观看| 国产精品久久久毛片| 秋霞视频一区二区| 亚洲一级片在线看| 五月婷婷狠狠操| 美女国产一区二区三区| 国产欧美日韩伦理| 精品中文字幕一区二区| 欧美色成人综合| 亚洲欧洲精品一区二区三区波多野1战4 | 欧美精品一区二区成人| 色妹子一区二区| 亚洲精品一区二区三区av| 国产精品无码免费播放| 亚洲开心激情网| 超级砰砰砰97免费观看最新一期 | 五月婷婷综合激情| 制服诱惑一区| 蜜桃av一区二区| 欧美在线观看一区二区三区| 婷婷伊人五月天| 欧美日韩中文字幕精品| 人妻无码视频一区二区三区| 高潮精品一区videoshd| 欧美亚洲免费电影| 亚欧洲精品在线视频| 欧美成人vr18sexvr| 污视频在线观看免费网站| 亚洲欧洲精品一区二区精品久久久| 欧美激情第六页| 亚洲国产欧美在线人成| 国产特级黄色大片| 免费观看30秒视频久久| www.日韩免费| 中文字幕亚洲欧美日韩| 在线免费观看不卡av| 精品久久久久久久无码| 不卡一区二区在线| 日韩精品久久一区| 手机在线观看毛片| 91九色综合久久| 日本黄视频在线观看| 国产精品电影一区| 国产又粗又硬又长又爽| 精品日本一线二线三线不卡| 特级西西人体wwwww| 欧美日韩在线一区| 国产精品一区二区电影| 狠狠躁日日躁夜夜躁av| 国产欧美精品xxxx另类| 亚洲精品国产av| 日本一道本久久| 欧美系列亚洲系列| 日韩成人手机在线| 亚洲成色www8888| 日韩少妇高潮抽搐| 精品国产百合女同互慰| 97在线观看免费视频| 精品少妇一区二区三区在线视频| 中文字幕资源在线观看| 欧美色视频在线观看| 中文字幕 亚洲一区| 日韩欧美国产麻豆| 天海翼一区二区| 久久精品国产综合| 精品久久久久久久久久久久久久久久久久 | 日韩中文字幕在线视频播放| 91porny九色| 青草热久免费精品视频| 天天躁日日躁狠狠躁喷水| 国产伦精品一区二区三区视频免费 | aaa亚洲精品一二三区| 人妻无码久久一区二区三区免费| 国产精品久久久久久久久搜平片| 成人免费视频久久| 51午夜精品国产| 污软件在线观看| 韩国日本不卡在线| 一区二区三区www污污污网站| 成人免费淫片视频软件| 成人国产亚洲欧美成人综合网| 国产欧美日韩小视频| 精品视频一区三区九区| 国产性70yerg老太| 91精品国产综合久久男男| 成人一区二区三区视频 | 国产一区二区三区丝袜| 成人爽a毛片一区二区| 亚洲精品无人区| 91国产精品成人| 久久综合色综合| 亚洲aa中文字幕| 中文字幕一区二区三区精华液| 亚洲激情视频小说| 97av在线视频| 亚洲成人精品影院| jlzzjlzzjlzz亚洲人| 先锋影音欧美| 亚洲精品av在线| 老司机午夜精品| 中文av免费观看| 日本高清不卡免费| 欧美午夜精品一区二区| 污污污污污污www网站免费| 91中文字幕在线观看| 精品视频在线播放色网色视频| 亚洲免费观看高清完整版在线观看| av中文字幕观看| 日韩av播放器| 国产精品劲爆视频| 精品色蜜蜜精品视频在线观看| 日韩精品91亚洲二区在线观看| 久久精品老司机| 久久偷窥视频| 色噜噜狠狠色综合网图区| 欧美日韩精品在线观看| 蜜臀av一区二区在线免费观看| 日本中文字幕观看| 久久综合电影一区| 中文字幕一区二区三区乱码在线| 日韩三级视频在线| 欧美日韩一区二区视频在线| 欧美三级日韩三级国产三级| 亚洲成熟女性毛茸茸| 久久久久久久人妻无码中文字幕爆| 成人在线看片| 久久久久久久久久久久久夜| 中文字幕人妻一区| 国产精品美女主播| 欧美片网站yy| 国产在线不卡一卡二卡三卡四卡| 亚洲精品一区二三区| 99re久久精品国产| 亚洲一区二区免费在线| 日韩精品自拍偷拍| 国产色婷婷亚洲99精品小说| 91久久国语露脸精品国产高跟| 免费a级黄色片| 成人毛片一区二区| 成人激情电影一区二区| 欧美日韩大陆一区二区| aaa国产一区| 免费观看日批视频| 自拍视频一区二区| 日本精品二区| 久久精品视频va| 亚洲一区视频在线观看视频| 久久亚洲精选| 欧美精品亚洲精品日韩精品| 91福利免费观看| 日韩一区国产在线观看| 欧美日韩国产综合视频在线| 欧美国产二区| 欧美一卡二卡在线| av免费一区二区| 日韩风俗一区 二区| 国产盗摄视频一区二区三区| 免费无码毛片一区二区app| 人人妻人人添人人爽欧美一区| 国产成人+综合亚洲+天堂| 午夜久久久久久| 青青草国产精品97视觉盛宴| 免费观看a级片| 黄页免费在线观看视频| 92国产精品视频| 色偷偷噜噜噜亚洲男人| 色婷婷综合中文久久一本| 石原莉奈一区二区三区在线观看| 18啪啪污污免费网站| 水蜜桃色314在线观看| 亚洲国产一区二区精品视频| 91在线精品播放| 亚洲精品成人久久久| 91精品欧美综合在线观看最新| 欧美亚洲综合网| 一区二区三区美女视频| 伊人色综合久久天天| 婷婷综合五月天| 欧美性jizz18性欧美| 一本在线高清不卡dvd| 亚洲第一精品在线| 亚洲人成人一区二区在线观看| 久久精品视频免费| 99久免费精品视频在线观看| 成人精品国产福利| 91在线国产福利| 久久久久国产精品人| 2021久久国产精品不只是精品| 99久久99久久精品免费观看| 国产一级片av| 成人做爰69片免费| 一区二区三区精品国产| 国产精品一区二区久久| 日韩hd视频在线观看| 一道本成人在线| 中文字幕一区二区三区色视频| 国产高清免费观看| 亚洲а∨天堂久久精品2021|