00后投身具身智能創(chuàng)業(yè),劍指機(jī)器人界「Model 3」!已推出21個(gè)自由度靈巧手
要把機(jī)器人整機(jī)打到17000元
衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
每只手21個(gè)自由度,支持16主動(dòng)自由度,具備高精度操作能力。
在夾持、旋轉(zhuǎn)、精準(zhǔn)插拔等精細(xì)操作上,能力遠(yuǎn)超市面常見的6自由度抓取器。

這就是具身智能創(chuàng)業(yè)公司靈初智能最新推出的自研靈巧手。
要知道,人類的一只手是27個(gè)自由度,而特斯拉最新一代Optimus Gen-3靈巧手也只有22個(gè)自由度。
21個(gè)自由度,意味著機(jī)械結(jié)構(gòu)復(fù)雜,硬件制造上難度極高,還需要保證穩(wěn)定性和可量產(chǎn)性,造價(jià)下探很有難度,“市面上很多團(tuán)隊(duì),光靈巧手就要幾十萬一只。”
而靈初智能創(chuàng)始人兼CEO王啟斌告訴量子位,靈初的目標(biāo),是將一臺(tái)機(jī)器人整機(jī)的價(jià)格——
打到17000美元(約122083元)級(jí)別,對(duì)標(biāo)特斯拉“Model 3定價(jià)策略”。
由于視雙足為炫技,在整機(jī)設(shè)計(jì)上,靈初的人形機(jī)器人打造成“輪式+雙手”的形象,長(zhǎng)下面這樣:

從Day One開始拋棄夾爪
先來說此次新推出靈巧手背后的故事。
靈初智能的目標(biāo)是打造通用靈巧操作的機(jī)器人系統(tǒng),強(qiáng)調(diào)的是從動(dòng)作層面解決復(fù)雜任務(wù)。
在創(chuàng)始團(tuán)隊(duì)看來,“通用”和“復(fù)雜”,意味著機(jī)器人只配備夾爪來抓取遠(yuǎn)遠(yuǎn)不夠——
抓取只是一種簡(jiǎn)單的單一技能,但現(xiàn)實(shí)中的任務(wù),如使用工具、精密裝配、翻頁、掃碼、旋轉(zhuǎn),必須具備更高自由度與靈巧度。
耶魯大學(xué)等在2013年的《Grasp Frequency and Usage in Daily Household and Machine Shop(抓取頻率及其在家庭與機(jī)械車間的應(yīng)用)》一文中總結(jié)了家庭和車間環(huán)境下人類手部的高頻抓取動(dòng)作,共10種。

很多看似簡(jiǎn)單的操作,比如轉(zhuǎn)筆、精準(zhǔn)插拔、翻書、調(diào)方向,都需要高自由度手部與觸覺反饋才能完成。
考慮到落地,工業(yè)場(chǎng)景中很多手中操作(如轉(zhuǎn)動(dòng)螺絲刀)和精密操作(如電池抓取與攝像頭校準(zhǔn))場(chǎng)景交給低自由度的靈巧手尚且無法完成,更別提夾爪了。
因此從Day One開始,靈初就決定不做夾爪。
之所以選擇自研,是因?yàn)殪`初團(tuán)隊(duì)覺得市面上的靈巧手產(chǎn)品都不好用。
而靈初身上頗有做靈巧手的技術(shù)基因。
公司首席科學(xué)家楊耀東,北京大學(xué)人工智能研究院助理教授、強(qiáng)化學(xué)習(xí)領(lǐng)域的知名學(xué)者。
2022年時(shí),他帶領(lǐng)華人團(tuán)隊(duì)獲得NeurIPS 2022具身靈巧操作冠軍;那時(shí)候,楊耀東就開始和團(tuán)隊(duì)在仿真環(huán)境中用強(qiáng)化學(xué)習(xí)訓(xùn)練靈巧手完成復(fù)雜操作。
彼時(shí)團(tuán)隊(duì)中的一名00后陳源培,現(xiàn)在成了靈初的聯(lián)合創(chuàng)始人。
他師從李飛飛和Karen Liu(領(lǐng)導(dǎo)斯坦福機(jī)器人中心運(yùn)動(dòng)實(shí)驗(yàn)室),曾在全球全球范圍內(nèi)首次實(shí)現(xiàn)利用強(qiáng)化學(xué)習(xí)在真實(shí)世界同時(shí)控制雙臂、雙手多技能操作。
在機(jī)器人領(lǐng)域搞強(qiáng)化學(xué)習(xí)冷啟動(dòng)訓(xùn)練
從上面二人的經(jīng)歷中不難抽取出除「靈巧手」外的另一關(guān)鍵詞:
強(qiáng)化學(xué)習(xí)。
這個(gè)詞對(duì)大家來說并不陌生——近幾年,它在語言模型后訓(xùn)練階段立下豐功偉績(jī)。然而陳源培介紹,在機(jī)器人抓取任務(wù)領(lǐng)域,強(qiáng)化學(xué)習(xí)還是一個(gè)難度較高的小眾領(lǐng)域,有相關(guān)經(jīng)驗(yàn)的人并不多。
他例舉了做這件事的部分困難之處:兩個(gè)挑戰(zhàn) + 一個(gè)關(guān)鍵矛盾。
第一,自由度越高,訓(xùn)練難度越大。
現(xiàn)在經(jīng)常出街的機(jī)器狗基本上全身是12個(gè)自由度,其訓(xùn)練尚且不易。
靈初智能想做具身智能人形機(jī)器人,現(xiàn)階段光是一只手就21個(gè)自由度,對(duì)算法訓(xùn)練的要求不言而喻——能做出來和能用起來,中間還是有巨大的gap。
第二,具身智能在真實(shí)世界里需要完成的任務(wù),更多是“開放場(chǎng)景長(zhǎng)程復(fù)雜任務(wù)”,單就“長(zhǎng)程”這一點(diǎn)來說,非常容易有誤差累積。
比如完成一個(gè)任務(wù)需要十個(gè)步驟,如果第二步有1cm的偏差,最后的操作結(jié)果就可能差出十萬八千里來。
剩下的那一個(gè)關(guān)鍵矛盾在于強(qiáng)化學(xué)習(xí)模型常專用于一個(gè)場(chǎng)景,遷移難,跨任務(wù)泛化能力差。

靈初是怎么解決這些問題的?
在去年成立之初,靈初就提出分層端到端快慢腦架構(gòu)技術(shù)路線。
快腦S1專注操作,靈巧操作涵蓋多種形式,其操作經(jīng)過tokenize后,作為S2慢腦(專注推理規(guī)劃)的輸入,和語言、視覺模態(tài)融合,基于Causal VLM自回歸架構(gòu),實(shí)現(xiàn)多模態(tài)融合的推理和任務(wù)規(guī)劃。
更直接的理解是,快腦是小腦層,控制手部完成精細(xì)動(dòng)作,通過預(yù)訓(xùn)練仿真環(huán)境與真機(jī)數(shù)據(jù)回傳優(yōu)化動(dòng)作序列;慢腦是大腦層,基于視覺感知(多攝像頭采集牌面、手勢(shì)),通過語言模型決策出牌策略,處理開放環(huán)境中的規(guī)則變化。
快慢腦通過Action Tokenizer隱式連接,構(gòu)建了支持「動(dòng)作感知-環(huán)境反饋-動(dòng)態(tài)決策」全閉環(huán)的VLA模型,端到端訓(xùn)練,協(xié)同完成長(zhǎng)程任務(wù)的靈巧操作。
而靈初推出的分層端到端VLA+強(qiáng)化學(xué)習(xí)算法模型Psi-R1,會(huì)結(jié)合歷史動(dòng)作與當(dāng)前環(huán)境狀態(tài),理解動(dòng)作的長(zhǎng)期影響,避免重復(fù)試錯(cuò)和動(dòng)作誤差積累,建立動(dòng)作與環(huán)境變化的因果鏈。
這就是靈初解決傳統(tǒng)VLM決策短視的辦法。

走一條“Model 3式的產(chǎn)業(yè)破局之路”
但王啟斌和陳源培提到,做“靈巧手”或“大小腦算法”,都不能概括靈初的全部。
靈初自研的靈巧手不會(huì)單賣,“今天做一個(gè)靈巧手去賣,沒意義。”
王啟斌表示,靈初的打法是將軟硬件深度耦合,系統(tǒng)層面定義體驗(yàn)。所有硬件都為算法、模型服務(wù),強(qiáng)調(diào)系統(tǒng)閉環(huán)與數(shù)據(jù)鏈條完整性。
你得有整機(jī)+動(dòng)作系統(tǒng)+數(shù)據(jù)+任務(wù)交付,才叫產(chǎn)品。
根據(jù)這套公式,靈初目前手里的牌是這樣的——
- 整機(jī):標(biāo)志性紫色的輪足雙手人形機(jī)器人;
- 動(dòng)作系統(tǒng):已迭代至Psi-R1,重視強(qiáng)化學(xué)習(xí)技術(shù),持續(xù)推進(jìn)中;
- 數(shù)據(jù):從靈初接觸單個(gè)場(chǎng)景中逐步獲取并積累;
- 任務(wù)交付:目前ToB為主,3C制造和倉儲(chǔ)物流兩方重點(diǎn)發(fā)力,驗(yàn)證技術(shù)后再逐步向家庭場(chǎng)景延伸。
這么一套軟硬件協(xié)同的人形機(jī)器人產(chǎn)品,靈初給出的(理想)價(jià)格是17000美金,約12萬人民幣。
值得注意的是,特斯拉Model 3的平均整車成本也在1.7萬美元上下。
這不是偶然,而是靈初的特意計(jì)算和設(shè)計(jì)過的。
這個(gè)數(shù)字背后是走一條“Model 3式的產(chǎn)業(yè)破局之路”。
Model 3是特斯拉首款面向大眾市場(chǎng)的車型,相比之前的Model S和Model X大幅降低,使特斯拉產(chǎn)品進(jìn)入了普通消費(fèi)者可接受的價(jià)格區(qū)間。
把價(jià)格打下來、體驗(yàn)做好,出貨量就出現(xiàn)明顯拉升。截至今年,Model 3累計(jì)銷量已經(jīng)超過一百萬輛。
與此同時(shí),特斯拉「硬件+FSD+數(shù)據(jù)」生態(tài)一體化,構(gòu)建了自己的獨(dú)特護(hù)城河。
與之對(duì)應(yīng),當(dāng)具身智能玩家擁有可靠的、穩(wěn)定的、量產(chǎn)級(jí)硬件平臺(tái),一體化的軟件體驗(yàn)與數(shù)據(jù)回傳機(jī)制,一個(gè)可以定義任務(wù)閉環(huán)的主導(dǎo)型平臺(tái),還能單一場(chǎng)景ROI,那么就像特斯拉推出了Model 3一般,產(chǎn)業(yè)就能從試驗(yàn)轉(zhuǎn)向規(guī)模。
靈初現(xiàn)在做的,正是為機(jī)器人世界里的“Model 3”一步步打基礎(chǔ)。

王啟斌表示,具身智能需等到硬件成本降至10萬元人民幣級(jí)(預(yù)計(jì)2030年),且單場(chǎng)景出貨量突破百萬臺(tái),才能觸發(fā)生態(tài)爆發(fā)。
一旦這一點(diǎn)打通了,產(chǎn)業(yè)拐點(diǎn)就來了。
就像Model 3之于智能電車行業(yè),靈初也在押注:
不是第一個(gè)造出人形機(jī)器人的團(tuán)隊(duì),但可能是第一個(gè)把機(jī)器人真正變成“可商用工具”的團(tuán)隊(duì)。
- 云計(jì)算一哥10分鐘發(fā)了25個(gè)新品!Kimi和MiniMax首次上桌2025-12-03
- Ilya剛預(yù)言完,世界首個(gè)原生多模態(tài)架構(gòu)NEO就來了:視覺和語言徹底被焊死2025-12-06
- 前端沒死,AI APP正在返祖2025-12-02
- 華為新架構(gòu)砍了Transformer大動(dòng)脈!任意模型推理能力原地飆升2025-12-06




