腦波直接轉語音,不開口每分鐘“說”出150詞:Nature發表腦機接口新突破
腦電波直接轉語音,每分鐘“說”出150詞
魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
只要靜靜坐著,世界就能聽到你的聲音,這樣的畫面你可曾想象過?
是的,不必動手,也不必開口,只要你的腦波流轉,AI就能以每分鐘150個詞的速度幫你說出心聲。
Nature上最新發表了一篇論文,科學家們設計了一種新的可以將大腦信號轉換成語言的裝置,不需要勞動任何一塊肌肉,深度學習就能直接讀懂大腦,解碼腦中所想,實現流暢交流。
△受漸凍癥折磨的霍金后期依靠活動臉頰上的一塊肌肉來打字
如何做到
研究團隊來自加州大學舊金山分校,神經外科教授Dr. Edward Chang等人試圖將大腦中的神經活動轉換成語音,以造福因為神經損傷而失去交流能力的人。
說話這件事其實并沒有想象中那么簡單,看似只是動動嘴,事實上卻是對聲道咬合結構精準、快速的多維度控制。
研究人員選擇了深度學習方法。
為了進行試驗,專家們招募了五名在醫院接受癲癇治療的志愿者。
神經解碼的第一步是從高密度皮層活動中提取相關信號特征。志愿者們說了上百句話,而通過植入性大腦皮層電圖(ECoG),研究人員可以跟蹤控制語言和發音的大腦區域的活動,并將這些活動與志愿者說話時嘴唇、舌頭、喉部和下顎的微妙運動聯系起來,然后將這些運動學特征翻譯成口語句子。
研究人員采用bLSTM(bidi-rectional long short-term memory)循環神經網絡來破譯ECoG信號表達的運動學表征。
接著用另外一個bLSTM解碼先前破譯的運動學特征中的聲學特征。
聲學特征是能從語音波形中提取的頻譜特征,因此用解碼后的信號就可以合成出語音波形。
在這個過程中,兩個神經網絡都會被投喂訓練數據,以提高它們的解碼性能。
對比志愿者說話的頻譜圖和大腦信號合成的頻譜圖,可以看到它們已經非常接近了。
研究者們讓以英語為母語的人聽了聽合成的語音,結果表明,至少有70%的虛擬語言是可以被理解的。
有何提高
腦波轉語音已經不是什么新鮮事了,這篇文章能登上Nature,自是有過人之處。
這個新的裝置每分鐘能生成 150 個單詞,接近人類的自然語速。
要知道已有的語音合成腦機接口每分鐘只能生成 8 個單詞,使用者也能用它們來表達自己的意思,但那遠遠稱不上是“人類交流”。
想象一下,倘若霍金健在,在這種技術的幫助下,他可能再也不用艱難地活動臉頰上的肌肉來拼出單詞,AI能真正幫助他重新“開口”,傳播智慧。
“這是一項艱巨的工作,它將我們推上了語言恢復方面的一個新臺階。”神經學家Dr. Anthony Ritaccio這樣評價。
網友反應
論文一出,驚嘆聲一片。
有網友稱贊這是ECoG領域非常有價值的一個結果,并且也給未來的實際應用打開了新的大門:
還有網友已經迫不及待地開始暢想未來:
如果將來這項技術能被放入耳機這樣的可穿戴設備,那我們就能以最快的速度在手機上打字了!這種可能性實在是鵝妹子嚶!
也有一些負面的聲音:
我們總有法子讓你開口的。
嗯…不過事實上這項技術只會在你想開口時捕捉相應的腦電波。
必須說明的是,這項技術使用的ECoG電極陣列需要通過開顱手術來放置到大腦之中,對于飽受疾病、意外之害而失去語言能力的患者來說是福音天降,但更大范圍的應用還有很長的路要走。
傳送門
論文鏈接:https://www.gwern.net/docs/ai/2019-anumanchipalli.pdf
— 完 —
- 蘋果芯片主管也要跑路!庫克被曝出現健康問題2025-12-07
- 世界模型和具身大腦最新突破:90%生成數據,VLA性能暴漲300%|開源2025-12-02
- 谷歌新架構突破Transformer超長上下文瓶頸!Hinton靈魂拷問:后悔Open嗎?2025-12-05
- 90后華人副教授突破30年數學猜想!結論與生成式AI直接相關2025-11-26




