字節(jié)豆包首個AI硬件來了,定價1199元!
可以練雅思口語的那種
金磊 西風(fēng) 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
字節(jié)跳動的首個AI硬件,就這么水靈靈地來了——
一款塞了大模型的藍(lán)牙耳機(jī)!

這個AI耳機(jī),名叫Ola Friend,“Olá”在葡萄牙語中意為“你好”,因此它的中文名就是:你好呀 朋友。
首先,Ola Friend最大的亮點,就是第一個做到了真正把通用大模型應(yīng)用到耳機(jī)場景——
戴上耳機(jī),只需一句“豆包豆包”,就可以隨時隨地喚醒AI,并跟它做任何交流。
例如出門前詢問天氣、路面狀況,現(xiàn)在的“打開方式”是這樣的:

當(dāng)然,這些問題都只能算是開胃菜,我們直接來上一下難度——英語口語練習(xí)!

視頻詳情:https://www.toutiao.com/article/7424073841964384802/
不難看出,現(xiàn)在跟AI練習(xí)英語口語,就變成戴個耳機(jī)就能實現(xiàn)的事情了,而且你可以隨時打斷豆包說話(1分29秒左右)。

當(dāng)然,作為一個藍(lán)牙耳機(jī),其本身最基本的“聽”的功能也是非常重要的。
Ola Friend在設(shè)計上屬于不入耳的開放式(OWS)耳機(jī),單只的重量只有6.6克(親測佩戴無重感)。
在音效方面,由于設(shè)計采用27.5度夾角,發(fā)聲單元會更靠近耳道,聲壓比會相對大一些;并且還采用了10mm動圈發(fā)聲單元、動態(tài)EQ1.0、動態(tài)低音補(bǔ)償、定向防漏音等設(shè)計,提升了耳機(jī)的音質(zhì)。
上面視頻中豆包說話的音效,其實就已經(jīng)非常接近佩戴時候的真實感覺了。
但畢竟我們第一時間拿到了Ola Friend,定然不能就這么簡單放過它——
實測嘛,就是要狠狠地、各方面地都來體驗一把。
嘈雜環(huán)境、方言,統(tǒng)統(tǒng)都能hold住
首先我們需要介紹一些基本的功能和設(shè)置。
Ola Friend在和手機(jī)配對的時候,需要雙手同時按住兩側(cè)機(jī)身,然后就可以在手機(jī)藍(lán)牙中找到它并連接。
但要想開啟AI大模型功能,還需要進(jìn)豆包APP的“我的→設(shè)置”里,找到“Ola Friend耳機(jī)”選項,進(jìn)行第二次配對;其中,“豆包智能體”選項中的喚醒功能是默認(rèn)開啟的。

接下來,我們就再貼近真實生活場景來一波測試。
畢竟我們戴耳機(jī)不僅僅是在安靜的環(huán)境,大多數(shù)可能都是非常嘈雜的環(huán)境,那么在用Ola Friend跟豆包對話的過程中,它會不會受到外界環(huán)境的影響呢?
我們這波測試的環(huán)境設(shè)置如下:電腦外放音樂,用中英摻雜的方式跟豆包對話。
(由于對話文字內(nèi)容較長,以下幾個實測視頻將以字幕的形式呈現(xiàn))
即便背景放了巨大音量的英文歌,但豆包還是能夠精準(zhǔn)識別出用戶的聲音,在問及“為什么今年的the Nobel Prize in Physics頒給了Geoffrey Hinton”時,豆包也能做出準(zhǔn)確回答。
由此可見,在嘈雜的現(xiàn)實環(huán)境中,Ola Friend也是完全可以hold住的。
而之所以能夠如此,是因為Ola Friend是可以像朋友一樣專門記住你的聲音,這就大幅降低了錯誤打斷的概率。
同樣的問題,同樣的環(huán)境,我們再有請方言出戰(zhàn)——四川話!

這一次,我們特意切換了語音風(fēng)格為“呆萌川妹”,是不是相當(dāng)?shù)赜心俏秲毫耍?/p>
那么對于復(fù)雜的數(shù)學(xué)題,Ola Friend又將做何表現(xiàn)?
我們不妨以電影《抓娃娃》片段中的那道經(jīng)典題目來提問(這次我們切換了聲音為“溫暖阿虎”):
一個長2米,直徑30cm的圓柱形木材,做半徑6cm比做半徑8cm能多做多少個球?

從求解過程中不難看出,不論是要求Ola Friend直接給出答案,亦或是在它求解過程中任意打斷(1分17秒、1分59秒、2分14秒),它都能像跟真人交流一樣嚴(yán)絲合縫。
不難看出,戴上了Ola Friend,就宛如實時地在跟AI大模型電話一樣,而且是有問必答、隨意打斷、多輪對話的那種。
因此,像在做飯燒菜等場景中,這個AI大模型耳機(jī)就能在釋放雙手的同時,還能做到答疑解惑。
方便,著實是方便。
那么接下來的一個問題便是:Ola Friend是如何做到的?
大模型+TTS+ASR煉成
扒開Ola Friend內(nèi)核,關(guān)鍵之一是字節(jié)于業(yè)界領(lǐng)先的大規(guī)模自回歸文本到語音模型——Seed-TTS。
幾個月前,字節(jié)發(fā)布了Seed-TTS技術(shù)論文,引發(fā)圈內(nèi)廣泛關(guān)注。
它可以依據(jù)上下文理解文本情緒,能生成與人類語音幾乎無法區(qū)分的高質(zhì)量語音,說話自然有感情,連停頓、喘息、換氣聲都合成得真真兒的。

從技術(shù)實現(xiàn)上來看,Seed-TTS基于自回歸Transformer,模型架構(gòu)包含speech tokenizer從語音中提取token信息,語言模型建模文本和語音token的關(guān)系,擴(kuò)散模型從語音token生成連續(xù)的語音表征,最后通過聲碼器生成最終的語音。
訓(xùn)練含三個階段:
- 預(yù)訓(xùn)練:使用大量數(shù)據(jù)訓(xùn)練,實現(xiàn)廣泛的應(yīng)用場景和說話者覆蓋。
- 微調(diào):說話者微調(diào),以提高特定說話者或任務(wù)的性能。
- 后訓(xùn)練:使用強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練,全面提高模型性能。

與以前的模型相比,Seed-TTS在自然性和穩(wěn)定性方面有顯著提升。
經(jīng)實驗,Seed-TTS不僅具有零樣本上下文學(xué)習(xí)能力,基于短音頻提示生成相似聲音的新語音,還可以針對特定說話人進(jìn)行微調(diào),進(jìn)一步提高相似度。
在情感等方面Seed-TTS具有更高的可控性,且支持跨語言語音合成,拿捏講話的音調(diào)、韻律、節(jié)奏。
Ola Friend另一大法寶是語音識別技術(shù)——Seed-ASR。
與AI智能音箱和車載語音系統(tǒng)相比,耳機(jī)通常在公共空間中被使用。這些場所環(huán)境嘈雜并且人多,因此在這些環(huán)境中進(jìn)行聲音識別和意圖判斷面臨較大挑戰(zhàn)。
而字節(jié)Seed-ASR技術(shù),不僅讓Ola Friend能聽懂用戶說話,甚至能通過上下文識別各類信息。
Seed-ASR以大語言模型為基礎(chǔ),通過輸入連續(xù)的語音表示和上下文信息,顯著提升了在不同應(yīng)用場景下對多樣語音信號的識別準(zhǔn)確率。
它支持包括普通話及多種方言在內(nèi)的多語言識別,在豐富的訓(xùn)練數(shù)據(jù)上進(jìn)行大規(guī)模的自監(jiān)督學(xué)習(xí),還通過了階段性訓(xùn)練策略,包括監(jiān)督式微調(diào)、上下文感知訓(xùn)練和強(qiáng)化學(xué)習(xí),進(jìn)一步優(yōu)化性能。
Seed-ASR在公開測試集和內(nèi)部綜合評估集上均展現(xiàn)出比現(xiàn)有端到端模型更低的詞/字錯誤率。

除此之外,依靠豆包大模型,Ola Friend還有buff加成——
能夠雙向?qū)崟r對話,隨時打斷也可以,支持引入其他話題多輪交流,而非每句話都要喚醒詞并且聽完全部再回復(fù)。
與傳統(tǒng)智能音箱助手等大多是特定任務(wù)可以多輪(如追問天氣情況)不同,接入大模型之后,在交流中隨意切換話題也不怕,可以做到通用場景全雙工連續(xù)對話。
另外,Ola Friend進(jìn)行了很多工程優(yōu)化,像是鏈路預(yù)加載等,使得端到端交互時間可以縮短,降低用戶講話后得到反饋的時間。
開放式耳機(jī)的AI進(jìn)化
作為字節(jié)跳動豆包團(tuán)隊第一款A(yù)I硬件,幾天前官方剛發(fā)布預(yù)熱海報,就有大批網(wǎng)友開始猜測Ola Friend是耳機(jī)呢?還是眼鏡呢?還是耳機(jī)呢?
這下它的神秘面紗終于被揭開,那為啥字節(jié)能將AI交互引入到耳機(jī)場景呢?
不僅得益于自家的豆包大模型支持,還與其硬件團(tuán)隊的實力密不可分。
據(jù)了解,九月份,字節(jié)跳動正式宣布成功收購開放穿戴式音頻產(chǎn)品廠商Oladance,完成100%控股。

Ola Friend硬件團(tuán)隊就是原Oladance耳機(jī)團(tuán)隊,也就是最早做OWS開放式耳機(jī)的那幫人,有深厚技術(shù)積累。
團(tuán)隊出身如此,所以O(shè)la Friend也正如我們前文所提到的,不僅從設(shè)計上不單單考慮了AI硬件的性能,還兼顧了傳統(tǒng)開放式耳機(jī)的舒適度和音質(zhì)。
同時團(tuán)隊還專門推出了優(yōu)化降噪算法,算法已申請專利,針對輕聲喚醒和交互專門做了改進(jìn),用戶用較輕的聲音就能喚起豆包。
也就是說,在公開場合中悄默聲就能喚醒,媽媽再也不用擔(dān)心我會社死。

大模型技術(shù)的發(fā)展正如日中天,各種AI硬件如雨后春筍般涌現(xiàn),從智能家居到個人助手,AI正在深刻改變我們的生活方式。
在這一背景下,字節(jié)跳動推出的Ola Friend無疑為AI硬件耳機(jī)市場帶來了新的活力。
據(jù)悉,Ola Friend將于10月17日起售,聽說后續(xù)AI功能還會持續(xù)更新,未來Ola Friend不僅能喚醒豆包,還可以喚起更多智能體。
那么你對這個首款A(yù)I大模型耳機(jī)心動了嗎?




