字節(jié)豆包首個AI硬件來了，定價1199元！

西風(fēng) 2024-10-10 18:57:08 來源：量子位

可以練雅思口語的那種

金磊西風(fēng) 發(fā)自凹非寺

量子位 | 公眾號 QbitAI

字節(jié)跳動的首個AI硬件，就這么水靈靈地來了——

一款塞了大模型的藍(lán)牙耳機(jī)！

這個AI耳機(jī)，名叫Ola Friend，“Olá”在葡萄牙語中意為“你好”，因此它的中文名就是：你好呀朋友。

首先，Ola Friend最大的亮點，就是第一個做到了真正把通用大模型應(yīng)用到耳機(jī)場景——

戴上耳機(jī)，只需一句“豆包豆包”，就可以隨時隨地喚醒AI，并跟它做任何交流。

例如出門前詢問天氣、路面狀況，現(xiàn)在的“打開方式”是這樣的：

字節(jié)豆包首個AI硬件來了，定價1199元！

視頻詳情：https://www.toutiao.com/article/7424073841964384802/

當(dāng)然，這些問題都只能算是開胃菜，我們直接來上一下難度——英語口語練習(xí)！

字節(jié)豆包首個AI硬件來了，定價1199元！

視頻詳情：https://www.toutiao.com/article/7424073841964384802/

不難看出，現(xiàn)在跟AI練習(xí)英語口語，就變成戴個耳機(jī)就能實現(xiàn)的事情了，而且你可以隨時打斷豆包說話（1分29秒左右）。

當(dāng)然，作為一個藍(lán)牙耳機(jī)，其本身最基本的“聽”的功能也是非常重要的。

Ola Friend在設(shè)計上屬于不入耳的開放式（OWS）耳機(jī)，單只的重量只有6.6克（親測佩戴無重感）。

在音效方面，由于設(shè)計采用27.5度夾角，發(fā)聲單元會更靠近耳道，聲壓比會相對大一些；并且還采用了10mm動圈發(fā)聲單元、動態(tài)EQ1.0、動態(tài)低音補(bǔ)償、定向防漏音等設(shè)計，提升了耳機(jī)的音質(zhì)。

上面視頻中豆包說話的音效，其實就已經(jīng)非常接近佩戴時候的真實感覺了。

但畢竟我們第一時間拿到了Ola Friend，定然不能就這么簡單放過它——

實測嘛，就是要狠狠地、各方面地都來體驗一把。

嘈雜環(huán)境、方言，統(tǒng)統(tǒng)都能hold住

首先我們需要介紹一些基本的功能和設(shè)置。

Ola Friend在和手機(jī)配對的時候，需要雙手同時按住兩側(cè)機(jī)身，然后就可以在手機(jī)藍(lán)牙中找到它并連接。

但要想開啟AI大模型功能，還需要進(jìn)豆包APP的“我的→設(shè)置”里，找到“Ola Friend耳機(jī)”選項，進(jìn)行第二次配對；其中，“豆包智能體”選項中的喚醒功能是默認(rèn)開啟的。

接下來，我們就再貼近真實生活場景來一波測試。

畢竟我們戴耳機(jī)不僅僅是在安靜的環(huán)境，大多數(shù)可能都是非常嘈雜的環(huán)境，那么在用Ola Friend跟豆包對話的過程中，它會不會受到外界環(huán)境的影響呢？

我們這波測試的環(huán)境設(shè)置如下：電腦外放音樂，用中英摻雜的方式跟豆包對話。

（由于對話文字內(nèi)容較長，以下幾個實測視頻將以字幕的形式呈現(xiàn)）

視頻詳情：https://www.toutiao.com/article/7424073841964384802/

即便背景放了巨大音量的英文歌，但豆包還是能夠精準(zhǔn)識別出用戶的聲音，在問及“為什么今年的the Nobel Prize in Physics頒給了Geoffrey Hinton”時，豆包也能做出準(zhǔn)確回答。

由此可見，在嘈雜的現(xiàn)實環(huán)境中，Ola Friend也是完全可以hold住的。

而之所以能夠如此，是因為Ola Friend是可以像朋友一樣專門記住你的聲音，這就大幅降低了錯誤打斷的概率。

同樣的問題，同樣的環(huán)境，我們再有請方言出戰(zhàn)——四川話！

字節(jié)豆包首個AI硬件來了，定價1199元！

視頻詳情：https://www.toutiao.com/article/7424073841964384802/

這一次，我們特意切換了語音風(fēng)格為“呆萌川妹”，是不是相當(dāng)?shù)赜心俏秲毫耍?/p>

那么對于復(fù)雜的數(shù)學(xué)題，Ola Friend又將做何表現(xiàn)？

我們不妨以電影《抓娃娃》片段中的那道經(jīng)典題目來提問（這次我們切換了聲音為“溫暖阿虎”）：

一個長2米，直徑30cm的圓柱形木材，做半徑6cm比做半徑8cm能多做多少個球？

字節(jié)豆包首個AI硬件來了，定價1199元！

從求解過程中不難看出，不論是要求Ola Friend直接給出答案，亦或是在它求解過程中任意打斷（1分17秒、1分59秒、2分14秒），它都能像跟真人交流一樣嚴(yán)絲合縫。

不難看出，戴上了Ola Friend，就宛如實時地在跟AI大模型電話一樣，而且是有問必答、隨意打斷、多輪對話的那種。

因此，像在做飯燒菜等場景中，這個AI大模型耳機(jī)就能在釋放雙手的同時，還能做到答疑解惑。

方便，著實是方便。

那么接下來的一個問題便是：Ola Friend是如何做到的？

大模型+TTS+ASR煉成

扒開Ola Friend內(nèi)核，關(guān)鍵之一是字節(jié)于業(yè)界領(lǐng)先的大規(guī)模自回歸文本到語音模型——Seed-TTS。

幾個月前，字節(jié)發(fā)布了Seed-TTS技術(shù)論文，引發(fā)圈內(nèi)廣泛關(guān)注。

它可以依據(jù)上下文理解文本情緒，能生成與人類語音幾乎無法區(qū)分的高質(zhì)量語音，說話自然有感情，連停頓、喘息、換氣聲都合成得真真兒的。

字節(jié)豆包首個AI硬件來了，定價1199元！

視頻詳情：https://www.toutiao.com/article/7424073841964384802/

從技術(shù)實現(xiàn)上來看，Seed-TTS基于自回歸Transformer，模型架構(gòu)包含speech tokenizer從語音中提取token信息，語言模型建模文本和語音token的關(guān)系，擴(kuò)散模型從語音token生成連續(xù)的語音表征，最后通過聲碼器生成最終的語音。

訓(xùn)練含三個階段：

預(yù)訓(xùn)練：使用大量數(shù)據(jù)訓(xùn)練，實現(xiàn)廣泛的應(yīng)用場景和說話者覆蓋。
微調(diào)：說話者微調(diào)，以提高特定說話者或任務(wù)的性能。
后訓(xùn)練：使用強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練，全面提高模型性能。

與以前的模型相比，Seed-TTS在自然性和穩(wěn)定性方面有顯著提升。

經(jīng)實驗，Seed-TTS不僅具有零樣本上下文學(xué)習(xí)能力，基于短音頻提示生成相似聲音的新語音，還可以針對特定說話人進(jìn)行微調(diào)，進(jìn)一步提高相似度。

在情感等方面Seed-TTS具有更高的可控性，且支持跨語言語音合成，拿捏講話的音調(diào)、韻律、節(jié)奏。

Ola Friend另一大法寶是語音識別技術(shù)——Seed-ASR。

與AI智能音箱和車載語音系統(tǒng)相比，耳機(jī)通常在公共空間中被使用。這些場所環(huán)境嘈雜并且人多，因此在這些環(huán)境中進(jìn)行聲音識別和意圖判斷面臨較大挑戰(zhàn)。

而字節(jié)Seed-ASR技術(shù)，不僅讓Ola Friend能聽懂用戶說話，甚至能通過上下文識別各類信息。

Seed-ASR以大語言模型為基礎(chǔ)，通過輸入連續(xù)的語音表示和上下文信息，顯著提升了在不同應(yīng)用場景下對多樣語音信號的識別準(zhǔn)確率。

它支持包括普通話及多種方言在內(nèi)的多語言識別，在豐富的訓(xùn)練數(shù)據(jù)上進(jìn)行大規(guī)模的自監(jiān)督學(xué)習(xí)，還通過了階段性訓(xùn)練策略，包括監(jiān)督式微調(diào)、上下文感知訓(xùn)練和強(qiáng)化學(xué)習(xí)，進(jìn)一步優(yōu)化性能。

Seed-ASR在公開測試集和內(nèi)部綜合評估集上均展現(xiàn)出比現(xiàn)有端到端模型更低的詞/字錯誤率。

除此之外，依靠豆包大模型，Ola Friend還有buff加成——

能夠雙向?qū)崟r對話，隨時打斷也可以，支持引入其他話題多輪交流，而非每句話都要喚醒詞并且聽完全部再回復(fù)。

與傳統(tǒng)智能音箱助手等大多是特定任務(wù)可以多輪（如追問天氣情況）不同，接入大模型之后，在交流中隨意切換話題也不怕，可以做到通用場景全雙工連續(xù)對話。

另外，Ola Friend進(jìn)行了很多工程優(yōu)化，像是鏈路預(yù)加載等，使得端到端交互時間可以縮短，降低用戶講話后得到反饋的時間。

開放式耳機(jī)的AI進(jìn)化

作為字節(jié)跳動豆包團(tuán)隊第一款A(yù)I硬件，幾天前官方剛發(fā)布預(yù)熱海報，就有大批網(wǎng)友開始猜測Ola Friend是耳機(jī)呢？還是眼鏡呢？還是耳機(jī)呢？

這下它的神秘面紗終于被揭開，那為啥字節(jié)能將AI交互引入到耳機(jī)場景呢？

不僅得益于自家的豆包大模型支持，還與其硬件團(tuán)隊的實力密不可分。

據(jù)了解，九月份，字節(jié)跳動正式宣布成功收購開放穿戴式音頻產(chǎn)品廠商Oladance，完成100%控股。

Ola Friend硬件團(tuán)隊就是原Oladance耳機(jī)團(tuán)隊，也就是最早做OWS開放式耳機(jī)的那幫人，有深厚技術(shù)積累。

團(tuán)隊出身如此，所以O(shè)la Friend也正如我們前文所提到的，不僅從設(shè)計上不單單考慮了AI硬件的性能，還兼顧了傳統(tǒng)開放式耳機(jī)的舒適度和音質(zhì)。

同時團(tuán)隊還專門推出了優(yōu)化降噪算法，算法已申請專利，針對輕聲喚醒和交互專門做了改進(jìn)，用戶用較輕的聲音就能喚起豆包。

也就是說，在公開場合中悄默聲就能喚醒，媽媽再也不用擔(dān)心我會社死。

大模型技術(shù)的發(fā)展正如日中天，各種AI硬件如雨后春筍般涌現(xiàn)，從智能家居到個人助手，AI正在深刻改變我們的生活方式。

在這一背景下，字節(jié)跳動推出的Ola Friend無疑為AI硬件耳機(jī)市場帶來了新的活力。

據(jù)悉，Ola Friend將于10月17日起售，聽說后續(xù)AI功能還會持續(xù)更新，未來Ola Friend不僅能喚醒豆包，還可以喚起更多智能體。

那么你對這個首款A(yù)I大模型耳機(jī)心動了嗎？

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

AI硬件字節(jié)豆包

西風(fēng)

字節(jié)豆包首個AI硬件來了，定價1199元！

嘈雜環(huán)境、方言，統(tǒng)統(tǒng)都能hold住

大模型+TTS+ASR煉成

開放式耳機(jī)的AI進(jìn)化

相關(guān)閱讀

能懂孩子、懂爸媽、還懂寵物，這屆AI硬件太會了

一張小卡片敢賣999？原來是智能體AI硬件

網(wǎng)易AI變革忙：武可養(yǎng)豬，文能造筆

Labubu后，一款A(yù)I毛球潮玩火了：朱嘯虎押注，定價399元開售就賣爆

奧特曼64億美元聯(lián)手強(qiáng)納腎：OpenAI沖刺硬件iPhone時刻

1400元巴掌大小AI硬件，首日賣光1萬臺！呂騁歸來：要干翻所有App

熱門文章

跨境電商的疑難雜癥，被1688這個AI全包了…

起底“豆包手機(jī)”：核心技術(shù)探索早已開源，GUI Agent布局近兩年，“全球首款真正的AI手機(jī)”

蘋果芯片主管也要跑路！庫克被曝出現(xiàn)健康問題

看完最新國產(chǎn)AI寫的公眾號文章，我慌了！

共推空天領(lǐng)域智能化升級！趨境科技與金航數(shù)碼強(qiáng)強(qiáng)聯(lián)手