2行代碼與DeepSeek語(yǔ)音對(duì)話(huà),1分鐘不到一毛錢(qián),所有大模型都能開(kāi)口說(shuō)話(huà)
每分鐘0.098元
夢(mèng)晨 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
起猛了,DeepSeek開(kāi)口說(shuō)話(huà)了。
而且是超低延遲實(shí)時(shí)秒回,還可以隨時(shí)打斷的那種。
DeepSeek以及其他任意大模型接入這樣的高質(zhì)量對(duì)話(huà)引擎,全程只需要兩行代碼。

開(kāi)發(fā)一款語(yǔ)音交互的AI應(yīng)用,門(mén)檻低到如此令人發(fā)指了嗎?
這不算完,價(jià)格方面還有驚喜:每分鐘0.098元,不到一毛錢(qián),單次還贈(zèng)送1000分鐘。
這就是來(lái)自聲網(wǎng)的對(duì)話(huà)式AI引擎了。

聲網(wǎng)AI RTE產(chǎn)品線負(fù)責(zé)人姚光華在3月6日對(duì)話(huà)式AI引擎發(fā)布會(huì)上提到,“經(jīng)過(guò)一段時(shí)間與客戶(hù)的打磨及實(shí)際使用場(chǎng)景調(diào)研,我們統(tǒng)計(jì)出,用戶(hù)與AI 每產(chǎn)生1次對(duì)話(huà)中,平均會(huì)有約3輪問(wèn)答,計(jì)算下來(lái)平均對(duì)話(huà)時(shí)長(zhǎng)約為21.1s,單次成本僅需3分錢(qián)。如果每月對(duì)話(huà)次數(shù)15次,那么月成本不到5毛錢(qián),年成本也只需5元。”
聲網(wǎng)在價(jià)格上做到了極致,按用量付費(fèi)的模式更是不設(shè)上限,讓多模態(tài)AI交互應(yīng)用服務(wù)百萬(wàn)級(jí)用戶(hù)規(guī)模成為可能。
這樣便宜又好用,聲網(wǎng)是怎么做到的呢?
揭秘AI對(duì)話(huà)流暢體驗(yàn)關(guān)鍵
AI對(duì)話(huà)要想體驗(yàn)絲滑,低延遲是必不可少的。
這里有一個(gè)關(guān)鍵數(shù)據(jù):延遲是否低于1.7秒。
如果低于這個(gè)值,人們會(huì)覺(jué)得與AI交流很自然;當(dāng)延遲達(dá)到2秒-3秒,使用體驗(yàn)上感覺(jué)到有些卡頓,反應(yīng)稍顯遲緩。
而聲網(wǎng)對(duì)話(huà)式AI引擎,經(jīng)過(guò)在中、美、歐、東南亞主要城市實(shí)測(cè),能夠做到響應(yīng)延遲中位數(shù)650毫秒。這樣的反應(yīng)速度就能做到與人類(lèi)對(duì)話(huà)體驗(yàn)相仿,消除用戶(hù)等待的焦慮感。
響應(yīng)延遲只是保障流暢對(duì)話(huà)體驗(yàn)的基礎(chǔ),進(jìn)入實(shí)際應(yīng)用后,還有更多關(guān)鍵技術(shù)。
真實(shí)人類(lèi)對(duì)話(huà)的一個(gè)重要特征是可以自然地打斷對(duì)方,而大多數(shù)AI對(duì)話(huà)系統(tǒng)在這方面表現(xiàn)不佳。聲網(wǎng)對(duì)話(huà)式AI引擎支持用戶(hù)隨時(shí)打斷AI的回應(yīng),打斷響應(yīng)低至340ms,真正模擬人與人之間的自然對(duì)話(huà)節(jié)奏。
在嘈雜環(huán)境下,普通語(yǔ)音識(shí)別往往難以準(zhǔn)確捕捉用戶(hù)意圖。聲網(wǎng)的對(duì)話(huà)式AI引擎能屏蔽95%的環(huán)境人聲和噪聲干擾,精準(zhǔn)識(shí)別對(duì)話(huà)人聲,即使在人聲嘈雜的公共場(chǎng)所,也能保持對(duì)話(huà)質(zhì)量。
以下視頻來(lái)源于
聲網(wǎng)
在地鐵、地下車(chē)庫(kù)等網(wǎng)絡(luò)信號(hào)不佳的環(huán)境下,普通語(yǔ)音互動(dòng)應(yīng)用往往卡頓或斷連。
聲網(wǎng)之所以能解決這個(gè)問(wèn)題,是因?yàn)槁暰W(wǎng)的軟件定義實(shí)時(shí)網(wǎng)SD-RTN在全球建設(shè)了200多個(gè)數(shù)據(jù)中心,建立連接時(shí)選址也都是選在離終端用戶(hù)最近的地方。
再結(jié)合獨(dú)家智能路由+抗弱網(wǎng)算法,可以做到各種復(fù)雜網(wǎng)絡(luò)環(huán)境下的跨區(qū)域絲滑互動(dòng),在面臨80%丟包的情況下人與Agent也能穩(wěn)定交流,即使斷網(wǎng)3-5s依舊可以流暢對(duì)話(huà)。
最后,該引擎不局限于特定大模型,能實(shí)現(xiàn)DeepSeek、ChatGPT等全模型適配,同時(shí)其音視頻SDK支持30000+終端機(jī)型,徹底解決多設(shè)備兼容性的后顧之憂(yōu)。
15分鐘任何應(yīng)用加裝AI語(yǔ)音交互
對(duì)于開(kāi)發(fā)者而言,聲網(wǎng)對(duì)話(huà)式AI引擎最大的魅力在于其極簡(jiǎn)的開(kāi)發(fā)接入流程和強(qiáng)大的靈活性:
極簡(jiǎn)接入:
通過(guò)聲網(wǎng)Console后臺(tái),開(kāi)發(fā)者可以自行開(kāi)通服務(wù)、在Playground中調(diào)參測(cè)試并生成代碼,僅需2行核心代碼,15分鐘即可完成從零到部署一個(gè)基于大模型的對(duì)話(huà)式AI Agent的全過(guò)程。

這一”傻瓜式”接入方式極大降低了技術(shù)門(mén)檻,讓更多開(kāi)發(fā)者能夠快速進(jìn)入AI語(yǔ)音交互領(lǐng)域。
靈活切換:
開(kāi)發(fā)者可以根據(jù)應(yīng)用場(chǎng)景需求,自由選擇和切換底層大模型,而無(wú)需改變前端交互邏輯。支持全球幾乎所有大模型廠商,只要和OpenAI接口協(xié)議兼容的模型廠商,自3月6日起,全部原生支持。
同時(shí)也支持全球主流語(yǔ)音合成供應(yīng)商任意切換,支持開(kāi)發(fā)者通過(guò)語(yǔ)音合成供應(yīng)商定制的自定義音色接入。

比如在應(yīng)用中不同的功能接入不同的模型,都只需簡(jiǎn)單配置即可完成切換,真正實(shí)現(xiàn)一次開(kāi)發(fā),全模型適配。
廣泛兼容:
一方面是支持第三方云端大模型服務(wù)、企業(yè)私有化模型及本地化部署的開(kāi)源模型無(wú)縫接入。
另一方面則是對(duì)硬件的兼容。現(xiàn)實(shí)場(chǎng)景中不同的設(shè)備可能對(duì)于語(yǔ)音處理效果產(chǎn)生影響,性能相對(duì)差一些的設(shè)備可能會(huì)產(chǎn)生更高的延時(shí),需要音視頻SDK做到海量設(shè)備的兼容性,提供統(tǒng)一的低延時(shí)傳輸。聲網(wǎng)的RTC SDK支持30+平臺(tái)開(kāi)發(fā)框架,30000+終端機(jī)型適配,即使是中低端機(jī)型也適用。
語(yǔ)音交互即服務(wù)模式誕生
聲網(wǎng)對(duì)話(huà)式AI引擎不僅為開(kāi)發(fā)者提供了一個(gè)優(yōu)質(zhì)選擇,更意味著一種新模式的誕生:語(yǔ)音交互即服務(wù)。
讓RTC(實(shí)時(shí)音視頻)技術(shù)與大模型技術(shù)解耦,每個(gè)部分都可以交給專(zhuān)業(yè)的團(tuán)隊(duì)去做,大模型廠商無(wú)需再花時(shí)間精力自建語(yǔ)音交互體系。
在這個(gè)趨勢(shì)之中,聲網(wǎng)通過(guò)統(tǒng)一API接口廣泛兼容模型,站穩(wěn)了“AI語(yǔ)音交互中間件”這個(gè)的新生態(tài)位。
作為生成式AI行業(yè)一種全新的基礎(chǔ)設(shè)施供應(yīng)商,聲網(wǎng)首席運(yùn)營(yíng)官劉斌也在去年底參加了量子位舉辦的MEET2025智能未來(lái)大會(huì)。
在演講中,劉斌曾強(qiáng)調(diào):
任何涉及大模型多模態(tài)實(shí)時(shí)交互的應(yīng)用,無(wú)論是語(yǔ)音還是視頻,只要存在多模態(tài)交互,這類(lèi)Agent應(yīng)用的落地都離不開(kāi)RTC技術(shù)的支持。
幾個(gè)月后,聲網(wǎng)對(duì)話(huà)式AI引擎正在“讓所有AI都能開(kāi)口說(shuō)話(huà)”,把RTC技術(shù)落地到各類(lèi)AI應(yīng)用,進(jìn)一步推進(jìn)整個(gè)生成式AI行業(yè)變革。




