2行代碼與DeepSeek語(yǔ)音對(duì)話(huà)，1分鐘不到一毛錢(qián)，所有大模型都能開(kāi)口說(shuō)話(huà)

夢(mèng)晨 2025-03-07 16:00:16 來(lái)源：量子位

每分鐘0.098元

夢(mèng)晨發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

起猛了，DeepSeek開(kāi)口說(shuō)話(huà)了。

而且是超低延遲實(shí)時(shí)秒回，還可以隨時(shí)打斷的那種。

DeepSeek以及其他任意大模型接入這樣的高質(zhì)量對(duì)話(huà)引擎，全程只需要兩行代碼。

2行代碼與DeepSeek語(yǔ)音對(duì)話(huà)，1分鐘不到一毛錢(qián)，所有大模型都能開(kāi)口說(shuō)話(huà)

開(kāi)發(fā)一款語(yǔ)音交互的AI應(yīng)用，門(mén)檻低到如此令人發(fā)指了嗎？

這不算完，價(jià)格方面還有驚喜：每分鐘0.098元，不到一毛錢(qián)，單次還贈(zèng)送1000分鐘。

這就是來(lái)自聲網(wǎng)的對(duì)話(huà)式AI引擎了。

聲網(wǎng)AI RTE產(chǎn)品線負(fù)責(zé)人姚光華在3月6日對(duì)話(huà)式AI引擎發(fā)布會(huì)上提到，“經(jīng)過(guò)一段時(shí)間與客戶(hù)的打磨及實(shí)際使用場(chǎng)景調(diào)研，我們統(tǒng)計(jì)出，用戶(hù)與AI 每產(chǎn)生1次對(duì)話(huà)中，平均會(huì)有約3輪問(wèn)答，計(jì)算下來(lái)平均對(duì)話(huà)時(shí)長(zhǎng)約為21.1s，單次成本僅需3分錢(qián)。如果每月對(duì)話(huà)次數(shù)15次，那么月成本不到5毛錢(qián)，年成本也只需5元。”

聲網(wǎng)在價(jià)格上做到了極致，按用量付費(fèi)的模式更是不設(shè)上限，讓多模態(tài)AI交互應(yīng)用服務(wù)百萬(wàn)級(jí)用戶(hù)規(guī)模成為可能。

這樣便宜又好用，聲網(wǎng)是怎么做到的呢？

揭秘AI對(duì)話(huà)流暢體驗(yàn)關(guān)鍵

AI對(duì)話(huà)要想體驗(yàn)絲滑，低延遲是必不可少的。

這里有一個(gè)關(guān)鍵數(shù)據(jù)：延遲是否低于1.7秒。

如果低于這個(gè)值，人們會(huì)覺(jué)得與AI交流很自然；當(dāng)延遲達(dá)到2秒-3秒，使用體驗(yàn)上感覺(jué)到有些卡頓，反應(yīng)稍顯遲緩。

而聲網(wǎng)對(duì)話(huà)式AI引擎，經(jīng)過(guò)在中、美、歐、東南亞主要城市實(shí)測(cè)，能夠做到響應(yīng)延遲中位數(shù)650毫秒。這樣的反應(yīng)速度就能做到與人類(lèi)對(duì)話(huà)體驗(yàn)相仿，消除用戶(hù)等待的焦慮感。

響應(yīng)延遲只是保障流暢對(duì)話(huà)體驗(yàn)的基礎(chǔ)，進(jìn)入實(shí)際應(yīng)用后，還有更多關(guān)鍵技術(shù)。

真實(shí)人類(lèi)對(duì)話(huà)的一個(gè)重要特征是可以自然地打斷對(duì)方，而大多數(shù)AI對(duì)話(huà)系統(tǒng)在這方面表現(xiàn)不佳。聲網(wǎng)對(duì)話(huà)式AI引擎支持用戶(hù)隨時(shí)打斷AI的回應(yīng)，打斷響應(yīng)低至340ms，真正模擬人與人之間的自然對(duì)話(huà)節(jié)奏。

在嘈雜環(huán)境下，普通語(yǔ)音識(shí)別往往難以準(zhǔn)確捕捉用戶(hù)意圖。聲網(wǎng)的對(duì)話(huà)式AI引擎能屏蔽95%的環(huán)境人聲和噪聲干擾，精準(zhǔn)識(shí)別對(duì)話(huà)人聲，即使在人聲嘈雜的公共場(chǎng)所，也能保持對(duì)話(huà)質(zhì)量。

以下視頻來(lái)源于

聲網(wǎng)

在地鐵、地下車(chē)庫(kù)等網(wǎng)絡(luò)信號(hào)不佳的環(huán)境下，普通語(yǔ)音互動(dòng)應(yīng)用往往卡頓或斷連。

聲網(wǎng)之所以能解決這個(gè)問(wèn)題，是因?yàn)槁暰W(wǎng)的軟件定義實(shí)時(shí)網(wǎng)SD-RTN在全球建設(shè)了200多個(gè)數(shù)據(jù)中心，建立連接時(shí)選址也都是選在離終端用戶(hù)最近的地方。

再結(jié)合獨(dú)家智能路由+抗弱網(wǎng)算法，可以做到各種復(fù)雜網(wǎng)絡(luò)環(huán)境下的跨區(qū)域絲滑互動(dòng)，在面臨80%丟包的情況下人與Agent也能穩(wěn)定交流，即使斷網(wǎng)3-5s依舊可以流暢對(duì)話(huà)。

最后，該引擎不局限于特定大模型，能實(shí)現(xiàn)DeepSeek、ChatGPT等全模型適配，同時(shí)其音視頻SDK支持30000+終端機(jī)型，徹底解決多設(shè)備兼容性的后顧之憂(yōu)。

15分鐘任何應(yīng)用加裝AI語(yǔ)音交互

對(duì)于開(kāi)發(fā)者而言，聲網(wǎng)對(duì)話(huà)式AI引擎最大的魅力在于其極簡(jiǎn)的開(kāi)發(fā)接入流程和強(qiáng)大的靈活性：

極簡(jiǎn)接入：

通過(guò)聲網(wǎng)Console后臺(tái)，開(kāi)發(fā)者可以自行開(kāi)通服務(wù)、在Playground中調(diào)參測(cè)試并生成代碼，僅需2行核心代碼，15分鐘即可完成從零到部署一個(gè)基于大模型的對(duì)話(huà)式AI Agent的全過(guò)程。

這一”傻瓜式”接入方式極大降低了技術(shù)門(mén)檻，讓更多開(kāi)發(fā)者能夠快速進(jìn)入AI語(yǔ)音交互領(lǐng)域。

靈活切換：

開(kāi)發(fā)者可以根據(jù)應(yīng)用場(chǎng)景需求，自由選擇和切換底層大模型，而無(wú)需改變前端交互邏輯。支持全球幾乎所有大模型廠商，只要和OpenAI接口協(xié)議兼容的模型廠商，自3月6日起，全部原生支持。

同時(shí)也支持全球主流語(yǔ)音合成供應(yīng)商任意切換，支持開(kāi)發(fā)者通過(guò)語(yǔ)音合成供應(yīng)商定制的自定義音色接入。

比如在應(yīng)用中不同的功能接入不同的模型，都只需簡(jiǎn)單配置即可完成切換，真正實(shí)現(xiàn)一次開(kāi)發(fā)，全模型適配。

廣泛兼容：

一方面是支持第三方云端大模型服務(wù)、企業(yè)私有化模型及本地化部署的開(kāi)源模型無(wú)縫接入。

另一方面則是對(duì)硬件的兼容。現(xiàn)實(shí)場(chǎng)景中不同的設(shè)備可能對(duì)于語(yǔ)音處理效果產(chǎn)生影響，性能相對(duì)差一些的設(shè)備可能會(huì)產(chǎn)生更高的延時(shí)，需要音視頻SDK做到海量設(shè)備的兼容性，提供統(tǒng)一的低延時(shí)傳輸。聲網(wǎng)的RTC SDK支持30+平臺(tái)開(kāi)發(fā)框架，30000+終端機(jī)型適配，即使是中低端機(jī)型也適用。

語(yǔ)音交互即服務(wù)模式誕生

聲網(wǎng)對(duì)話(huà)式AI引擎不僅為開(kāi)發(fā)者提供了一個(gè)優(yōu)質(zhì)選擇，更意味著一種新模式的誕生：語(yǔ)音交互即服務(wù)。

讓RTC(實(shí)時(shí)音視頻)技術(shù)與大模型技術(shù)解耦，每個(gè)部分都可以交給專(zhuān)業(yè)的團(tuán)隊(duì)去做，大模型廠商無(wú)需再花時(shí)間精力自建語(yǔ)音交互體系。

在這個(gè)趨勢(shì)之中，聲網(wǎng)通過(guò)統(tǒng)一API接口廣泛兼容模型，站穩(wěn)了“AI語(yǔ)音交互中間件”這個(gè)的新生態(tài)位。

作為生成式AI行業(yè)一種全新的基礎(chǔ)設(shè)施供應(yīng)商，聲網(wǎng)首席運(yùn)營(yíng)官劉斌也在去年底參加了量子位舉辦的MEET2025智能未來(lái)大會(huì)。

在演講中，劉斌曾強(qiáng)調(diào)：

任何涉及大模型多模態(tài)實(shí)時(shí)交互的應(yīng)用，無(wú)論是語(yǔ)音還是視頻，只要存在多模態(tài)交互，這類(lèi)Agent應(yīng)用的落地都離不開(kāi)RTC技術(shù)的支持。

幾個(gè)月后，聲網(wǎng)對(duì)話(huà)式AI引擎正在“讓所有AI都能開(kāi)口說(shuō)話(huà)”，把RTC技術(shù)落地到各類(lèi)AI應(yīng)用，進(jìn)一步推進(jìn)整個(gè)生成式AI行業(yè)變革。

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

AI語(yǔ)音

夢(mèng)晨

2行代碼與DeepSeek語(yǔ)音對(duì)話(huà)，1分鐘不到一毛錢(qián)，所有大模型都能開(kāi)口說(shuō)話(huà)

揭秘AI對(duì)話(huà)流暢體驗(yàn)關(guān)鍵

15分鐘任何應(yīng)用加裝AI語(yǔ)音交互

語(yǔ)音交互即服務(wù)模式誕生

相關(guān)閱讀

「AI語(yǔ)音第一股」云知聲沖刺科創(chuàng)板，募資9.1億，累計(jì)營(yíng)收100%投入研發(fā)

最難方言溫州話(huà)被攻克！中國(guó)電信語(yǔ)音大模型支持30種方言，這題GPT-4o可不會(huì)做啊

熱門(mén)文章

DeepSeek-V3.2系列開(kāi)源，性能直接對(duì)標(biāo)Gemini-3.0-Pro

能講“悄悄話(huà)”的智能助理，瑞聲科技助力夸克AI眼鏡S1開(kāi)創(chuàng) 語(yǔ)音交互新范式

商湯分拆了一家AI醫(yī)療公司，半年融資10億，劍指“醫(yī)療世界模型”

前端沒(méi)死，AI APP正在返祖

寧德時(shí)代給9萬(wàn)+基層員工漲了薪！每月150元