ChatGPT版「Her」被玩瘋:哭著讀詩,中文表現也很亮
還能超快數1-100
金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
上線僅僅一天,GPT-4o的高級語音功能(Advanced Voice Mode)簡直要被玩瘋了。
無數網友腦洞大開的瘋狂測試,GPT-4o這邊呢,不僅各種奇葩任務全盤接收,表現好到更是讓不少人連連驚呼“Blow my mind”。
例如有位網友要求GPT-4o用中文講個故事,它的表現是這樣的:
很多懂中文的網友看罷,紛紛表示不論是情緒還是整體的描述,GPT-4o的表現都比較OK。
但也并非完美,例如它的語速略顯慢了些,以及把“氣”讀成了“kì”。
還有更像人的例子,仔細聽:
你沒聽錯,GPT-4o在讀美國女詩人Emiliy Dickinson的作品時,她哭了!
(頗有種情到深處自然濃的感覺)
這效果可把網友們嚇得不輕,表示“毛骨悚然”。

然而這還只是網友們瘋狂測試的一隅,還有很多好玩的例子,我們繼續往下看。
數1-100,賊快
如果讓你用英文從1數到10,越快越好,你需要幾秒?
有網友就給GPT-4o提了這個要求,來感受下AI的語速:
當網友要求它以更快的速度讀1-10時,“AI字幕”識別功能都失效了。
而當GPT-4o被要求速讀1-50時,我們還可以聽到他還會像人一樣有大口換氣的動作。
接下來,這位網友提出了更高的要求——速讀1-100:
雖然前期沒有完全get網友的要求,但在他不斷地引導之下,GPT-4o最終還是完成了速讀1-100的任務。
除此之外,在搞怪方面,GPT-4o學貓叫也是一絕:
(我們一起學貓叫,一起喵喵喵~)
當然,以實時性和多語種出圈的語音功能,網友定然也不會放過測試這項任務。
主打一個隨意打斷、隨意切換:
烏爾都語→希伯來語→挪威語→摩洛哥達利加語→阿姆哈拉語→匈牙利語→格魯吉亞語→克林貢語。
還有更加實用的功能。
例如如果你在玩一款日本游戲,但卻看不懂日文,那就直接讓GPT-4o來幫忙就好了:
好家伙,GPT-4o直接搖身一變,成了實時翻譯官了。
“自然的語音是關鍵”
除了上面這些具體的案例,沃頓商學院教授Ethan Mollick也談了談他的感受。
他將GPT-4o的高級語音功能總結為三點:
- 它和OpenAI當時演示的效果一樣好。
- 它顯然能夠生成更多音頻,但存在限制。
- 它令人毛骨悚然。大量無意識的線索讓人感覺像是在與一個人交談。

并且Ethan教授還認為,這種非常自然、擬人的語音,正是改變人類與AI交互性質的關鍵(雖然底層模型是我們用了很久的那個)。
但實際上,高級語音模式與ChatGPT現有的語音功能存在明顯差異。
ChatGPT 之前的語音處理方式依賴于三個不同的模型:首先是將語音信號轉化為文字的模型,其次是 GPT-4 用于解析和回應用戶指令,最后是將 ChatGPT 的輸出文本轉換為語音的模型。
相比之下,GPT-4o 具備多模態能力,能夠獨立完成這些任務,無需其他模型的輔助,這大大減少了對話過程中的等待時間。
此外,OpenAI 還強調 GPT-4o 能夠識別并響應用戶語音中的情感變化,例如能夠感知到悲傷、興奮等情緒。

而隨著越來越多網友曬出他們的測試結果,底下的吃瓜群眾們是按耐不住了,紛紛表示希望OpenAI快點讓更多人體驗上。
那么你覺得用GPT-4o的高級語音功能,還能有什么更有意思的玩法?歡迎在評論區留言討論~

參考鏈接:
[1]https://x.com/CrisGiardina/status/1818469456269463810
[2]https://x.com/ManuVision/status/1818441972220104813
[3]https://x.com/emollick/status/1818790423319478384
[4]https://x.com/EthanSutin/status/1818405750760522232
[5]https://x.com/flowersslop/status/1818504414774046845
[6]https://x.com/CrisGiardina
[7]https://www.youtube.com/watch?v=cEhSo4ZPhpw
- 看完最新國產AI寫的公眾號文章,我慌了!2025-12-08
- 給機器人打造動力底座,微悍動力發布三款高功率密度關節模組2025-12-08
- 云計算一哥10分鐘發了25個新品!Kimi和MiniMax首次上桌2025-12-03
- Ilya剛預言完,世界首個原生多模態架構NEO就來了:視覺和語言徹底被焊死2025-12-06









