實測商湯實時音視頻交互模型5o:“造假”齊白石《蝦》一眼識破!
商湯在交互這塊玩了個大的
金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
跟AI交互這事兒,商湯最新發布的大模型,是有點“夠快、夠準、夠好”在身上的。
例如我們給它看下面這張畫:

我們人眼是能夠看出來這張照片是拿真的蝦擺在紙上,“造假”齊白石的名畫;但很多AI卻是識別不出來。
那么商湯最新的大模型是否可以一眼識破呢?

嗯,AI不僅識別出了照片里的都是真蝦,而且還猜出了另一種可能,高仿真模型。
再來給這個AI看一張繁體的書法作品,看看它能不能hold得住。

AI成功地看懂了這張書法作品內容是“寧靜致遠”,而且當問及為什么會從右往左讀時,它也精準地回答出了“因為這是一幅書法作品”。

而這個商湯最新發布的大模型,名叫日日新融合大模型交互版(SenseNova-5o,下文簡稱“新5o”),主打的就是用全新的多模態能力把跟AI交互的質量給拔高上去。
其實從剛才的兩個例子中,我們就不難發現,“新5o”是有一些不一樣的亮點在身上的。
例如AI交互被很多人詬病的延遲問題,“新5o”已經把它縮短至2秒以內,這種feel就跟真人交流沒有太大的差別。
再如交流過程中的真實度,一些語氣助詞、擬人的停頓感,還有情緒的模仿,都是較為逼真。
并且以前AI可能識別困難的任務,“新5o”這次也能輕松駕馭。
而之所以能夠如此,是因為商湯在底層技術上玩出了“新花樣”——國內首個原生融合多模態模型。
一言蔽之,不是簡單的融合,也不同于以往的“看”和“想”,是可以真正幫人類解決更加復雜的問題。
值得一提的是,現階段APP是已經可以免費測試使用,不限次數的哦~
那么商湯日日新融合大模型交互版,還能解鎖什么新玩法?
一波實測,Let’s Go!
一手實測在此
在跟AI交互的過程中,其實記憶力也是影響體驗的關鍵因素。
因此,我們第一輪實測就來看看“新5o”的記憶力如何。
記憶力不少于5分鐘
我們準備了幾張菜、食材的照片,先挨個問下“新5o”:

可以看到,“新5o”精準地識別出了它們的名字;在最后報菜名的環節中,也準確按照順序把此前看到的菜品和食材報了出來。
值得一提的是,整個過程我們是隨時打斷“新5o”的回答,它也是做到了秒停秒回答,所以實時對話這塊還是很OK的。
至于“新5o”的記憶力能持續多久,根據官方給出的數據,它可以支持超長多模態交互記憶不少于5分鐘!
這個時長在業界來說絕對算是第一梯隊的那種。
這一能力的展現,所考驗的不只是對信息的存儲功能,更是一種深入的理解與回憶能力。
用戶所提出的任何細節問題,以及在交流過程中的那些不經意的信息點滴,“新5o”都能做到清晰存儲,并且能夠在任何時刻迅速回憶起相關內容。
尤為重要的是,“新5o”的記憶范圍并不局限于短期的對話內容;它具備持續跟蹤和積累用戶交互信息的能力,通過這種方式,不斷對用戶需求的理解進行完善和優化。
能玩“大家來找茬”
在記憶力之后,我們再來考驗一下“新5o”的眼力如何。
這次我們直接一張大家來找茬伺候:

再來看下“新5o”的表現吧:

“新5o”先是根據圖片的環境,猜出這是1980年,然后在問及有哪些電器或者物件不符合這個年代時,它的答案有:
洗衣機、電飯煲、LED燈、空調、羽絨服、茅臺酒、手機、海報。
嗯,可以說是有理有據的把大部分的“茬”給找了出來。
那么你覺得還有哪些是“新5o”沒找出來的?可以在評論區留言哦~
做題也能用“問”的
如果一個AI能說、能看,那么拿物理這樣圖文并茂的題目做測試,就再適合不過了。
請看題目:

這是2024年北京高考物理的一道選擇題,我們讓“新5o”看一眼,然后提出問題:
這道題該怎么做?

“新5o”先是挨個把答案都過了一遍,把A、C和D選項排除,選出了正確答案B。
當我們進一步問“為什么是B”后,它就會對正確的答案做深入地解析。
像復雜的神經網絡架構圖,“新5o”也是可以一眼認出并做講解:

讓“新5o”和GPT-4o做對話
最后,我們再來一個有意思的測試——
讓“女聲-新5o”和“男聲-GPT-4o”來一場雙AI之間的對話:

從這場雙AI的對話中,我們可以明顯看出,兩個AI的語氣擬人程度都屬于比較自然的那種。
而“新5o”略勝一籌的便是延遲,基本都能控制在2秒以內,但GPT-4o有幾處的延遲時間差不多是4秒。
總而言之,從種種測試來看,“新5o”在看、說、想這種多模態交互能力上,是已經做到了非常絲滑。
那么接下來的一個問題便是:
商湯“新5o”是如何練成的?
正如商湯“新5o”的全名日日新融合大模型交互版,關鍵就是其背后的國內首個原生融合多模態模型。
那么,到底什么是原生融合多模態?
這是一種能夠將多種模態信息(如文本、圖像、視頻、音頻等)在模型架構和訓練過程中進行深度融合的AI模型架構。
與傳統的將語言模型和多模態模型分立的方式不同,它致力于打破模態之間的壁壘,實現從輸入到輸出的一體化處理,從而更有效地應對復雜的現實場景任務。

在量子位與商湯聯合創始人、人工智能基礎設施及大模型首席科學家林達華交流過程中,對這種新模式有了進一步的了解。
在預訓練階段,商湯的原生融合多模態大模型不僅利用天然存在的海量圖文交錯數據,還通過逆渲染、基于混合語義的圖像生成等方法合成大量融合模態數據。
例如,在處理網頁數據時,對圖文內容進行統一規范和高質量清洗,并利用現有模型對網頁內容進行改寫和再生成,獲取更豐富的多模態數據。
同時,基于從大量天然語料中提煉的概念,通過文生圖等方式合成新的圖像并搭配文字,進一步擴充數據來源,在圖文模態之間建立大量交互橋梁,使模型基座能更好地掌握模態間的豐富關系。

在后訓練階段,基于對廣泛業務場景(如視頻交互、多模態文檔分析、城市場景理解、車載場景理解等)的認知,構建大量跨模態任務。
這些任務不是簡單的數學題或問答,而是模擬真實場景中的復雜問題解決過程,形成交互解決問題的鏈條性數據。
如此一來,便可以促使模型在訓練過程中激發對多模態信息的整合理解分析能力,并形成對業務場景的有效響應能力,實現應用落地反哺基礎模型迭代的閉環。

值得一提的是,得益于原生融合多模態的這種方法,不僅是“新5o”在實際效果上取得了明顯的提升,在權威評測榜單上的成績也是非常亮眼——
一個模型擊穿兩種榜單!
這兩個榜單分別是SuperCLUE和OpenCompass。
在SuperCLUE測評中,其文科任務以81.8分位列全球第一,理科任務奪得金牌,計算維度以78.2分位列國內第一。

而在OpenCompass的多模態評測中平均得分77.4,領先眾多國內外模型。

這表明商湯的新模型在語言、推理、多模態信息處理等方面均達到較高水平,能夠有效避免多模態模型在純語言任務(如指令跟隨和推理任務)中性能嚴重下降的問題。
由此在圖文、純語言、推理等場景中都達到業內優秀水平,這也體現了原生融合多模態大模型在綜合性能上的優勢。
最后,從技術發展趨勢上來看,商湯所采取的原生融合多模態也應當是一條必由之路。
例如在自動駕駛中,原生融合多模態大模型可融合車內語音、車內外圖像視頻及車輛狀態等信息,讓車載智能體更好理解環境與需求,準確判斷交通狀況并及時決策,提升駕駛安全性與可靠性。
在具身智能方面,能增強智能體對環境的感知理解,使其通過多模態識別實現自然智能交互,還可利用多模態數據促進學習進化,提升任務執行能力,推動其發展應用。
一言蔽之,就像打通任督二脈一樣,將大模型推理能力與這些新形態數據結合的通道給疏通了出來。
那么對于這樣新的交互模式,你是否也想體驗一番呢?地址放下面嘍,感興趣的小伙伴可以沖一波了~
正式接口及接入方案可參考:
https://sensenova5o_doc.sensetime.com/introduction/intro.html
- 共推空天領域智能化升級!趨境科技與金航數碼強強聯手2025-12-09
- Ilya剛預言完,世界首個原生多模態架構NEO就來了:視覺和語言徹底被焊死2025-12-06
- 看完最新國產AI寫的公眾號文章,我慌了!2025-12-08
- 給機器人打造動力底座,微悍動力發布三款高功率密度關節模組2025-12-08



