會寫劇本、能凹人設,還順帶站上領獎臺,這數字人包“會”的
夢瑤 發自 凹非寺
量子位 | 公眾號 QbitAI
還記得今年6月羅永浩那場堪比春晚帶貨專場的直播嗎?評論區刷屏、訂單秒飄,GMV直接干到了5500萬+:

當時的老羅,前一秒還在念叨“別幫我省錢”,下一秒那副“精明老練”的商人面孔就藏不住了。
推眼鏡、拍桌子、掏清單一氣呵成,操作之嫻熟、語氣之佛系、節奏之精準,一整個“老羅本羅”!
狀態太好了,甚至好到讓人根本想不到:這場直播從頭到尾,羅永浩其實一次都沒出鏡……
你看到的“老羅”,其實是個數字人。(對,連眼鏡反光都合成得像模像樣)

蒼天啊,真假難辨真假難辨啊!
這出“安能辨我是AI”的魔幻直播大戲,背后的操盤手,正是百度。
他們用一套叫劇本驅動多模協同的高擬真數字人技術,讓數字人不但能說話,還能演戲、接梗、搶話筒,甚至真·金·白·銀地把貨賣出去。
在正在舉行中的2025年世界互聯網大會烏鎮峰會上,這項技術又一次拿下了領先科技獎,這是百度在烏鎮的三連冠,也是唯一連續三年獲獎的AI公司。

一個小小數字人,能說、會演、還能把錢賺得啪啪響,這個技術……究竟有啥魔力?
這屆數字人開始凹“編劇+演員+嘴替”人設了
大家有沒有這種感覺,這兩年數字人是真的火,不是因為產品多,而是給咱推送的太多了。
十條短視頻直播可能就有一條是數字人copy的,不是在吆喝賣東西,就是合成面孔在講新聞,“人設”各不相同,但“人味”都差點意思。
但為啥很多時候我們一眼就能看出來它不是真人?很簡單,是因為數字人最容易露餡兒的,從來不是臉,而是“人味兒”。
人識別“人”的方法其實特直覺,例如語氣對不對,動作順不順,只要有一點點卡頓、出戲、不自然,立馬就知道“No!這不是真人!”

而百度劇本驅動多模協同的高擬真數字人技術,就是要從根上解決上面這些問題。
它重點包含劇本驅動的數字人多模協同、融合多模規劃與深度思考的劇本生成、動態決策的實時交互、文本自控的語音合成、高一致性超擬真數字人長視頻生成五項創新技術。

簡單講就是,它不是只訓練一張臉、一個語音模型,而是讓語言、動作、表情、反應、內容都能協同起來,讓數字人像真人一樣“說”“演”“動”“聽”“想”。
能自己寫劇本的數字人
現在這年頭,能張口說話的數字人不算稀罕事兒了,能自己寫劇本、自己演,還能控節奏、接互動的數字人才是真·有點能耐。
基于文心大模型,百度這套「劇本驅動多模協同」的高擬真數字人技術不是你喂一句它說一句,而是它自己就能cos成一位資深編劇,能一口氣輸出一份可以直接開播的全流程直播劇本:

這份劇本里不僅有“說什么”,還有“怎么說、什么時候說、說的時候怎么配合動作表情”,說到哪該看哪、什么情境配什么語氣、雙人直播時誰該接話、怎么接,全都提前安排好。
舉個例子,提到“抬頭紋、法令紋、頸紋”的時候,小小數字人會自動調用視覺標簽,告訴系統鏡頭該怎么精準展示部位。
說“福利來咯”時,就觸發語音標簽,控制情緒語調,讓語氣顯得足夠興奮、但不油膩。
雙人互動時,還能安排“數字人在哪個詞之后無縫接話”,一句不差,直接接梗不卡殼!
像咱開頭提到的羅永浩那場6個多小時的直播,就是系統基于老羅的人設和產品特性,調用知識庫超過1.3萬次,生成的9.7萬字講解內容。
不但能像人一樣及時察覺到直播間熱度及用戶的反饋,還能超自然地與用戶實時互動:

再仔細看這段視頻還能發現,他能主動邀評、Cue彈幕、拋話題,遇到觀眾刷屏,還能順著話頭加段子,控場氛圍說實話,甚至比一些真人還穩。
背后這套“劇本+指令+場控”一體化系統,撐起的就是數字人的真正靈魂感,能聊能演能控場,妥妥的一位“全棧帶貨人”。
張口就能“戲精”附體?包會的!
數字人到底“裝”得像不像人,開口嘮兩句就能見真章。
在這一塊兒,百度高擬真數字人算是把“人味兒”打磨到位了,不光講話情緒有起伏、語調能帶勁兒,還能根據場景自動切換自己的語言風格,說得像,還說得準:

以至于我們看到老羅那場以假亂真的直播時,第一反應是沒任何毛病,因為那佛系又爆梗的講話勁兒真的跟他本人太像了:

前腳剛喝一口牛奶,后腳立馬張口爆金句:睡前來一杯,半夜上廁所思考一下人生也不錯~
別說觀眾,我要不是知道這是數字人,真以為老羅這段子水平又進化了,當一個數字人能copy到和正主一樣的講話方式時,我只能說是真·修煉得爐火純青了…
(等等,下一步該不會是數字人上《脫口秀大會》了吧???)

老話講得好,臺上一分鐘臺下十年功。
能讓數字人嘴皮子如此之溜,背后的核心技術是百度自研的文本自控語音合成大模型,不僅能把字讀出來,還能輕輕松松把語氣、節奏、情緒一起說出來。
此外,為了解決羅永浩數字人直播雙人配合的難點,百度用上了上下文編碼器,把整個對話的來龍去脈喂進去統一推理生成。
這才使得數字人能感知整段臺詞的情緒走向,動態調整語調和氣口,讓聲音聽起來像是“剛想完才說出口”的!
聽不到接縫、也感覺不到誰在等誰,說得順,接得住~
一張臉播到底,不累不崩不出戲
現在之所以有越來越多的商家開始用數字人代替真人出鏡,很大一個原因是:是人,就會累。
你想啊,人播個三五小時,脫妝不說,臉上隱約寫著四個大字:生!無!可!戀!
作為觀眾的我們看到那疲憊的面孔都忍不住想說一句:“哥,要不你先歇會兒?”(打工人狠狠共鳴了…)
而且講真的,正常人就算能高精力連著播六七個鐘頭,情緒雖可能還在線,但腦子可能早宕機了…

于是乎,賽博打工數字人就上場了!
百度數字人通過結合多模態視頻理解、跨模態信號生成、長視頻生成的一整套技術鏈,把數字人的在線表現力拉滿了:

沒有疲憊情緒、能在長時間直播中,始終維持統一語氣與人設狀態,不管播多久、講幾輪,調性始終如一,不跑偏、不出戲。
此外,對品牌來說,這種一致性是塑造IP的重要前提。
尤其在長時間直播場景里,效率、狀態、形象,全程在線,對商家來說,這不只是替代,更是一種流程可控、成本更穩的新解法。
這樣一來,旋轉跳躍不停歇真不是句歌詞了,小小數字人還真能幾個小時整下來~
技術落地之后,數字人開始真正“上工了”
是騾子是馬,當然得拉出來溜溜。
如今,百度這套高擬真數字人技術已經從“demo階段”走向了真實生產環境,成為了真正跑在一線的“打工仔”。
截至目前,靠它“孵化”出來的數字人已經超過10萬個,活躍在電商、教育、法律、政務等幾十個行業。
能賣貨、能講課、能答疑,還不喊累。
更關鍵的是,它不是“只省事不出活”,而是真能幫企業提效:
據官方數據,目前這套技術已經助力商家開播成本降低80%,轉化率提升31%,可謂“多·快·好·省”。

比如在老羅與朱蕭木的雙人帶貨直播中,百度數字人連播6小時,吸引觀眾超1300萬,GMV達到5500萬+,整個這波過程沒有冷場、沒有翻車,“嘴替”穩定輸出,觀眾看完都驚呼:真假傻傻分不清楚了…
知識博主艾彌兒也通過百度數字人接入萬億級知識庫,將用戶停留時長提升101%;蒙牛悠瑞的數字人通過全時段服務與動態策略,使轉化率提高了33%。
在山東德州夏津縣,“慧播星”數字人還助力三位老書記直播帶貨,1個月賣出3.3萬斤農產品,賬號訂單量已近萬單,總銷售超15萬元。
更進一步,從行業生態維度看,這套數字人技術也帶來了新的“綠色降本邏輯”:
不拼燈光、不靠體力,全程用算法驅動、一臺設備跑全程,不僅能少碳排、多復用,還能帶動上下游企業協同創新,產業鏈自然更健康。
從城市到鄉村,從書本到助農,數字人正悄悄接住每一個場景的需求。
不知不覺中,這套數字人技術已經變成了百度電商生態里的“默認選項”,撐起了包括圖書、健康、明星直播在內的多個業務的底盤。
相比傳統直播,商家無需投入大量人力物力,不用搭建場地、購置設備、培訓主播,只需部署一套數字人系統,就能實現全天候內容輸出。
而24小時不間斷直播,也讓商品在曝光時長、用戶觸達頻次、轉化機會上都實現了顯著增長。

從打工人視角看,這是別人家“永不下播”的同事;從老板視角看,這是穩定、耐造、可調度的理想員工。
總的來說,從前的數字人,還只是個實驗室demo,現在的數字人,已經在直播間里拉業績、帶節奏、撬增長了。
更關鍵的是,它的表現不只靠“看起來像”,而是拿得出數據、撐得起轉化、跑得動流程:
讓觀眾停留、讓訂單增長,在一個又一個落地場景中完成“交作業”。
百度數字人技術在烏鎮上的獲獎,不只是在表彰技術突破,更是在確認:
一個能上場、能扛活、還能賺得明明白白的數字人,已經成了內容產業的新型基礎設施。
不是替代真人,而是開辟了一種更穩定、更可控的內容生產力路徑。
下一場數字人直播的爆點,沒準就藏在一行劇本的背后,咱就搓搓手期待期待吧。
- 第二十五屆中國股權投資大會圓滿落幕, 領航行業向新而行2025-12-05
- 解鎖產業互聯網新周期,他們都說了什么2025-12-05
- 搶到票的必讀:創新大會 2026 超全攻略!2025-12-04
- Invent 2025 Swami博士主題演講:可用、易用、可靠的Agentic AI核心技術路徑2025-12-04



