PixVerse（拍我AI）V5.5發(fā)布：國內首款分鏡+音頻一鍵生成AI視頻大模型

夢瑤 2025-12-02 11:53:32 來源：量子位

詩科技正式發(fā)布了PixVerse V5.5，國內版為拍我AI V5.5。這一新版本標志著 AI 視頻從“鏡頭生成”向自動“講故事”的進化，進入具備“完整敘事能力”的實用階段。與以往只能產出單鏡頭或零散畫面的大模型不同，V5.5 可以生成具備敘事結構的短片，甚至接近“成片”質量的視頻。

這一版本是繼 Sora2 發(fā)布后，國內首個實現(xiàn)“分鏡 + 音頻”一鍵直出的重大更新，讓創(chuàng)作者能夠在幾秒鐘內生成完整的視頻故事，而無需再從素材中拼接。

PixVerse（拍我AI）V5.5發(fā)布：國內首款分鏡+音頻一鍵生成AI視頻大模型

AI具備導演思維：多鏡頭生成和多角色音畫同步

V5.5 的核心進步來自于底層模型的全面升級。此次更新首次支持音頻（Audio）與多鏡頭（Multi-shot）同步生成，并強化了多角色音畫同步能力。AI 能夠根據用戶輸入的提示詞，自動理解并生成完整的故事段落，而非僅僅提供單一鏡頭的素材。用戶只需要輸入一個簡短的提示，AI 就能完成鏡頭推進、景別切換、人物對白、環(huán)境聲和背景音樂的生成，直接呈現(xiàn)一個可被使用的敘事片段。

在拍我AI（PixVerse）中，用戶可以在V5.5大模型多鏡頭和音畫同步打開狀態(tài)下，生成5秒、8 秒、10秒的視頻。用戶現(xiàn)在可以在提示詞（Prompt）里直接控制「音效、臺詞、音色、音樂、鏡頭」，AI 能自動理解提示詞中的敘事意圖，自動設計推拉、搖移、切換、景別變化等鏡頭語言。AI 的運鏡節(jié)奏更自然，緊貼真實制作邏輯，帶給用戶“成為導演”般的創(chuàng)作體驗。

V5.5 的智能化程度還體現(xiàn)在它對模糊信息的理解能力上。即使用戶只輸入“一只小熊在森林里講笑話”的簡單提示詞（Prompt），勾選音頻（ Audio ）和多鏡頭（ Multi-shot ）后，AI 就能自動生成具有景別變化、搞笑情緒并搭配匹配笑聲的完整片段。鏡頭骨架、情緒走向都由AI自動搭建，讓普通人也能以“導演思維”進行表達。

從體驗角度來看，V5.5 進一步縮短了創(chuàng)作工作流中的時間差。生成速度大幅提升，鏡頭語言更豐富，控制方式更加直觀，使得 C 端用戶和創(chuàng)作者都能以更低的門檻，迅速將抽象的靈感變成可觀看的成品視頻。

音畫同步的能力也得到了飛躍性提升。V5.5 成為國內首個可以在一次生成中實現(xiàn)“分鏡 + 聲音”的 AI 視頻生成大模型。畫面生成的同時，人物對白、口型、表情、動作、環(huán)境聲和背景音樂被自動融合，呈現(xiàn)出自然協(xié)調的多角色互動。這一能力的實現(xiàn)，使得創(chuàng)作者無需再額外調參或上傳音頻，便能生成近乎“直出成片”的高質量視頻。

拍我AI V5.5先導片中運用V5.5多鏡頭生成段落

拍我AI（PixVerse）海內外創(chuàng)作者社區(qū)的測試反饋來看，V5.5 多鏡頭能力足以改變短視頻的創(chuàng)作方式。過去，創(chuàng)作者需要依賴攝影師和剪輯師的配合，才能完成具有“黃金三秒開場節(jié)奏”的鏡頭。現(xiàn)在， AI 就能自動生成這一部分內容。

從圖像到視頻：一條龍工作流

隨著視頻生成能力的升級，愛詩科技正在為創(chuàng)作者提供更加完整的AI視頻工作流，全流程的一體化制作能力，加上全球最快的1080p生成速度（V5Fast模式下約30秒即可出片），幫助創(chuàng)作者更好地在效率、成本與成片質量取得平衡。

在 PixVerse.ai 和 pai.video 上，用戶可以上傳多張圖片，利用內置的 Nano Banana Pro 模型生成高清圖像，并一鍵轉入視頻制作流程。平臺此前已接入 Qwen-image、Seedream 4.0 和 Nano Banana 等圖像模型，為“從圖到視頻”的生產路徑提供基礎能力；Nano Banana Pro 的加入進一步提升了圖像質量與銜接順暢度，使整體創(chuàng)作效率顯著增強。

過去一個月，愛詩科技還推出了 Swap、Remix 和 Modify 三大視頻編輯功能。結合Diffusion + Transformer視頻生成大模型和多模態(tài)特征融合技術（Fusion），為創(chuàng)作者提供更加自由、自然的編輯體驗：

Swap（替換）：支持替換視頻中的角色、場景與背景，滿足影視再創(chuàng)作、品牌定制與社交娛樂內容的需求；

Remix（二創(chuàng)）：從“單向生成”到“互動共創(chuàng)”，允許用戶基于他人創(chuàng)作進行二次創(chuàng) 作，推動內容的循環(huán)傳播。

Modify（精修）：基于關鍵幀編輯的“全視頻推理與追蹤”方式，用戶像修改照片一樣，輕松PS視頻，確保跨幀一致、自然銜接。

這些能力正在成為新一代創(chuàng)作者的日常工具。今日正式開啟預售的電影《比如父子》也與拍我AI合作推出“未完成的對話”項目，通過老照片生成動態(tài)影像，幫助用戶跨越時間表達情緒，使 AI 視頻技術首次進入更具情感價值的場景。

AI 視頻正在成為基礎設施

從 2023 年成立至今，愛詩科技在兩年內完成了五代 PixVerse 模型、八個版本的快速迭代。從基礎模型的突破，到功能創(chuàng)新，再到規(guī)模化應用，技術與產品的共同演進為 V5.5 的推出奠定了堅實基礎。2025 年初，PixVerse V4 曾領先實現(xiàn) 5 秒極速生成高質量視頻，并成為全球首家上線“人聲+音效”的 AI 視頻平臺。如今，PixVerse 已成為全球創(chuàng)作者使用 AI 視頻生成的首選平臺之一，用戶規(guī)模超過1個億。

依托“速度快、易上手、創(chuàng)意可控”的產品理念，以及準實時生成、角色驅動視頻等核心技術，它正在讓 AI 視頻真正成為可規(guī)模化的內容生產方式，在影像、廣告、游戲、營銷和社交娛樂等領域不斷拓寬應用空間。

拍我AI（PixVerse） V5.5 指向的是一個更普惠的視頻創(chuàng)作未來：讓更多人能以“導演思維”進行表達。無論是漫劇、玩梗、MV、Vlog、復古影像還是動畫與二次元內容，制作成本都被進一步降低。從靈感浮現(xiàn)到看到成片，也許只需要一杯咖啡的時間。

AI視頻

夢瑤

第二十五屆中國股權投資大會圓滿落幕，領航行業(yè)向新而行2025-12-05
解鎖產業(yè)互聯(lián)網新周期，他們都說了什么2025-12-05
搶到票的必讀：創(chuàng)新大會 2026 超全攻略！2025-12-04
Invent 2025 Swami博士主題演講：可用、易用、可靠的Agentic AI核心技術路徑2025-12-04

PixVerse（拍我AI）V5.5發(fā)布：國內首款分鏡+音頻一鍵生成AI視頻大模型

相關閱讀

終于！全球爆火AI視頻神器PixVerse發(fā)布國內版——拍我AI

每秒生成超30幀視頻，支持實時交互！自回歸視頻生成新框架刷新生成效率

集結開源社區(qū)力量！北大與兔展智能發(fā)起復現(xiàn)Sora，框架已開源

AI視頻生成研究報告｜量子位智庫

清華系AI視頻工具，用10天給《毒液》官方做了個片子

賈樟柯李少紅都用AI拍電影了，還傳遞經驗：哪個功能最實用？

熱門文章

DeepSeek-V3.2系列開源，性能直接對標Gemini-3.0-Pro

階躍開源4B Agent模型，跑通所有安卓設備，手搓黨一鍵部署

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創(chuàng) 語音交互新范式

商湯分拆了一家AI醫(yī)療公司，半年融資10億，劍指“醫(yī)療世界模型”

前端沒死，AI APP正在返祖