PixVerse(拍我AI)V5.5發(fā)布:國內首款分鏡+音頻一鍵生成AI視頻大模型
詩科技正式發(fā)布了PixVerse V5.5,國內版為拍我AI V5.5。這一新版本標志著 AI 視頻從“鏡頭生成”向自動“講故事”的進化,進入具備“完整敘事能力”的實用階段。與以往只能產出單鏡頭或零散畫面的大模型不同,V5.5 可以生成具備敘事結構的短片,甚至接近“成片”質量的視頻。
這一版本是繼 Sora2 發(fā)布后,國內首個實現(xiàn)“分鏡 + 音頻”一鍵直出的重大更新,讓創(chuàng)作者能夠在幾秒鐘內生成完整的視頻故事,而無需再從素材中拼接。

AI具備導演思維:多鏡頭生成和多角色音畫同步
V5.5 的核心進步來自于底層模型的全面升級。此次更新首次支持音頻(Audio)與多鏡頭(Multi-shot)同步生成,并強化了多角色音畫同步能力。AI 能夠根據用戶輸入的提示詞,自動理解并生成完整的故事段落,而非僅僅提供單一鏡頭的素材。用戶只需要輸入一個簡短的提示,AI 就能完成鏡頭推進、景別切換、人物對白、環(huán)境聲和背景音樂的生成,直接呈現(xiàn)一個可被使用的敘事片段。
在拍我AI(PixVerse)中,用戶可以在V5.5大模型多鏡頭和音畫同步打開狀態(tài)下,生成5秒、8 秒、10秒的視頻。用戶現(xiàn)在可以在提示詞(Prompt)里直接控制「音效、臺詞、音色、音樂、鏡頭」,AI 能自動理解提示詞中的敘事意圖,自動設計推拉、搖移、切換、景別變化等鏡頭語言。AI 的運鏡節(jié)奏更自然,緊貼真實制作邏輯,帶給用戶“成為導演”般的創(chuàng)作體驗。
V5.5 的智能化程度還體現(xiàn)在它對模糊信息的理解能力上。即使用戶只輸入“一只小熊在森林里講笑話”的簡單提示詞(Prompt),勾選音頻( Audio )和多鏡頭( Multi-shot )后,AI 就能自動生成具有景別變化、搞笑情緒并搭配匹配笑聲的完整片段。鏡頭骨架、情緒走向都由AI自動搭建,讓普通人也能以“導演思維”進行表達。

從體驗角度來看,V5.5 進一步縮短了創(chuàng)作工作流中的時間差。生成速度大幅提升,鏡頭語言更豐富,控制方式更加直觀,使得 C 端用戶和創(chuàng)作者都能以更低的門檻,迅速將抽象的靈感變成可觀看的成品視頻。
音畫同步的能力也得到了飛躍性提升。V5.5 成為國內首個可以在一次生成中實現(xiàn)“分鏡 + 聲音”的 AI 視頻生成大模型。畫面生成的同時,人物對白、口型、表情、動作、環(huán)境聲和背景音樂被自動融合,呈現(xiàn)出自然協(xié)調的多角色互動。這一能力的實現(xiàn),使得創(chuàng)作者無需再額外調參或上傳音頻,便能生成近乎“直出成片”的高質量視頻。

拍我AI V5.5先導片中運用V5.5多鏡頭生成段落
拍我AI(PixVerse)海內外創(chuàng)作者社區(qū)的測試反饋來看,V5.5 多鏡頭能力足以改變短視頻的創(chuàng)作方式。過去,創(chuàng)作者需要依賴攝影師和剪輯師的配合,才能完成具有“黃金三秒開場節(jié)奏”的鏡頭。現(xiàn)在, AI 就能自動生成這一部分內容。
從圖像到視頻:一條龍工作流
隨著視頻生成能力的升級,愛詩科技正在為創(chuàng)作者提供更加完整的AI視頻工作流,全流程的一體化制作能力,加上全球最快的1080p生成速度(V5Fast模式下約30秒即可出片),幫助創(chuàng)作者更好地在效率、成本與成片質量取得平衡。
在 PixVerse.ai 和 pai.video 上,用戶可以上傳多張圖片,利用內置的 Nano Banana Pro 模型生成高清圖像,并一鍵轉入視頻制作流程。平臺此前已接入 Qwen-image、Seedream 4.0 和 Nano Banana 等圖像模型,為“從圖到視頻”的生產路徑提供基礎能力;Nano Banana Pro 的加入進一步提升了圖像質量與銜接順暢度,使整體創(chuàng)作效率顯著增強。
過去一個月,愛詩科技還推出了 Swap、Remix 和 Modify 三大視頻編輯功能。結合Diffusion + Transformer視頻生成大模型和多模態(tài)特征融合技術(Fusion),為創(chuàng)作者提供更加自由、自然的編輯體驗:
Swap(替換):支持替換視頻中的角色、場景與背景,滿足影視再創(chuàng)作、品牌 定制與社交娛樂內容的需求;
Remix(二創(chuàng)):從“單向生成”到“互動共創(chuàng)”,允許用戶基于他人創(chuàng)作進行二次創(chuàng) 作,推動內容的循環(huán)傳播。
Modify(精修):基于關鍵幀編輯的“全視頻推理與追蹤”方式,用戶像修改照片 一樣,輕松PS視頻,確保跨幀一致、自然銜接。

這些能力正在成為新一代創(chuàng)作者的日常工具。今日正式開啟預售的電影《比如父子》也與拍我AI合作推出“未完成的對話”項目,通過老照片生成動態(tài)影像,幫助用戶跨越時間表達情緒,使 AI 視頻技術首次進入更具情感價值的場景。
AI 視頻正在成為基礎設施
從 2023 年成立至今,愛詩科技在兩年內完成了五代 PixVerse 模型、八個版本的快速迭代。從基礎模型的突破,到功能創(chuàng)新,再到規(guī)模化應用,技術與產品的共同演進為 V5.5 的推出奠定了堅實基礎。2025 年初,PixVerse V4 曾領先實現(xiàn) 5 秒極速生成高質量視頻,并成為全球首家上線“人聲+音效”的 AI 視頻平臺。如今,PixVerse 已成為全球創(chuàng)作者使用 AI 視頻生成的首選平臺之一,用戶規(guī)模超過1個億。
依托“速度快、易上手、創(chuàng)意可控”的產品理念,以及準實時生成、角色驅動視頻等核心技術,它正在讓 AI 視頻真正成為可規(guī)模化的內容生產方式,在影像、廣告、游戲、營銷和社交娛樂等領域不斷拓寬應用空間。
拍我AI(PixVerse) V5.5 指向的是一個更普惠的視頻創(chuàng)作未來:讓更多人能以“導演思維”進行表達。無論是漫劇、玩梗、MV、Vlog、復古影像還是動畫與二次元內容,制作成本都被進一步降低。從靈感浮現(xiàn)到看到成片,也許只需要一杯咖啡的時間。
- 第二十五屆中國股權投資大會圓滿落幕, 領航行業(yè)向新而行2025-12-05
- 解鎖產業(yè)互聯(lián)網新周期,他們都說了什么2025-12-05
- 搶到票的必讀:創(chuàng)新大會 2026 超全攻略!2025-12-04
- Invent 2025 Swami博士主題演講:可用、易用、可靠的Agentic AI核心技術路徑2025-12-04




