港科大
ICLR 2025 Spotlight:音頻生成新突破!港科北郵團隊首次通過文本控制聲源方向生成音頻
通過文本控制生成多通道音頻在影視娛樂、AR/VR等領(lǐng)域擁有重要應(yīng)用。
多模態(tài)版DeepSeek-R1:評測表現(xiàn)超GPT-4o,模態(tài)穿透反哺文本推理能力!北大港科大出品,已開源
“多模態(tài)大模型已具備跨模態(tài)穿透和融合的感知能力”
通過文本控制生成多通道音頻在影視娛樂、AR/VR等領(lǐng)域擁有重要應(yīng)用。
“多模態(tài)大模型已具備跨模態(tài)穿透和融合的感知能力”