國產多模態大模型開源!無條件免費商用,性能超Claude 3 Sonnet
簡曈 發自 凹非寺
量子位 | 公眾號 QbitAI
又一個國產多模態大模型開源!
XVERSE-V,來自元象,還是同樣的無條件免費商用。
此前元象曾率先發布國內規模最大的開源大模型,如今開源家族系列又多了一個。

最新的多模態大模型支持任意寬高比圖像輸入,在主流評測中保持著效果領先——
在多項權威多模態評測中,XVERSE-V超過零一萬物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等開源模型。
在綜合能力測評MMBench中超過了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名閉源模型。

支持任意長寬比圖像輸入
傳統的多模態模型的圖像表示只有整體,XVERSE-V 采用了融合整體和局部的策略,支持輸入任意寬高比的圖像。
兼顧全局的概覽信息和局部的細節信息,能夠識別和分析圖像中的細微特征,看的更清楚,理解的更準確


這樣的處理方式使模型可以應用于廣泛的領域,包括全景圖識別、衛星圖像、古文物掃描分析等。
除了基本能力表現不錯,也能輕松應對各種不同的實際應用場景,比如圖表、文獻、代碼轉化、視障真實場景等。
圖表理解。

不論是復雜圖文結合的信息圖理解,還是單一圖表的分析與計算,模型都能夠自如應對。
自動駕駛。

代碼撰寫。

還有視障真實場景。
在真實視障場景測試集VizWiz中,XVERSE-V的表現超過了InternVL-Chat-V1.5、DeepSeek-VL-7B等幾乎所有主流的開源多模態大模型。該測試集包含了來自真實視障用戶提出的超過31000個視覺問答,能準確反映用戶的真實需求與瑣碎細小的問題,幫助視障人群克服他們日常真實的視覺挑戰。

來自元象
元象XVERSE于2021年初在深圳成立。累計融資金額超過2億美元,投資機構包括騰訊、高榕資本、五源資本、高瓴創投、紅杉中國、淡馬錫和CPE源峰等。
元象創始人姚星是前騰訊副總裁和騰訊AI Lab創始人、國家科技部新一代人工智能戰略咨詢委員會成員。
此前,元象在國內最早開源最大參數65B、全球最早開源最長上下文256K的MoE模型, 并在SuperCLUE測評全國領跑。
商業應用上,元象大模型是廣東最早獲得國家備案的模型之一 ,可向全社會提供服務。
元象大模型去年起已和多個騰訊產品,包括QQ音樂 、虎牙直播、全民K歌、騰訊云等,進行深度合作與應用探索,為文化、娛樂、旅游、金融領域打造創新領先的用戶體驗。

項目鏈接:
Hugging Face:https://huggingface.co/xverse/XVERSE-V-13B
ModelScope魔搭:https://modelscope.cn/models/xverse/XVERSE-V-13B
Github:https://github.com/xverse-ai/XVERSE-V-13B
- 空間智能卡脖子難題被杭州攻克!難倒GPT-5后,六小龍企業出手了2025-08-28
- 陳丹琦有了個公司郵箱,北大翁荔同款2025-08-28
- 英偉達最新芯片B30A曝光2025-08-20
- AI應用如何落地政企?首先不要卷通用大模型2025-08-12




