阿里除夕發布Qwen2.5-Max反超DeepSeek V3,一句話開發小游戲
網友:祝大家新年快樂,特別祝Sam
西風 夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
昨晚,杭州大模型又雙叒不睡,給大伙兒 拜 年 啦~
就在春晚直播進行時,阿里通義Qwen發布新春節禮第三彈:
Qwen2.5-Max來襲,多個基準測試中超越當紅炸子雞DeepSeek V3。

Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond等基準統統拿下,Qwen2.5-Max整體表現優于DeepSeek V3、Llama-3.1-405B以及閉源模型GPT-4o,和Claude-3.5-Sonnet也能比一比。

基座模型對比中,Qwen2.5-Max同樣超越DeepSeek V3、Llama-3.1-405B,在針對模型知識理解和推理能力的MMLU-Pro等基準上均表現不凡。

更令AI社區關注的是,Qwen2.5-Max同DeepSeek V3一樣是超大規模的MoE模型,經超20萬億token的預訓練數據及精心設計SFT+RLHF后訓練方案訓練而成。

Qwen2.5-Max這份春節禮包被網友們齊刷刷收入囊中。前有DeepSeek,還有阿里通義Qwen,網友們不忘艾特奧特曼:
祝大家新年快樂,特別祝Sam。

阿里研究員在模型發布后也都還不睡,紛紛當起了自個兒的自來水。
阿里高級算法專家林俊旸開麥:
Qwen2.5-Max在基準測試中表現良好,希望大家可以試試看,新年快樂!

之前曾自曝阿里大模型員工996作息表的Binyuan Hui也再次現身:
外面的煙花照亮了天空,我卻坐在電腦跟前。

多模態能力展示
下面是Qwen2.5-Max在四個使用場景上的演示。
首先是聯網搜索功能,輸出的每句話來源出處都有標注,整體運行也很絲滑。

代碼能力上,Qwen2.5-Max能夠幫助用戶完成各種可視化創作,一句話就能做出下面這樣旋轉的球體:

有網友改造了一下,讓球體內部有三個彈跳的黃色小球。

結果只嘗試了一次就成功了,而且三個小球始終在大球內部運動,能正確處理碰撞:

Qwen2.5-Max也有Artifacts功能,同樣一句話,能開發各種小應用、小游戲。
比如制作一個掃雷小游戲,秒秒鐘“啪”一下直接就能玩:

另外Qwen2.5-Max數單詞中的特定字母數量也不在話下。

現在,Qwen2.5-Max已在Qwen Chat中上線。
此外也有Hugging Face的Demo可玩,還上線了Any Chat,并且可通過阿里云服務使用API。

感興趣的童鞋趕緊試試吧~
參考鏈接:
[1]https://qwenlm.github.io/blog/qwen2.5-max/
[2]https://x.com/JustinLin610/status/1884263803451498794
[3]https://x.com/_akhaliq/status/1884278071093502253
[4]https://x.com/huybery/status/1884263539675934860
- 商湯分拆了一家AI醫療公司,半年融資10億,劍指“醫療世界模型”2025-12-02
- “豆包手機”在二手市場價格都翻倍了……2025-12-05
- OpenAI首席研究員Mark Chen長訪談:小扎親手端湯來公司挖人,氣得我們端著湯去了Meta2025-12-03
- 讓大模型學會“高維找茬”,中國聯通新研究解決長文本圖像檢索痛點|AAAI 2026 Oral2025-12-01




