推理模型
Qwen緊追OpenAI開源4B端側(cè)大模型,AIME25得分超越Claude 4 Opus
“這下沒人談?wù)揙penAI昨天開源了啥”
4B小模型數(shù)學(xué)推理首超Claude 4,700步RL訓(xùn)練逼近235B性能 | 港大&字節(jié)Seed&復(fù)旦
一種用在高級(jí)推理模型上Scaling RL的后訓(xùn)練方法
螞蟻開源輕量級(jí)推理模型Ring-lite,多項(xiàng)Benchmark達(dá)到SOTA
首創(chuàng) C3PO 強(qiáng)化學(xué)習(xí)訓(xùn)練方法
一句話讓DeepSeek思考停不下來,北大團(tuán)隊(duì):這是針對(duì)AI的DDoS攻擊
過度推理攻擊,會(huì)導(dǎo)致GPU資源大量占用
Claude 4被曝發(fā)布在即!被DeepSeek逼得都把大招拿出來了
通用+推理二合一,手動(dòng)調(diào)節(jié)思考時(shí)長
o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設(shè)計(jì)測(cè)試時(shí)推理策略,無需人類干預(yù)
競(jìng)賽編程,推理模型新戰(zhàn)場(chǎng)
國內(nèi)數(shù)學(xué)最強(qiáng)!實(shí)測(cè)訊飛版o1:上能打奧賽卷高考,下能輔導(dǎo)寒假作業(yè)
“三個(gè)第一”,打出了差異化優(yōu)勢(shì)






















