陳丹琦
打臉!GPT-4o輸出長(zhǎng)度8k都勉強(qiáng),陳丹琦團(tuán)隊(duì)新基準(zhǔn)測(cè)試:所有模型輸出都低于標(biāo)稱長(zhǎng)度
LLM生成長(zhǎng)段回復(fù)的能力還有待加強(qiáng)
陳丹琦團(tuán)隊(duì)揭Transformer內(nèi)部原理:另辟蹊徑,從構(gòu)建初代聊天機(jī)器人入手
數(shù)據(jù)集/架構(gòu)/訓(xùn)練全都新來一遍
陳丹琦團(tuán)隊(duì)新作:Llama-2上下文擴(kuò)展至128k,10倍吞吐量?jī)H需1/6內(nèi)存
任何僅解碼器架構(gòu)模型都適用
陳丹琦團(tuán)隊(duì)新作:數(shù)據(jù)量砍95%,大模型性能更強(qiáng)了!Less is More
數(shù)據(jù)選擇算法LESS
陳丹琦團(tuán)隊(duì)最新論文:受GPT-3啟發(fā),用小樣本學(xué)習(xí)給語言模型做微調(diào),性能最高提升30%
共同一作之一為清華特獎(jiǎng)得主高天宇













