Transformer
Transformer作者:DeepSeek才有搞頭,OpenAI指望不上了
“閉源人工智能在阻礙我們探索真正的科學(xué)”
Transformer危!谷歌MoR架構(gòu)發(fā)布:內(nèi)存減半推理速度還翻倍
保持大模型性能的同時(shí)降低計(jì)算和內(nèi)存成本
Mamba一作預(yù)告新架構(gòu)!長(zhǎng)文論述Transformer≠最終解法
而且Attention并非All You Need
基于能量的Transformer橫空出世!全面超越主流模型35%
像人類一樣“想清楚再回答”
Meta新注意力機(jī)制突破Transformer上限,還用上了OpenAI的開源技術(shù)
將標(biāo)準(zhǔn)點(diǎn)積注意力推廣到三元線性函數(shù)
一句話生成任務(wù)專屬LoRA!Transformer作者創(chuàng)業(yè)公司顛覆LLM微調(diào)
能夠動(dòng)態(tài)調(diào)制大模型的超網(wǎng)絡(luò)架構(gòu)
嚯!大語(yǔ)言擴(kuò)散模型來(lái)了,何必只預(yù)測(cè)下一個(gè)token | 人大高瓴&螞蟻
正向掩碼+反向預(yù)測(cè)
o1方法性能無(wú)上限!姚班馬騰宇等數(shù)學(xué)證明:推理token夠多,就能解決任意問(wèn)題
CoT讓Transformer更接近圖靈完備
Transformer作者預(yù)警:只賣模型玩不過(guò)OpenAI!
預(yù)言5年內(nèi)機(jī)器人領(lǐng)域?qū)⒂瓉?lái)大突破!
Transformer“貢獻(xiàn)最大”作者,重返谷歌出任Gemini聯(lián)合技術(shù)主管
與Jeff Dean一起共事
首位AI科學(xué)家問(wèn)世!已獨(dú)立生成10篇學(xué)術(shù)論文,還順手搞了AI審稿人
Transformer作者創(chuàng)業(yè)成果
打亂/跳過(guò)Transformer層會(huì)怎樣?最新研究揭開其信息流動(dòng)機(jī)制,一口氣解答8大問(wèn)題
ViT作者等一眾學(xué)者點(diǎn)贊
陳丹琦團(tuán)隊(duì)揭Transformer內(nèi)部原理:另辟蹊徑,從構(gòu)建初代聊天機(jī)器人入手
數(shù)據(jù)集/架構(gòu)/訓(xùn)練全都新來(lái)一遍











的-e1726553400498.png)












