色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

Meta超級(jí)智能實(shí)驗(yàn)室新論文陷爭議!被指忽略大量前人研究

在Meta,論文也成了問題?

henry 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

Meta超級(jí)智能實(shí)驗(yàn)室(MSL)又被送上爭議的風(fēng)口浪尖了。

不過,這次不是人事風(fēng)波,而是他們的第二篇論文《Language Self-Play For Data-Free Training》被質(zhì)疑忽視前人研究、缺乏創(chuàng)新

Meta超級(jí)智能實(shí)驗(yàn)室新論文陷爭議!被指忽略大量前人研究

究竟是啥論文?

讓模型在博弈中學(xué)習(xí)

總的來說,MSL這篇新論文的核心思想是通過一種Language Self-Play(LSP)的方法,讓大型語言模型在沒有額外訓(xùn)練數(shù)據(jù)的情況下實(shí)現(xiàn)自我提升

這一方法旨在應(yīng)對(duì)當(dāng)前大語言模型高度依賴大規(guī)模、高質(zhì)量訓(xùn)練數(shù)據(jù),且訓(xùn)練數(shù)據(jù)有限所帶來的困境。

為此,LSP將模型的學(xué)習(xí)過程設(shè)計(jì)成一個(gè)博弈框架,讓同一個(gè)語言模型扮演兩個(gè)角色進(jìn)行對(duì)抗,從而實(shí)現(xiàn)無數(shù)據(jù)訓(xùn)練。

Meta超級(jí)智能實(shí)驗(yàn)室新論文陷爭議!被指忽略大量前人研究

具體來說,這兩個(gè)角色分別是:

  • 挑戰(zhàn)者:負(fù)責(zé)生成越來越有挑戰(zhàn)性的問題或指令。
  • 解決者:負(fù)責(zé)回答或執(zhí)行這些指令。

在對(duì)抗過程中,挑戰(zhàn)者不斷生成越來越刁鉆的問題或指令,以降低解決者的預(yù)期回報(bào);而解決者則必須努力理解并回答這些指令,以最大化自身回報(bào)——這其實(shí)就是我們熟悉的極小極大博弈(minimax game)。

Meta超級(jí)智能實(shí)驗(yàn)室新論文陷爭議!被指忽略大量前人研究

通過這樣的對(duì)抗訓(xùn)練,模型能夠在不斷博弈中持續(xù)改進(jìn),逐步提升能力。

此外,與傳統(tǒng)對(duì)抗訓(xùn)練不同,LSP讓單個(gè)語言模型同時(shí)扮演“挑戰(zhàn)者”和“解決者”兩個(gè)角色,研究人員給模型設(shè)計(jì)了一個(gè)特殊的“挑戰(zhàn)者提示”(Challenger Prompt):當(dāng)接收到該提示時(shí),模型進(jìn)入挑戰(zhàn)者模式,生成難題;否則,它就扮演解決者角色,回答問題。

這種單一模型的設(shè)計(jì)避免了訓(xùn)練獨(dú)立對(duì)抗模型所帶來的額外開銷和不穩(wěn)定性。整個(gè)過程完全自主,模型在自我對(duì)抗中不斷迭代,從而在沒有外部數(shù)據(jù)輸入的情況下提升自身能力

為了將這個(gè)博弈轉(zhuǎn)化成模型強(qiáng)化學(xué)習(xí)的過程,研究中采用了GRPO技巧,讓模型在每輪訓(xùn)練中進(jìn)行如下操作:

  • 挑戰(zhàn)者生成問題:每輪生成N個(gè)問題。
  • 解決者回答問題:對(duì)于每個(gè)問題,解決者生成一定數(shù)量的答案,并分別計(jì)算獎(jiǎng)勵(lì)。
  • 計(jì)算組價(jià)值與優(yōu)勢:把解決者對(duì)同一個(gè)問題的所有答案的獎(jiǎng)勵(lì)進(jìn)行平均,得到這個(gè)問題整體的難度或表現(xiàn)水平。然后用每個(gè)答案的實(shí)際獎(jiǎng)勵(lì)減去組價(jià)值,判斷這個(gè)答案比平均水平高還是低。 – 更新挑戰(zhàn)者優(yōu)勢:通過計(jì)算優(yōu)勢函數(shù)獲得問題和答案的反饋,優(yōu)化自己出題的策略。
Meta超級(jí)智能實(shí)驗(yàn)室新論文陷爭議!被指忽略大量前人研究

通過這種獎(jiǎng)勵(lì)機(jī)制,挑戰(zhàn)者生成的問題會(huì)針對(duì)解決者的薄弱環(huán)節(jié),從而推動(dòng)模型不斷改進(jìn)。

研究將這一方法稱為Language Self-Play Zero(LSP-Zero),其中 Zero 表示零和。

此外,在實(shí)踐中,研究者發(fā)現(xiàn)LSP-Zero有時(shí)會(huì)退化,例如模型為了獲取獎(jiǎng)勵(lì)而生成無意義但能獲得高分的內(nèi)容(即獎(jiǎng)勵(lì) hacking)。

針對(duì)解決這個(gè)問題,他們?cè)贚SP算法中引入了“自我質(zhì)量獎(jiǎng)勵(lì)” (RQ),引導(dǎo)博弈朝高質(zhì)量交互發(fā)展,使訓(xùn)練可長期進(jìn)行。

(注:LSP的具體算法如下表)

Meta超級(jí)智能實(shí)驗(yàn)室新論文陷爭議!被指忽略大量前人研究

最后,為了驗(yàn)證LSP算法的有效性,研究者使用Llama-3.2-3B-Instruct模型在Alpaca Eval基準(zhǔn)上進(jìn)行了兩組實(shí)驗(yàn)。

實(shí)驗(yàn)一將算法與基礎(chǔ)模型本身以及一個(gè)通過傳統(tǒng)強(qiáng)化學(xué)習(xí)微調(diào)的大語言模型進(jìn)行比較。

實(shí)驗(yàn)結(jié)果顯示,沒有使用任何數(shù)據(jù)的LSP和LSP-Zero和使用了數(shù)據(jù)的GRPO相當(dāng),并且顯著優(yōu)于原始模型。而在 Vicuna這類對(duì)話型和開放式指令的數(shù)據(jù)集上,LSP 的表現(xiàn)遠(yuǎn)超GRPO。

Meta超級(jí)智能實(shí)驗(yàn)室新論文陷爭議!被指忽略大量前人研究

實(shí)驗(yàn)二以實(shí)驗(yàn)一中通過數(shù)據(jù)驅(qū)動(dòng) RL(GRPO)訓(xùn)練得到的模型為起點(diǎn),進(jìn)一步使用 LSP-Zero 和 LSP 進(jìn)行訓(xùn)練,計(jì)算這些模型相對(duì)于Llama-3.2-3B-Instruct的勝率,并與初始的 RL 模型進(jìn)行對(duì)比。

實(shí)驗(yàn)顯示,經(jīng)過LSP的進(jìn)一步訓(xùn)練后,模型的整體勝率從40.9%顯著提升到了43.1%。

同樣的,LSP在Vicuna數(shù)據(jù)集上的提升尤為明顯。這表明 LSP 可以作為一種有效的方法,在數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練之后繼續(xù)挖掘模型潛力。

Meta超級(jí)智能實(shí)驗(yàn)室新論文陷爭議!被指忽略大量前人研究

總的來說,實(shí)驗(yàn)結(jié)果表明,LSP-Zero和LSP算法能夠在無需訓(xùn)練數(shù)據(jù)的情況下提升預(yù)訓(xùn)練LLM的性能,尤其是在對(duì)話類任務(wù)上表現(xiàn)顯著,而這可能意味著AI正在從依賴人類數(shù)據(jù)過渡到自主學(xué)習(xí)系統(tǒng)。

網(wǎng)友:感覺忽略了大量前人研究?

雖然(……)但是,LSP一經(jīng)發(fā)布后,在網(wǎng)友們這倒是出了些小插曲。

一位推特網(wǎng)友直言:LSP自稱是突破性工作,但實(shí)際上忽視了大量前人研究,還順帶翻了一些舊賬。

抱歉了,Meta“超級(jí)智能”實(shí)驗(yàn)室,但 @_AndrewZhao 等人的工作做得更好,而你們卻沒有引用。其實(shí)很多人都做過類似研究(比如 @Benjamin_eecs),無論是聯(lián)合最大化還是極小極大,不管是驗(yàn)證器還是獎(jiǎng)勵(lì)模型。為什么要把這說成是突破呢?你們?cè)赩icuna上的評(píng)測確實(shí)做得不錯(cuò),簡直是2023年LLaMA社區(qū)的典型操作。

Meta超級(jí)智能實(shí)驗(yàn)室新論文陷爭議!被指忽略大量前人研究

而且,就連失敗的模型也大同小異。

Meta超級(jí)智能實(shí)驗(yàn)室新論文陷爭議!被指忽略大量前人研究

評(píng)論區(qū)有網(wǎng)友表示這可能是一篇老工作,然后拿到MSL發(fā)的:

Meta超級(jí)智能實(shí)驗(yàn)室新論文陷爭議!被指忽略大量前人研究

(注:網(wǎng)友提及的論文如下:
[1]Absolute Zero: Reinforced Self-play Reasoning with Zero Data
[2]SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning
[3]Scalable Reinforcement Post-Training Beyond Static Human Prompts)

截至目前,MSL及論文作者尚未對(duì)此作出回應(yīng)。

參考鏈接

[1]https://x.com/teortaxesTex/status/1965654111069876296

[2]https://x.com/_akhaliq/status/1965601392187638018

[3]https://x.com/tydsh/status/1965856666580361705

[4]https://arxiv.org/pdf/2404.10642

[5]https://arxiv.org/pdf/2411.00062

[6]https://arxiv.org/pdf/2505.03335

版權(quán)所有,未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用,違者必究。
国产欧美日韩综合一区在线观看 | 精品国产乱码久久久久久1区二区| 91中文字幕永久在线| 国产精品乱码久久久久久| 懂色一区二区三区av片| aaa国产视频| 久久久精品国产亚洲| 啪啪一区二区三区| 69堂精品视频| 少妇愉情理伦片bd| 亚洲一区二区在线免费观看视频| 国产精品一区二区久久久久| 日韩免费视频一区二区视频在线观看| 亚洲精品日韩综合观看成人91| 青青精品视频播放| 圆产精品久久久久久久久久久| 国产精品美女久久久久久久久 | 精品国产av无码| 午夜精品久久久久久久久久久 | 欧美男人的天堂| 国产 日韩 欧美 综合| 欧美激情视频免费观看| 亚州国产精品视频| 亚洲日韩欧美视频| 少妇高潮惨叫久久久久| 亚洲第一精品夜夜躁人人爽| 成人影视免费观看| 色综合 综合色| 久久久精品高清| 欧美日韩免费观看中文| 中文字幕免费高清在线| 欧美日韩久久久久| 久久6免费视频| 偷拍与自拍一区| 污网站免费在线| 好吊成人免视频| 一区二区三区网址| 欧美日韩亚洲精品一区二区三区| 日韩精品一线二线三线| 国产一区二区福利| 欧美性天天影院| 北岛玲一区二区三区四区| 亚洲人一区二区| 91色婷婷久久久久合中文| 中文字幕在线中文| 国产免费久久精品| av片中文字幕| 色呦呦日韩精品| 好吊操视频这里只有精品| 正在播放一区二区| 少妇高潮一区二区三区喷水| 国产一区二区三区直播精品电影| 在线观看一区二区三区视频| 欧美美女一区二区在线观看| 久久久精品成人| 亚洲视频视频在线| 免费在线不卡视频| 2018中文字幕一区二区三区| 蜜臀av免费在线观看| 99视频网站| 国产成人av自拍| 日韩欧美精品免费| 亚洲卡通动漫在线| 日韩大尺度视频| 亚洲国产成人在线视频| 国产精品黄色网| 国产成人激情小视频| 蜜桃视频在线观看一区二区| 午夜视频久久久| 中文字幕在线观看一区| 手机视频在线观看| 欧美一卡二卡三卡四卡| 久久国产精品波多野结衣| 久久久久久九九九| 日本不卡一区二区| 久久免费一级片| 午夜成人在线视频| 在线国产视频一区| 精品综合久久久久久97| 亚洲 欧美 激情 小说 另类| 亚洲精品久久区二区三区蜜桃臀| 精品一区二区三区免费视频| av动漫在线播放| 在线观看亚洲专区| 劲爆欧美第一页| 国产精品69av| youjizz久久| 看看黄色一级片| 精品香蕉在线观看视频一| 成人一级免费视频| 国产青春久久久国产毛片| 日本一区二区三区免费乱视频| 香蕉久久夜色| 黑人巨大精品欧美一区免费视频 | 黄色一级片中国| 久久91精品国产| 精品在线播放免费| 波多野结衣作品集| 亚洲精品国精品久久99热| 中文在线资源天堂| 视频一区二区三区在线观看| 婷婷六月综合亚洲| 这里精品视频免费| 亚洲在线免费视频| 91毛片在线观看| 超碰在线97免费| 亚洲第一页在线| 国产男女猛烈无遮挡| 相泽南亚洲一区二区在线播放| 日韩电影在线观看一区| 在线不卡日本| 欧美中文字幕一二三区视频| 日本少妇性生活| 欧美xxxxx少妇| 亚洲美女av在线播放| 亚洲第一页综合| 亚洲一区 在线播放| 欧美精品vⅰdeose4hd| 一级黄色免费网站| 麻豆视频在线观看| 亚洲国产精彩中文乱码av在线播放| 午夜免费一级片| 亚洲精品美女在线观看播放| 亚洲不卡免费视频| 日韩黄色短视频| 亚洲精品电影网| 农村少妇久久久久久久| 日本成人在线不卡| 亚洲国产欧美自拍| 亚洲欧美日韩动漫| 欧美少妇性生活视频| 亚洲丝袜在线视频| 激情成人综合网| 污污视频在线免费| 57pao精品| 亚洲欧洲成人自拍| 欧美成人国产精品高潮| 久久久久久久久久久久久久一区 | 久久影院在线观看| 国产99久久久精品| 极品人妻一区二区| 日本高清视频一区| 亚洲女人的天堂| 久久久99精品| 一区二区视频国产| 亚洲欧美国产一区二区三区| 国产呦精品一区二区三区网站| 国产精品久久久影院| 亚洲福利视频免费观看| 精东粉嫩av免费一区二区三区| 黄瓜视频免费观看在线观看www| 亚洲在线免费播放| 国产无码精品久久久| 一区二区精品国产| 亚洲色图欧美制服丝袜另类第一页| 国产精品视频a| 蜜桃传媒一区二区三区| 国产午夜精品一区二区三区| 国产成人高清在线| 少妇高潮在线观看| 日韩欧美亚洲在线| 亚洲欧美三级在线| 91丝袜美腿高跟国产极品老师| 看欧美ab黄色大片视频免费| 欧美激情一区二区三区高清视频 | 国产成人精品久久| 一区二区三区在线视频播放| 在线免费观看视频网站| 亚洲一二三区av| 国产精品高潮视频| 欧美视频自拍偷拍| 裸体一区二区三区| 欧美极品jizzhd欧美18| 性欧美精品一区二区三区在线播放 | 麻豆精品久久久| 日韩中文字幕电影| 国产精品视频免费一区| 欧美精品一区二区三区蜜臀| 成人精品视频一区二区三区 | 小毛片在线观看| 丁香五月网久久综合| 亚洲爱爱爱爱爱| 99久久精品国产毛片| av大片免费在线观看| 国产主播在线看| 国产精品丝袜高跟| 日韩一区二区三区四区| 成人精品在线视频观看| 国产a∨精品一区二区三区仙踪林| 51精品国产人成在线观看| 日韩精品一区国产麻豆| av在线一区二区三区| 在线视频一区二区三区四区| 尤蜜粉嫩av国产一区二区三区| 亚洲美女免费精品视频在线观看| 久久精品一区二区国产| 白白色免费视频| 中文字幕中文字幕在线中心一区| 欧美一区二区视频在线观看2022| 91国产免费视频| www.色.com| 美女视频久久| 麻豆国产精品va在线观看不卡 | 亚洲欧美偷拍另类| 高清视频一区| 亚洲一二三在线| 亚洲综合一二三区| 久久99久国产精品黄毛片色诱| 18禁一区二区三区| 亚洲精品永久www嫩草| 色综合久久久888| 欧美四级电影网| 久久久久久亚洲综合影院红桃| 登山的目的在线| 欧美精品第三页| 欧美xxxx黑人又粗又长精品| 高清一区二区三区四区五区| 欧美色涩在线第一页| 久久久影院官网| 午夜精品无码一区二区三区| 日韩国产第一页| 成年人在线观看视频免费| 欧美精品人人做人人爱视频| 久久全球大尺度高清视频| 欧美一级生活片| 中文字幕在线观看不卡| 麻豆91在线观看| 中文字幕在线观看1| www..com.cn蕾丝视频在线观看免费版| 福利精品视频| 欧美高跟鞋交xxxxhd| 91精品欧美一区二区三区综合在| 精品一区精品二区高清| 26uuu国产日韩综合| 黄色在线观看国产| 欧美性猛交xxxx乱大交| 7777奇米亚洲综合久久| 亚洲午夜激情视频| 久久理论片午夜琪琪电影网| 69xxx免费视频| 久久久久久久福利| 136国产福利精品导航| 在线观看国产成人av片| 亚洲视频sss| 国产精品2020| 亚洲AV无码乱码国产精品牛牛| 国产在线观看第一页| 一区二区三区在线免费观看 | 日韩久久久久久久| 中文字幕欧美色图| 欧美日韩中文在线| 国产在线观看一区二区三区| 无罩大乳的熟妇正在播放| 91视频久久久| 欧美午夜精品一区二区三区| 亚洲视频电影| 亚洲一区二区三区综合| 亚洲精品综合网| 欧美亚洲动漫另类| www.这里只有精品| 久久久一区二区| 欧美人在线视频| 亚洲乱妇老熟女爽到高潮的片| 亚洲婷婷综合网| 国产情人综合久久777777| 欧美亚洲一区二区三区四区| 特级西西444www大精品视频| 国产精品久久久久久免费免熟 | 婷婷久久伊人| 免费看黄色91| 日本一区二区三区视频在线观看| 中文av免费观看| 国产精品系列视频| 懂色av一区二区夜夜嗨| 日韩一区二区麻豆国产| 久久精品中文字幕一区二区三区| 国产成人一级电影| 色哟哟亚洲精品一区二区| 污污视频在线免费| 久久久国际精品| 国产高清自拍一区| 国产精品一级二级| 欧美国产在线视频| a级黄色免费视频| 欧美日韩视频在线| www.av蜜桃| av亚洲精华国产精华精| 18成人免费观看网站下载| 欧美一区二区三区四| 国产午夜精品全部视频播放 | 男男一级淫片免费播放| 国产口爆吞精一区二区| 在线免费亚洲电影| 黄色一级二级三级| 一片黄亚洲嫩模| 精品久久久久久无码中文野结衣| 中文字幕一区二区精品| 欧美视频在线观看 亚洲欧| 成人啪啪免费看| 久久无码专区国产精品s| 久草这里只有精品视频| 欧美亚洲视频在线看网址| 国产精品成人久久久久| 91浏览器在线观看| 日韩久久精品电影| 中国老熟女重囗味hdxx| 9人人澡人人爽人人精品| 亚洲欧美精品伊人久久| 欧美精品在欧美一区二区| 免费在线观看黄色小视频| 国内精品不卡在线| 一区二区三区视频免费在线观看| 日韩av免费看| 成人有码视频在线播放| 免费不卡av在线| 91亚洲永久精品| 国产一区二区三区四区五区加勒比| 岛国av免费观看| 一区二区视频免费在线观看| 欧美精品亚洲精品| 久久99精品久久久| 国产精品青草久久久久福利99| 久久久999视频| 久久综合色综合88| 91精品国产综合久久男男| 加勒比婷婷色综合久久| 亚洲国产日韩一区二区| 亚洲国产欧洲综合997久久| 中文成人av在线| 亚洲精品自拍网| 欧美日韩国产bt| 久久精品网站视频| 欧美午夜电影网| 男人天堂资源网| 久久久久久久久久久免费| 麻豆视频在线免费看| 欧美日韩一区二区三区 | 欧美性大战久久久久xxx | 日本女人性视频| 色老头一区二区三区| 日本成人超碰在线观看| 777久久精品一区二区三区无码| 91福利在线观看视频| 在线播放亚洲激情| 黄色网址在线免费看| 欧美日韩第一区日日骚| 一级黄色大片免费看| 中文字幕视频一区二区在线有码| 四虎永久免费观看| 一本一道久久a久久精品| 日本一极黄色片| 欧美mv日韩mv国产网站| 国产亲伦免费视频播放| 资源网第一页久久久| 777午夜精品免费视频| 久久久久人妻一区精品色| 精品magnet| 日本熟女一区二区| 国产精品日韩欧美一区二区| 中文字幕在线观看不卡| 日产国产精品精品a∨| 亚洲日本青草视频在线怡红院| 成人精品一区二区三区电影免费 | 激情五月激情综合网| 日本黄色的视频| 欧美激情第6页| www.黄色一片| 精品视频一区在线| 久久婷婷综合激情| 日韩精品国产一区| 在线视频国产日韩| 6080午夜伦理| 国产精品二区三区| 91麻豆免费在线观看| 看一级黄色录像| 亚洲国产中文字幕| 国产永久免费网站| 蜜月aⅴ免费一区二区三区| 亚洲综合图片区| 一级片一区二区三区| 91精品视频在线| 一区二区激情视频| 精品人妻久久久久一区二区三区| 国产在线拍揄自揄视频不卡99| 亚洲欧美另类视频| 欧美精品videossex性护士| 久久久久国色av免费看影院| 国产极品国产极品| av动漫在线播放| 欧美一区二区美女| 欧美风情第一页| 国产深夜精品福利| 国产日韩欧美不卡在线| 国产精品第七页| 神马久久桃色视频| 成人黄色av网站在线| 91视频福利网| 日韩国产激情在线| 精品无码一区二区三区的天堂| 亚洲色图校园春色| 久热精品在线播放| 日韩高清av在线| 国产剧情av麻豆香蕉精品| 91女神在线观看| 97视频热人人精品| 日韩av最新在线观看| 成人一区二区三区| 亚洲综合在线一区二区| 欧美专区日韩视频| 亚洲综合999|