色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

在Meta,論文也成了問題?

henry 發自 凹非寺

量子位 | 公眾號 QbitAI

Meta超級智能實驗室(MSL)又被送上爭議的風口浪尖了。

不過,這次不是人事風波,而是他們的第二篇論文《Language Self-Play For Data-Free Training》被質疑忽視前人研究、缺乏創新

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

究竟是啥論文?

讓模型在博弈中學習

總的來說,MSL這篇新論文的核心思想是通過一種Language Self-Play(LSP)的方法,讓大型語言模型在沒有額外訓練數據的情況下實現自我提升

這一方法旨在應對當前大語言模型高度依賴大規模、高質量訓練數據,且訓練數據有限所帶來的困境。

為此,LSP將模型的學習過程設計成一個博弈框架,讓同一個語言模型扮演兩個角色進行對抗,從而實現無數據訓練。

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

具體來說,這兩個角色分別是:

  • 挑戰者:負責生成越來越有挑戰性的問題或指令。
  • 解決者:負責回答或執行這些指令。

在對抗過程中,挑戰者不斷生成越來越刁鉆的問題或指令,以降低解決者的預期回報;而解決者則必須努力理解并回答這些指令,以最大化自身回報——這其實就是我們熟悉的極小極大博弈(minimax game)。

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

通過這樣的對抗訓練,模型能夠在不斷博弈中持續改進,逐步提升能力。

此外,與傳統對抗訓練不同,LSP讓單個語言模型同時扮演“挑戰者”和“解決者”兩個角色,研究人員給模型設計了一個特殊的“挑戰者提示”(Challenger Prompt):當接收到該提示時,模型進入挑戰者模式,生成難題;否則,它就扮演解決者角色,回答問題。

這種單一模型的設計避免了訓練獨立對抗模型所帶來的額外開銷和不穩定性。整個過程完全自主,模型在自我對抗中不斷迭代,從而在沒有外部數據輸入的情況下提升自身能力

為了將這個博弈轉化成模型強化學習的過程,研究中采用了GRPO技巧,讓模型在每輪訓練中進行如下操作:

  • 挑戰者生成問題:每輪生成N個問題。
  • 解決者回答問題:對于每個問題,解決者生成一定數量的答案,并分別計算獎勵。
  • 計算組價值與優勢:把解決者對同一個問題的所有答案的獎勵進行平均,得到這個問題整體的難度或表現水平。然后用每個答案的實際獎勵減去組價值,判斷這個答案比平均水平高還是低。 – 更新挑戰者優勢:通過計算優勢函數獲得問題和答案的反饋,優化自己出題的策略。
Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

通過這種獎勵機制,挑戰者生成的問題會針對解決者的薄弱環節,從而推動模型不斷改進。

研究將這一方法稱為Language Self-Play Zero(LSP-Zero),其中 Zero 表示零和。

此外,在實踐中,研究者發現LSP-Zero有時會退化,例如模型為了獲取獎勵而生成無意義但能獲得高分的內容(即獎勵 hacking)。

針對解決這個問題,他們在LSP算法中引入了“自我質量獎勵” (RQ),引導博弈朝高質量交互發展,使訓練可長期進行。

(注:LSP的具體算法如下表)

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

最后,為了驗證LSP算法的有效性,研究者使用Llama-3.2-3B-Instruct模型在Alpaca Eval基準上進行了兩組實驗。

實驗一將算法與基礎模型本身以及一個通過傳統強化學習微調的大語言模型進行比較。

實驗結果顯示,沒有使用任何數據的LSP和LSP-Zero和使用了數據的GRPO相當,并且顯著優于原始模型。而在 Vicuna這類對話型和開放式指令的數據集上,LSP 的表現遠超GRPO。

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

實驗二以實驗一中通過數據驅動 RL(GRPO)訓練得到的模型為起點,進一步使用 LSP-Zero 和 LSP 進行訓練,計算這些模型相對于Llama-3.2-3B-Instruct的勝率,并與初始的 RL 模型進行對比。

實驗顯示,經過LSP的進一步訓練后,模型的整體勝率從40.9%顯著提升到了43.1%。

同樣的,LSP在Vicuna數據集上的提升尤為明顯。這表明 LSP 可以作為一種有效的方法,在數據驅動的訓練之后繼續挖掘模型潛力。

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

總的來說,實驗結果表明,LSP-Zero和LSP算法能夠在無需訓練數據的情況下提升預訓練LLM的性能,尤其是在對話類任務上表現顯著,而這可能意味著AI正在從依賴人類數據過渡到自主學習系統。

網友:感覺忽略了大量前人研究?

雖然(……)但是,LSP一經發布后,在網友們這倒是出了些小插曲。

一位推特網友直言:LSP自稱是突破性工作,但實際上忽視了大量前人研究,還順帶翻了一些舊賬。

抱歉了,Meta“超級智能”實驗室,但 @_AndrewZhao 等人的工作做得更好,而你們卻沒有引用。其實很多人都做過類似研究(比如 @Benjamin_eecs),無論是聯合最大化還是極小極大,不管是驗證器還是獎勵模型。為什么要把這說成是突破呢?你們在Vicuna上的評測確實做得不錯,簡直是2023年LLaMA社區的典型操作。

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

而且,就連失敗的模型也大同小異。

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

評論區有網友表示這可能是一篇老工作,然后拿到MSL發的:

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

(注:網友提及的論文如下:
[1]Absolute Zero: Reinforced Self-play Reasoning with Zero Data
[2]SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning
[3]Scalable Reinforcement Post-Training Beyond Static Human Prompts)

截至目前,MSL及論文作者尚未對此作出回應。

參考鏈接

[1]https://x.com/teortaxesTex/status/1965654111069876296

[2]https://x.com/_akhaliq/status/1965601392187638018

[3]https://x.com/tydsh/status/1965856666580361705

[4]https://arxiv.org/pdf/2404.10642

[5]https://arxiv.org/pdf/2411.00062

[6]https://arxiv.org/pdf/2505.03335

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
国产真实乱人偷精品人妻| 欧美一区二区网站| 性欧美videos| 国产精品高清网站| 亚洲国产你懂的| 国产精品熟女视频| 一区二区三区福利视频| 欧美系列一区| 日韩欧美三级在线| 国产成人综合视频| 国产高潮视频在线观看| 91精品中文在线| 欧美日韩一区二区三区高清 | 韩国v欧美v日本v亚洲| 久久精品二区亚洲w码| a级大片在线观看| 成人高h视频在线| 欧洲精品一区二区| 寂寞少妇一区二区三区| 日本五十熟hd丰满| 欧美亚洲色图视频| 欧美日本中文字幕| 亚洲一区二区三区四区在线观看| 日本一级片免费看| 四虎4hu永久免费入口| 日韩精品在线观| 久久只精品国产| 日本熟妇成熟毛茸茸| 中文字幕乱码免费| 久久久久国色av免费观看性色| 亚洲妇熟xx妇色黄| 老牛影视一区二区三区| 日韩影院一区二区| 亚洲熟妇无码一区二区三区导航| 国产精品爱啪在线线免费观看| 亚洲图片欧美视频| 久久中文字幕一区二区三区| 日韩中文字幕二区| 97视频在线观看成人| 亚洲一区二区五区| 久久裸体视频| 性欧美疯狂猛交69hd| 青青视频免费在线| 91精品国产777在线观看| 亚洲麻豆国产自偷在线| 亚洲欧美综合在线观看| 欧美xxxx精品| 蜜臀av无码一区二区三区| 国产ts一区二区| 欧美日韩精品高清| 久久久亚洲综合| 美日韩一二三区| 免费啪视频在线观看| 亚洲国产欧洲综合997久久| 欧美激情在线狂野欧美精品| 婷婷亚洲久悠悠色悠在线播放| 美国三级日本三级久久99| 国产真人做爰视频免费| 成人性免费视频| 国产成人精品电影| 国产婷婷97碰碰久久人人蜜臀| 91色在线porny| 亚洲欧美黄色片| 国产真实夫妇交换视频| 日韩精品国产一区| 欧美做暖暖视频| 成人在线精品视频| 久久99久久久久久久噜噜| 日韩午夜激情av| 亚洲国产精品嫩草影院| 99精品视频在线观看免费| 久草视频在线免费| 国产精品丝袜一区二区| 亚洲欧洲国产视频| 无码人妻丰满熟妇区五十路百度| 精品一区在线播放| 亚洲美女激情视频| 欧美一二三区在线观看| 精品久久久久久久久国产字幕| 精品中文字幕一区二区| 超碰在线观看99| 波多野结衣电车痴汉| 少妇无套高潮一二三区| 娇妻高潮浓精白浆xxⅹ| 久久亚洲精品无码va白人极品| 日韩国产在线一区| 国产激情美女久久久久久吹潮| 日本精品久久久| 中文字幕免费国产精品| 亚洲精品电影在线| 欧美成人女星排名| 欧美日本高清视频在线观看| 欧美性猛交xxxx免费看漫画| 亚洲国产wwwccc36天堂| 国产精品久久久久久久久动漫 | 国产精彩视频在线| 国产成人无码精品久久二区三| 亚洲熟女乱综合一区二区| 国产91在线亚洲| 乱熟女高潮一区二区在线| 国产一区精品视频| 蜜桃免费一区二区三区| 日本中文不卡| 一本久久a久久精品vr综合 | 综合亚洲深深色噜噜狠狠网站| 久久久一区二区| 国产精品丝袜黑色高跟| 亚洲国产精品v| 久久久久久电影| 中文字幕不卡在线播放| |精品福利一区二区三区| 国产精品午夜电影| 91丝袜一区二区三区| 日本少妇裸体做爰| 懂色av粉嫩av浪潮av| 69堂成人精品视频免费| 一区二区中文字幕| 亚洲精品一区二区三区四区高清| 欧美裸体bbwbbwbbw| 8x福利精品第一导航| 亚洲精品在线电影| 色多多国产成人永久免费网站| 久久精品久久久久电影| 欧美国产乱视频| 国产成人福利网站| 国产91色在线|亚洲| 自拍偷拍一区二区三区| 国产男女激情视频| 国产十八熟妇av成人一区| 影音先锋男人在线| 中文字幕一级片| 美女视频网站久久| 国产日韩欧美电影| 亚洲欧美aⅴ...| 91久久精品一区二区| 亚洲欧美日韩国产中文专区| 4438全国成人免费| 在线观看欧美激情| 91亚洲精品久久久| 亚洲最大av网| 美女扒开大腿让男人桶| wwwxxx色| 亚洲一卡二卡在线观看| 国产精品综合一区二区三区| 国产精品三级电影| 欧美mv日韩mv国产网站app| 性欧美办公室18xxxxhd| 亚洲欧美国产精品桃花| 亚洲 自拍 另类 欧美 丝袜| www五月天com| 国产精品主播直播| 精品欧美一区二区三区| 欧美激情视频在线观看| 自拍视频一区二区三区| 欧美老女人性生活视频| 国产毛片在线视频| 综合激情成人伊人| 久久久精品视频在线观看| 亚洲一区国产精品| 中文av字幕在线观看| 亚洲图片中文字幕| 国产清纯白嫩初高生在线观看91 | 欧美日韩一区二区在线免费观看| 你懂得在线观看| 天天爽夜夜爽夜夜爽| 一区二区三区四区蜜桃| 欧美裸身视频免费观看| 天堂v在线视频| 青青草激情视频| 国产91在线看| 亚洲精品有码在线| 亚洲一区二区三区加勒比| 久久福利免费视频| 91视频.com| 在线日韩欧美视频| 污污的视频免费观看| 青娱乐av在线| 中文在线一区二区| 久久久久女教师免费一区| 黄色片一级视频| 亚洲精品久久久久久久久久久久久久| 亚洲成年人影院| 亚洲自拍高清视频网站| 手机免费看av片| 94色蜜桃网一区二区三区| 亚洲欧洲在线观看| 亚洲乱码中文字幕久久孕妇黑人| 人妻激情另类乱人伦人妻| 不卡一区二区在线观看| 极品尤物av久久免费看| 亚洲最新av在线网站| 日本香蕉视频在线观看| 亚洲精品福利网站| 亚洲欧美国产精品va在线观看| 青青视频免费在线观看| 男人天堂视频在线| 欧美香蕉大胸在线视频观看| 国产精品一区二区欧美黑人喷潮水| 久久久精品毛片| 精品日韩中文字幕| 欧美中文娱乐网| 久久久综合久久| 懂色av一区二区三区| 久久久亚洲综合网站| 精品在线播放视频| 精品国产乱码久久久久久虫虫漫画| 国产精品久久久久久久久久久新郎 | 精品手机在线视频| 26uuu亚洲综合色欧美| 国产精品美女黄网| 中文字幕一区二区人妻| 亚洲视频自拍偷拍| 免费黄色国产视频| 色综合天天狠狠| 91亚洲一线产区二线产区| 午夜视频一区二区三区| 91精品国产色综合久久不卡电影 | 欧美白人最猛性xxxxx69交| 日本少妇性生活| 日韩av不卡在线| 国产日韩欧美精品一区| 资源网第一页久久久| 99国产精品久久久| 久久99精品久久久久久水蜜桃| 国产91富婆露脸刺激对白| 久久天堂国产精品| 91麻豆免费在线观看| 久久久久久久久一区| 色窝窝无码一区二区三区| 欧美精品一区在线播放| 蜜桃视频一区二区三区| 日韩一级片免费视频| yourporn久久国产精品| 国产高清不卡av| 国产sm精品调教视频网站| 国产精品igao激情视频| 国产一区二区电影| 国产女人精品视频| 久久影音资源网| 日本亚洲一区二区三区| 色妞久久福利网| 麻豆91精品视频| 182午夜在线观看| 亚洲精品av在线播放| 日韩欧美综合视频| 久久久精品视频成人| 久草网在线观看| 国产精品亚发布| 日韩av在线发布| 久久精品中文字幕一区二区三区 | 日本精品一级二级| 国产一级片免费观看| 91大神在线播放精品| 久久夜色精品亚洲| 66m—66摸成人免费视频| 青青草国产精品亚洲专区无| 福利在线一区二区| 国产美女娇喘av呻吟久久| 欧美日韩性生活片| 亚洲精品成人久久| 97精品人妻一区二区三区| 在线黄色免费看| 91影视免费在线观看| 欧美亚洲一区二区在线| 另类成人小视频在线| 少妇被狂c下部羞羞漫画| 人人做人人澡人人爽欧美| 久久综合网色—综合色88| www.桃色.com| 久久天天躁狠狠躁老女人| 国产女人爽到高潮a毛片| 日本免费高清一区| 亚洲高清久久久| 久久视频免费看| 韩日欧美一区二区| 国产精品久久久久久久久久久久久久久久 | 丰满少妇高潮在线观看| 99精品国产高清一区二区| 国产精品毛片一区二区在线看舒淇 | 极品国产91在线网站| 欧美成人h版在线观看| 国产波霸爆乳一区二区| 色妞一区二区三区| 欧美黄色一区二区三区| 亚洲国模精品私拍| 久久免费公开视频| 欧美激情综合亚洲一二区| 日本一级片免费看| 久久精品人人爽| 99在线观看免费| 国产成人在线一区| 激情综合网最新| 久久久福利视频| 中文字幕精品—区二区四季| 亚洲人成人77777线观看| 国产精品久久久爽爽爽麻豆色哟哟| 91九色在线观看视频| 亚洲精品亚洲人成人网| 四虎永久免费观看| 亚洲美女视频网| 精品免费久久久| 91嫩草免费看| 久久久美女艺术照精彩视频福利播放| www.-级毛片线天内射视视| 亚洲成a人在线观看| 久草福利资源在线| 久久久国产精品亚洲一区| 蜜臀av免费在线观看| 国产精品久久成人免费观看| 亚洲电影在线播放| 91精彩刺激对白露脸偷拍| 精品第一国产综合精品aⅴ| 在线观看免费高清视频| 久久大香伊蕉在人线观看热2| 91丨九色porny丨蝌蚪| www.日本在线播放| 欧美精品一区二区三区视频| 国产乱淫片视频| 欧美日韩免费高清| 日韩欧美999| 久久国产视频精品| 国产在线久久久| 亚洲乱码中文字幕| 亚洲精品国产精品乱码在线观看| 美日韩精品视频免费看| 国产成人av电影在线播放| 国产欧美视频一区| 久久影视电视剧免费网站清宫辞电视 | 在线不卡av电影| 国产成人精品av在线| ●精品国产综合乱码久久久久 | 欧美一级免费视频| 成人性生交大片免费看中文| 成年人的黄色片| 成人xxxx视频| 欧美私模裸体表演在线观看| 日本黄网站免费| 日韩精品免费视频| 91影院在线播放| 中文字幕人成一区| 欧美二区乱c少妇| 亚洲日本中文字幕在线| xxxx在线免费观看| 97在线看福利| 亚洲午夜电影在线观看| 久久国产免费观看| 亚洲第一综合网站| 欧美成人video| 国产精品一区在线观看你懂的| 97香蕉碰碰人妻国产欧美 | 99久久国产免费看| 欧美成人手机视频| 26uuu成人| 视频一区视频二区国产精品| 99久久99久久精品免费看蜜桃 | 日韩在线观看网站| 久久久久久久av麻豆果冻| 欧美黄色免费在线观看| 在线观看视频黄色| 蜜臀久久99精品久久久无需会员| 国产日韩精品一区二区浪潮av| 国产一级一级片| 日本高清久久一区二区三区| 一本色道久久88精品综合| 99久久久精品免费观看国产蜜| 天天干中文字幕| 成人午夜视频在线观看免费| 午夜精品在线观看| 91福利精品视频| 天堂av在线免费| 麻豆av免费看| 欧美亚洲国产免费| 在线播放亚洲激情| 亚洲色图在线视频| 国产ts人妖调教重口男| 人妻无码中文久久久久专区| 99电影网电视剧在线观看| 亚洲色图美腿丝袜| 国产性天天综合网| 性做久久久久久久久久| 一起操在线视频| 欧美一级片免费观看| 欧美成人午夜激情| 日韩欧美主播在线| 成人aa视频在线观看| 嫩草影院一区二区三区| 国产精品偷伦视频免费观看了 | 一区二区三区精品视频在线| 在线观看不卡的av| 嘿嘿视频在线观看| 日韩手机在线观看视频| 国产精品久久久久久久一区探花 | 56国语精品自产拍在线观看| bt欧美亚洲午夜电影天堂| 99久久精品国产一区二区成人| 免费看黄色av| 久激情内射婷内射蜜桃| 国产精品嫩草影院久久久| 亚洲乱码av中文一区二区| 亚洲成人自拍偷拍| 国产精品一区二区x88av| 国产精品久久久久久久久久精爆| 最近中文字幕无免费| 妺妺窝人体色www在线小说| 2019国产精品视频| 久久精品国产免费观看| 欧美一区二区三区系列电影| 久久精品一区四区| 精品一区二区三区蜜桃| 免费黄色片视频|