色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

手術刀式去噪突破LLM能力上限,從頭預訓練模型下游任務平均提高7.2% | 中科院&阿里

在高效精煉數據的同時保留原始文本的多樣性和自然性

RefineX團隊 投稿

量子位 | 公眾號 QbitAI

在噪聲污染嚴重影響預訓練數據的質量時,如何能夠高效且精細地精煉數據?

中科院計算所與阿里Qwen等團隊聯合提出RefineX,一個通過程序化編輯任務實現大規模、精準預訓練數據精煉的新框架。

其核心優勢在于:將專家指導的高質量端到端優化結果,蒸餾為極簡的基于編輯操作的刪除程序

手術刀式去噪突破LLM能力上限,從頭預訓練模型下游任務平均提高7.2% | 中科院&阿里

通過這一高精度蒸餾流程,可以訓練出高效可靠的優化模型(refine model),系統地優化語料中的每個實例。

在高效精煉數據的同時,可靠地保留原始文本的多樣性和自然性。

用RefineX凈化后的20B token數據訓練750M模型時,其在常識推理、科學問答等10項任務的平均得分達到44.7,較原始數據提升7.2%

手術刀式去噪突破LLM能力上限,從頭預訓練模型下游任務平均提高7.2% | 中科院&阿里

大模型的預訓練數據

預訓練數據的質量直接決定了模型的知識深度與推理能力上限。

當互聯網成為海量訓練數據的來源,噪聲污染也隨之而來——植入的廣告、破碎的HTML標簽、無意義的亂碼等,不僅降低數據效用,更可能引發模型幻覺。

然而,大規模的去除這些噪聲來提升預訓練數據的質量是十分困難的,因為同時要兼顧兩個要素:

  • 高效:由于數據規模龐大,精煉必須能夠高效低成本的進行
  • 可靠:精煉應該最大化的保留有價值信息,并不引入額外的模型或人工偏好而破壞原始數據的本質。

傳統數據精煉方案主要集中于規則過濾端到端重寫。但是,規則過濾(如C4/Gopher)只能文檔級粗篩選擇,誤傷高價值內容,且無法做到字符級的精準修正;端到端重寫盡管重寫質量高,但推理成本極高,無法應用于大規模數據。

更危險的是,端到端重寫過程常擅自修改術語與句式從而引入模型偏好的不可控性,如:

原始: “Climate change[廣告] impacts the?environment”
重寫: “Climate change impacts?ecosystems” # 篡改關鍵術語

而RefineX框架受ProX等新興工作的啟發,選擇了一條新的去噪路徑:

手術刀式去噪突破LLM能力上限,從頭預訓練模型下游任務平均提高7.2% | 中科院&阿里

上圖展示了基于程序的精煉流程,以及ProX和RefineX中精煉模型的訓練數據構建比較。

ProX的限制在于直接訓練來自專家輸出的噪聲精煉程序,復雜的prompt組合極大增加了這項任務的生成難度,從而降低蒸餾數據質量。

而RefineX在蒸餾數據的處理上進行了創新,將蒸餾數據的構建結構分為兩個明確的階段:首先執行端到端精煉,然后通過將精煉后的文本與原始文本進行比較來生成更可靠的監督程序。

這個兩階段過程產生了顯著更可靠的監督,有效消除了生成過程中引入的過度編輯風險,最終生成一個更有效且更魯棒的精煉模型。

高效可靠的規模化精煉

手術刀式去噪突破LLM能力上限,從頭預訓練模型下游任務平均提高7.2% | 中科院&阿里

上圖展示了RefineX的核心工作流程。

RefineX的目標是降低專家模型直接生成用于蒸餾的精煉程序難度,同時盡可能保留端到端輸出中的有效精煉操作。

為實現這兩個目標,RefineX首先在精心設計的指令下提示專家模型生成高質量的精煉文本。然后,將精煉文本與原始輸入進行比較,基于最小編輯距離提取可靠的刪除操作序列。

這些操作被轉換為預定義的程序函數集,作為可信的監督信息來訓練緊湊的精煉模型。

訓練完成后,模型通過推理生成可靠的精煉程序,隨后執行這些程序以高效地在語料庫中執行細粒度精煉。

手術刀式去噪突破LLM能力上限,從頭預訓練模型下游任務平均提高7.2% | 中科院&阿里

為徹底規避模型偏好帶來的新增內容或者過度修改的風險,僅保留精煉過程中的刪除操作,RefineX限制程序函數為刪行、刪字符、保留全部。上面是具體的函數定義。

“只刪不改”可以很好得保護原始文本,使拼寫偏差等非關鍵缺陷得以保留——它們將在預訓練中被數十萬億token自然中和,而不會污染數據的多樣性本質。

另外,RefineX使用最小編輯距離算法來捕獲原文本和端到端精煉后文本的差異,并過濾非法的插入和替換操作以及低質量數據,將可靠的刪除操作與預定義好的函數對齊,和原文本組成文本-程序對用于優化模型的訓練。

RefineX使用動態分塊機制來保持長上下文的內容捕獲,提升模型的長上下文處理能力。

論文使用Qwen2.5-72B-Instruct模型作為專家模型進行端到端精煉,消耗萬卡小時來處理得到大約200萬個高質量蒸餾樣本,用于訓練0.6B的Qwen-3-Base模型作為優化模型。

較小的參數量可以實現較高的推理速度保證精煉的高效性,嚴謹的蒸餾數據處理方法保證了優化模型的可靠性。

從頭預訓練實驗

為了評估優化數據對模型性能的影響,RefinX團隊使用每種方法優化后的語料庫,從頭開始預訓練不同規模的LLMs,并在下游任務中評估它們。

手術刀式去噪突破LLM能力上限,從頭預訓練模型下游任務平均提高7.2% | 中科院&阿里
手術刀式去噪突破LLM能力上限,從頭預訓練模型下游任務平均提高7.2% | 中科院&阿里

結果顯示,盡管在不同任務中表現最佳的變體可能來自不同的數據源,RefineX在每個單獨的任務上都取得了最佳結果。

當用RefineX凈化后的20Btoken數據訓練750M模型時,其在常識推理、科學問答等10項任務的平均得分達到44.7,比原始數據提高了+7.2%,比Comb提高了+5.9%,甚至比最強的先前細粒度改進方法Prox-C還要高+2.6%。

在數據效率的改善上,模型使用10B凈化token的表現超越其使用20B傳統過濾數據的性能,表明RefineX可以有效地通過刪除垃圾文本降低訓練單文本的token開銷,從而在訓練token總數限制下讓模型預訓練考慮更加多樣的文本。

手術刀式去噪突破LLM能力上限,從頭預訓練模型下游任務平均提高7.2% | 中科院&阿里

無論是對原始數據進行改進還是對先前過濾的數據集進行改進,使用RefineX訓練的模型始終在平均得分上獲得最高分,并贏得最多任務。

有效提升文本質量

論文使用文本質量打分器DataMan來對收集的混亂的文本數據進行預分類,并觀察精煉前后的質量變化。

手術刀式去噪突破LLM能力上限,從頭預訓練模型下游任務平均提高7.2% | 中科院&阿里
手術刀式去噪突破LLM能力上限,從頭預訓練模型下游任務平均提高7.2% | 中科院&阿里

可以看到,在文本質量層面,RefineX對低質內容的改善率高達42.2%,且嚴格保持“零新增詞匯”,杜絕了任何幻覺風險。而端到端方案雖提升率更高,卻以每千token新增15個外部詞匯為代價,埋下了語義篡改的隱患。

RefineX提供了一個可靠又高效的大規模預訓練數據細化的新范式。真正的數據凈化不是重塑文本,而是以最小干預剝離噪聲,讓知識的原初脈絡自由呼吸。

arxiv:https://arxiv.org/abs/2507.03253
huggingface:https://huggingface.co/papers/2507.03253
github:https://github.com/byronBBL/RefineX

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
亚洲欧洲第一视频| 精品国产一区av| 中文字幕亚洲图片| 91热福利电影| 久久视频这里有精品| 亚洲精品久久久久久| 久久久久久久福利| 另类小说一区二区三区| 国产精品美日韩| 91精品婷婷国产综合久久性色| 欧美国产视频一区二区| 日本一区二区在线视频| 韩国黄色一级片| 亚洲av无码乱码国产精品fc2| 狠狠色丁香久久婷婷综合_中| 亚洲免费观看在线观看| 中文字幕视频在线免费欧美日韩综合在线看| 国产精品福利无圣光在线一区| 在线视频不卡一区二区| 亚洲区自拍偷拍| 精品久久久无码中文字幕| 亚洲国产精品t66y| 伊人青青综合网站| 日韩高清dvd| 免费在线观看成年人视频| 亚洲欧美高清视频| 曰韩精品一区二区| 欧美成人免费全部| 经典三级在线视频| 青娱乐国产在线视频| 国产激情精品久久久第一区二区 | 亚洲青青青在线视频| 亚洲欧美自拍一区| 日韩久久不卡| 性爱在线免费视频| 国产精品一区不卡| 亚洲精品在线观看视频| 99在线看视频| 波多野结衣 在线| 青娱乐精品视频| 欧美色综合网站| 成人www视频在线观看| 五月六月丁香婷婷| 欧美 日韩 国产 精品| 色婷婷激情久久| 国产免费一区视频观看免费| 日本女人性视频| 久久精品免费| 日韩一区二区免费在线电影| 成人做爰66片免费看网站| 亚洲少妇一区二区| 香蕉久久国产av一区二区| 欧美伊人久久久久久午夜久久久久| 国产女人18毛片水18精品| 老熟妇仑乱视频一区二区| 国产精品久久久久久久一区二区| 亚洲国产视频一区二区| 国产欧亚日韩视频| 91精彩刺激对白露脸偷拍| 国产成人免费在线观看不卡| 国产一区二区免费| 乱人伦xxxx国语对白| 国产精品久久久久久久久毛片 | 国产精品你懂得| 亚洲视频在线播放免费| 激情伊人五月天久久综合| 亚洲国产精品专区久久| 桥本有菜av在线| 国产九色91回来了| 亚洲卡一卡二卡三| 国产精品第三页| 久久久久国产一区| 亚洲av成人片无码| 久久国产精品99精品国产| 日韩一区二区中文字幕| 欧美久久久久久一卡四| 日本午夜精品理论片a级app发布| 亚洲欧美中日韩| 国产精品久久久久久久午夜| 天天插天天射天天干| 99久久免费精品高清特色大片| 欧美精品在线看| 又黄又色的网站| 91免费国产在线| 国产国产精品人在线视| 成人黄色a级片| 中文字幕字幕中文在线中不卡视频| 国产精自产拍久久久久久| av黄色免费在线观看| 亚洲男人的天堂网| 国产高清不卡av| 精品一区二区无码| 88在线观看91蜜桃国自产| 中文字幕日韩一区二区三区 | 激情小说欧美色图| 成人av一区二区三区| 欧美一区深夜视频| 国产在视频线精品视频| 手机精品视频在线| 成熟丰满熟妇高潮xxxxx视频| 精品黑人一区二区三区观看时间| 好吊色欧美一区二区三区| 色悠悠久久88| 99r国产精品视频| 在线免费观看污视频| 青青青国产在线 | 特一级黄色大片| 色哟哟国产精品免费观看| 在线不卡日本| 久久精品九九| 97精品国产91久久久久久| 少妇av片在线观看| 色综合久久综合网欧美综合网| 黑人巨大国产9丨视频| 麻豆一区二区在线| 国产精品老女人精品视频| 久久精品国产亚洲av香蕉| 91精品国产入口| 青青草久久伊人| 欧美国产精品一区二区三区| 久久精品99| 欧美一级一区二区三区| 久久久欧美精品| 国产亚洲欧美精品久久久久久| 欧美日韩在线一区二区| 精品久久久久久久无码| 国产精品乱码一区二区三区软件| 欧美日韩亚洲免费| 日韩黄色免费网站| 国产精品一区二区三区毛片淫片| 二级片在线观看| 91久久久久久久一区二区| 尤物网站在线看| 亚洲美女屁股眼交| 欧美日韩激情四射| 高清乱码毛片入口| 色综合久久久888| 貂蝉被到爽流白浆在线观看| 亚洲特级黄色片| 欧洲一区二区三区在线| 欧美最顶级的aⅴ艳星| 国产精品无码人妻一区二区在线| 亚州精品国产精品乱码不99按摩| 日韩一区二区在线免费观看| 天天色综合天天色| 亚洲av成人精品一区二区三区在线播放| 欧美日韩成人免费| 亚洲国产日韩在线观看| 久久精品二区| 欧美国产一区二区| 2022国产精品| 国产成人av影院| 日韩欧美一区二区视频在线播放| 黄色av小说在线观看| 久久亚洲精品毛片| 三区四区在线观看| 午夜成人免费电影| 波多野结衣家庭教师视频| 日日夜夜免费精品| 26uuu亚洲伊人春色| 大黑人交xxx极品hd| 国产精品欧美久久久久无广告 | 黑人巨大精品欧美一区| 91精品国产综合久久婷婷香蕉| 亚洲精品国产一区黑色丝袜 | 一区二区三区黄色| 免费网站在线高清观看| 亚洲成人网av| 日本熟伦人妇xxxx| 日本道色综合久久影院| 曰批又黄又爽免费视频| 自拍偷拍亚洲精品| 97人人澡人人爽人人模亚洲| 亚洲成人av电影在线| 国产精品高潮呻吟视频| 日批免费观看视频| 亚洲免费中文字幕| 高清不卡一区二区| 97av在线视频| 狠狠人妻久久久久久| 国产人妖伪娘一区91| 久久精品国产77777蜜臀| 亚洲国产午夜伦理片大全在线观看网站 | 久久精品一区二| 精品久久国产老人久久综合| 久久精品麻豆| 久久综合久久久| 狠狠爱在线视频一区| 一本色道久久综合无码人妻| 欧美成人免费观看视频| 日韩中文字幕在线不卡| 亚洲国产精品悠悠久久琪琪| 99久久国产综合精品色伊| 91精品久久久久久久久不口人| 成人精品视频一区二区三区| 最新国产中文字幕| 青青草原播放器| 91国内在线播放| 欧美xxxx×黑人性爽| 久久一级免费视频| 亚洲国产精品第一页| 日本猛少妇色xxxxx免费网站| 色阁综合av| 一区二区三区四区精品| 欧美激情在线一区二区| 亚洲精品18p| 九九热在线免费| 奇米四色中文综合久久| 一区二区三区亚洲视频| 国产免费a视频| 91精品人妻一区二区三区四区| 国产精品一区二区在线播放| 久久综合色一本| 欧美日韩国产色视频| 国产大学生自拍| 国产一级久久久久毛片精品| 三级男人添奶爽爽爽视频| 日本黄色播放器| 青草青草久热精品视频在线网站| 一区二区三区回区在观看免费视频| 麻豆疯狂做受xxxx高潮视频| 一级做a爱视频| 日韩欧美一区二区视频在线播放| 97碰碰视频| 3d动漫一区二区三区| 9.1成人看片| 黄色一级免费视频| 91porny在线| 亚洲精品国产一区二| 日韩欧美中文字幕视频| 久艹在线免费观看| 91免费在线视频| 国外成人在线视频| 日韩高清不卡av| 91久久精品一区二区三| 日本加勒比一区| 日本精品在线免费观看| 精品美女久久久久| 国产高潮国产高潮久久久91 | 天天操天天干天天玩| 精品久久久三级| 亚洲第一av色| 亚洲人成小说网站色在线| 国产日产精品一区| 一区二区三区四区高清精品免费观看 | 一区二区三区不卡视频| 成人做爰69片免费看网站| 黑人无套内谢中国美女| 日本午夜精品一区二区| 91中文字幕一区| 久久久综合免费视频| 国产日韩欧美在线| 日韩亚洲欧美综合| 亚洲欧洲综合另类| 成人短视频下载 | 精品国偷自产在线视频99| 欧美日本乱大交xxxxx| 精品少妇一区二区三区| 亚洲国产精品福利| 亚洲私人影院在线观看| 亚洲黄色片视频| 天堂在线中文网| 久久九九免费| 亚洲va中文字幕| 91a在线视频| 九色91popny| 亚洲欧美激情另类| 国产精品―色哟哟| 最近2019中文字幕在线高清 | 国产67194| 日韩在线观看视频一区二区| 久久一级黄色片| 日韩欧美亚洲一区二区三区| 精品无码久久久久久久| 国产一级久久久久毛片精品| av永久免费观看| 国产强伦人妻毛片| 国产亚洲精品精华液| 大黑人交xxx极品hd| 亚洲精品欧美日韩专区| 一本久道久久综合| www.自拍偷拍| 日本网站免费在线观看| 中文av一区二区三区| 日韩在线中文字幕视频| 91麻豆精品在线| 欧美日韩另类字幕中文| 97人人模人人爽人人喊中文字| 狠狠躁狠狠躁视频专区| 亚洲日本国产精品| 亚洲男人的天堂网站| 国产精品视频福利| 国产中文字幕乱人伦在线观看| 一卡二卡三卡四卡| 久久精品这里只有精品| 免费成人在线观看视频| 国产日韩欧美制服另类| 91精品福利在线一区二区三区 | 久久国产精品色婷婷| 秋霞电影一区二区| 亚洲精品综合在线| 国产亚洲人成a一在线v站| 久久视频在线观看中文字幕| 亚洲欧美日韩精品久久久 | 日韩视频精品在线| 成熟老妇女视频| 日韩有码一区二区三区| 日韩视频一区二区| 欧美 激情 在线| 国产又爽又黄的视频| 国产精品一区二区91| 国产精品久久福利| 久久精品最新地址| 天天综合五月天| 国产亚洲欧美精品久久久www | 欧美亚州韩日在线看免费版国语版 | 久久成人免费观看| 天堂网中文在线观看| 粉嫩精品久久99综合一区| 午夜精品久久久久久久久久久久久蜜桃 | 国产精品视频第一区| 九九热视频这里只有精品| 亚洲精品www.| 日本高清黄色片| 亚洲视屏在线观看| 欧美熟乱第一页| av一区二区三区免费| 好吊日免费视频| 一区二区三区精品| 欧美日韩一区在线播放 | 一级片中文字幕| 亚洲成人免费看| 在线不卡免费欧美| 97人人干人人| 国产乱女淫av麻豆国产| 极品国产91在线网站| 亚洲欧美日韩小说| 精品一区二区三区四区在线| 国产成人综合欧美精品久久| 久久久久久久久久久久久久av| 国产在线视频二区| 成人av高清在线| 91精品国产麻豆国产自产在线| 日本韩国在线不卡| 毛片毛片毛片毛| 国产午夜精品福利| 亚洲国产精品久久久久婷婷老年| 男人天堂中文字幕| 在线中文字幕一区| av日韩在线看| 999福利视频| 艳妇乳肉豪妇荡乳av| 亚洲国产精品电影在线观看| 亚洲AV无码成人精品一区| 日韩精品一二三四| 国产一区免费在线观看| 极品少妇一区二区| 免费cad大片在线观看| 久久精品欧美一区二区三区不卡 | 日韩男女性生活视频| 国产九九在线视频| 中文字幕精品一区二区三区精品| 中文亚洲视频在线| 亚洲久久久久久| 国产精品嫩草影院com| 日韩欧美精品久久| va视频在线观看| 日本久久精品电影| 清纯唯美一区二区三区| 欧美视频xxxx| 亚洲精品中文字| 美女100%露胸无遮挡| 亚洲美女自拍视频| 日韩欧美一区二| 99久久99久久免费精品蜜臀| 国产精品日韩一区二区三区| 午夜精品久久久久久久第一页按摩| 精品久久一区二区| 国产美女久久久| 中文字幕精品无| 亚洲一区二区国产| 久久久久久婷婷| 欧美体内谢she精2性欧美| 精品视频无码一区二区三区| 成人夜色视频网站在线观看| 一区二区三区四区欧美| 欧美国产1区2区| 欧美在线aaa| 亚洲国产精品成人av| 在线视频你懂得| 久久久久久亚洲精品| 亚洲一区二区91| 日韩欧美亚洲另类制服综合在线| 国产又黄又爽免费视频| 99re热视频这里只精品| 蜜桃av噜噜一区二区三| 久久66热re国产| 久久这里只有精品8| 不卡免费追剧大全电视剧网站| 国产91精品久| 日韩中文字幕高清| 久久久久中文字幕2018| 日韩精品三区四区| 日韩精品一区在线视频| 亚洲国产一区二区三区| 18视频在线观看娇喘| 亚洲人成人一区二区在线观看| jizz18女人| 日韩的一区二区| 情侣偷拍对白清晰饥渴难耐|