色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

代碼數據集都開源

Pengfei 投稿

量子位 | 公眾號 QbitAI

大模型對齊新方法,讓數學推理能力直接提升9%。

上海交通大學生成式人工智能實驗室(GAIR Lab)新成果ReAlign,現已開源。

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

隨著以ChatGPT為代表的語言大模型的快速發展,研究人員意識到訓練數據的質量才是大模型對齊的關鍵。

然而,目前主流的提示數據質量的方法不是需要大量人工成本(人工構造高質量數據)就是容易遭受大模型幻覺的影響(從蒸餾數據中選擇高質量樣本)。

ReAlign能以較小的人工成本提升現有數據集的質量,進而提升模型整體對齊能力,包含數學推理能力、回答問題的事實性、回答的可讀性。

目前,該項目開源了大量資源:

  • ReAlign代碼(使用方法和步驟均在Github中給出)
  • ReAlign后的數據集,Github倉庫中給出,同時包含huggingface版本。
  • 46個不同任務場景對應的任務描述以及人工構造的回答格式。
  • 用于對指令數據任務分類的分類器以及該分類器的訓練數據。
  • 用于事實性(Factuality)評估的NQ數據集及其ground truth。
  • 用于可讀性(Readability)和事實性(Factuality)評估的prompt。

該方法有如下優勢:

可以顯著提升數學推理能力:LLaMA-2-13B在GSM8K上的數學推理能力從46.77%提升到了56.63%。

同時具備顯著的OOD泛化能力:在MATH上訓練,LLaMA-2-13B在GSM8K上從14.48%提升到了25.17%

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

該方法與其他對齊技術(如SFT、DPO、指令數據構造方法等)垂直,即可以在現有技術的基礎上去進一步提升大模型性能。

該方法所得到的模型在回答問題時具備更易讀、組織格式更優良、原因解釋更細致等優點,可以顯著提升可讀性與數學推理能力。

該方法在針對知識密集型任務時采用了檢索增強技術,可以有效提升模型的事實性,減少了幻覺帶來的影響。

該文章也指出ReAlign的底層邏輯是重新協調人類與大模型在對齊過程中的角色,利用他們之間互補的優勢,讓人類去明確指定自己的偏好,而大模型采用自己強大的生成能力去按照人類指定偏好重構回答,并不會蒸餾大模型本身的知識(避免幻覺問題)。

示例

下圖示例1展示了ReAlign用于一個數學任務訓練數據后的效果,可以看出ReAlign后的回答格式更加清晰易讀。

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

下圖示例2展示了采用原始數據集訓練后的模型與采用ReAlign的數據集訓練后的模型在回答問題上的差異,紅色字體高亮了原始回答較弱的部分,綠色字體高亮了ReAlign后的模型回答較強的部分。

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

方法

該方法流程示意圖如下:

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

該方法分為3個模塊:準則定義、檢索增強、和格式重構。

1、準則定義

該預定義準則包含任務和相應的格式。

任務

該文章作者人工定義了46個任務,可以歸為10個大類,具體分類情況如下表所示:

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

同時,作者針對這46個任務訓練了一個任務分類器。

格式

由于不同任務對于格式的需求是不一樣的,因此作者針對這46種任務精心設計了46個回答格式,包含組織結構、章節內容要求和輸出形態。這樣特定的格式相比通用格式更清晰易讀,下表示例為郵件生成任務的格式:

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

2、檢索增強

知識密集型任務如開放域問答和事實驗證任務,需要大量外部知識作為證據來確保回答的事實性。

因此作者選擇了5個知識密集型任務,針對這些任務的問題,先去調用谷歌搜索的API得到對應證據,用于后續改寫。以下是一個檢索增強的示例,可以看出有了檢索增強后的ReAlign可以給出具備事實性的詳細解釋:

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

3、格式重構

重寫

作者利用大模型(比如ChatGPT)基于之前定義的準則和檢索到的證據(對于知識密集型任務)來重新改寫原數據集中的回答。具體來說,是通過提示將問題、原始回答、格式要求和證據(對于知識密集型任務)進行組織,然后詢問大模型得到重寫后的回答。此外,由于一些問題有特定的格式要求,因此作者采用了自適應改寫,即先讓大模型判斷該問題與給定的格式是否匹配,若匹配則改寫,否則保留原始回答。

此外,作者認為一些特定任務不應有特定格式要求,例如故事生成、詩歌生成等,因此作者對這類任務并沒有采用格式重構(具體可看論文)。

后處理

長度過濾:作者發現大模型在改寫回答的時候偶爾會只輸出做了改變的句子,這種情況下長度會銳減。因此,作者將改寫后長度小于原始回答一半的數據保留其原始回答不改變。

基于任務的過濾:作者發現任務分類器有時候會導致錯誤傳播,因此針對以下3個任務設計了特定過濾規則:

  • 代碼相關任務:通過關鍵詞匹配確定改寫前后的回答是否均包含代碼,如果其中一方不包含代碼則認為改寫失敗,進而保留原始回答。
  • 考題任務:匹配改寫前后的答案是否一致,若不一致則認為改寫失敗,保留原始回答。
  • 計劃任務:如果問題中不包含計劃相關的關鍵詞,則不采納改寫的回答,保留原始回答。

實驗與結果

作者在5個數據集(Open-Platypus、No Robots、Alpaca、GSM8K、MATH)和2個模型(LLaMA-2-13B和Mistral-7B)上做了實驗。

作者首先在AlpacaEval、MT-Bench、Vicuna-Bench上測試了通用對齊能力,結果如下表所示,發現除了部分MT-Bench的第二輪對話性能下降,其他均有提升,證明了對回答格式重構可以有效提升對齊能力。

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

隨后,作者測試該方法對數學推理能力的影響,其在GSM8K和MATH兩個常用數學數據集上進行測試。結果如下表所示,可以看到該方法可以顯著提升數學推理能力,甚至可以得到9-10個點的提升。

此外,還具有顯著的OOD泛化能力,例如LLaMA-2-13B在MATH上訓練,在GSM8K上測試可以提升10個點以上。作者認為這樣的提升可能是因為格式重構后帶來了更多以及更清晰的中間步驟和解釋,進而提升了模型的數學推理能力。

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

接下來,作者構造了一個評測標準去測試模型的事實性(Factuality),他們從帶有正確答案的NQ數據集中隨機篩選了100條數據。

隨后用訓練好的模型去回答這100個問題,得到模型的回答,接下來采用一個提示模版將問題、答案和模型的回答組織起來,讓GPT-4為該回答與正確答案的符合程度進行打分作為事實性分數。

測評結果如下圖所示,可以看到在這三個數據集上事實性均有提升,作者認為是檢索增強帶來的效果。

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

此外,作者還測試了模型的可讀性(Readability),他們針對Vicuna-Bench的回答,采用GPT-4和人工評估對用ReAlign前后的回答進行一對一可讀性比較。

結果如下圖所示,可以看到無論是GPT-4還是人工,ReAlign后的數據集相比原始數據集均有顯著提升。

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

作者還進行了對齊稅(Alignment Tax)分析,在知識型評測基準BBH和AGIEval上進行測試,發現采用ReAlign后的模型并不會損失其原有的知識,并且在個別情況還會有提升。

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

最后,作者分析了ReAlign的擴展定律(Scaling Law),即只ReAlign一部分數據,對訓練后的模型的影響情況。

結果如下圖所示,可以看出只ReAlign 5%的數據即可為通用對齊能力帶來全部ReAlign的67%提升,并且隨著ReAlign的比例提升性能也呈上升趨勢。

僅需格式轉換提升9%數學推理能力,上交開源新對齊方法ReAlign

總結

總的來說,GAIR研究組提出了一個新的對齊方法ReAlign,其可以自動化提升現有指令數據集的回答質量,并且最小化了人工成本和幻覺影響。

他們ReAlign得到了了5個新的高質量數據集Open-Platypus、No Robots、Alpaca、GSM8K和MATH。實驗證明,ReAlign可以顯著提升通用對齊能力、數學推理能力、事實性和可讀性,并且不會損害知識能力。

此外,也公開了數據集、人工精心撰寫的46種任務描述及格式、任務分類器及其訓練數據、事實性評估數據集。

論文地址:https://arxiv.org/pdf/2402.12219.pdf
項目地址:https://gair-nlp.github.io/ReAlign/
代碼與數據地址:https://github.com/GAIR-NLP/ReAlign

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
97成人免费视频| 久久香蕉精品| 翔田千里亚洲一二三区| 亚洲精品久久久久中文字幕二区| 在线免费观看麻豆| 久久99久久精品国产| 精品久久人人做人人爰| 免费不卡在线观看| 最新av电影网站| 欧美在线视频二区| 久久视频在线视频| 午夜欧美一区二区三区在线播放| ,一级淫片a看免费| 亚洲 欧美 日韩 国产综合 在线| 俺去啦;欧美日韩| 中文字幕日本不卡| 最近中文字幕在线免费观看| 欧美日韩精品区别| 91成人免费观看网站| 欧美视频在线看| 国产视频在线免费观看| 亚洲欧美日韩综合网| 粉嫩精品一区二区三区在线观看| 欧美日韩国产影片| 日韩和欧美一区二区| 一女三黑人理论片在线 | 欧美一区二区美女| 国产成人丝袜美腿| 国产xxxx孕妇| 少妇一级淫免费观看| 日韩久久不卡| 国产精品福利网| 欧美人牲a欧美精品| 国产99久一区二区三区a片| 涩涩网站在线看| 国产在线拍揄自揄拍无码| 日本久久久久久久久| 99国产视频在线| 中文字幕综合网| 国产精品一品二区三区的使用体验| 黑人操日本美女| 黄色片网站在线播放| 韩国一区二区在线播放| 国产精品久久a| 五月激情四射婷婷| 日韩人妻无码一区二区三区| 亚洲日本黄色片| 五月天国产一区| 久久riav| 色视频一区二区三区| 国产伦精品一区二区三区| 亚洲综合色激情五月| 欧美精品成人在线| 丝袜美腿亚洲色图| 1024在线看片| yy1111111| 亚洲国产日韩欧美在线观看| 玩弄中年熟妇正在播放| 在线播放 亚洲| 久久久这里只有精品视频| 日韩一区二区三区电影| 激情懂色av一区av二区av| 国产日韩欧美不卡在线| 久久久国产精品午夜一区ai换脸| 久久99精品国产麻豆婷婷洗澡| ,亚洲人成毛片在线播放| 97人妻精品视频一区| 日本高清不卡码| 中文字幕一区二区三区波野结| 亚洲第一网站在线观看| 波多野结衣人妻| 国产成人精品免费看视频| 色窝窝无码一区二区三区| 日韩av电影天堂| 国产1区2区3区精品美女| 香港一级纯黄大片| 免费高清在线视频一区·| 国产激情91久久精品导航| 久久嫩草精品久久久精品一| 亚洲色图.com| 在线观看免费成人| 欧美一级爆毛片| 色青青草原桃花久久综合| 亚洲性生活视频| 久久久精品视频成人| 日本高清视频一区| 亚洲精品8mav| 午夜两性免费视频| 天天躁夜夜躁狠狠是什么心态| 一级片一级片一级片| 亚洲精品无遮挡| 卡一卡二国产精品| 久久精品国内一区二区三区| 久久综合av免费| 欧美性猛交xxxx偷拍洗澡| 亚洲国产精品99| 91精品国产高清自在线| 九九热99久久久国产盗摄| 国产精品av网站| 一区二区国产日产| 精品少妇人妻一区二区黑料社区| 国产精品23p| 天天综合天天综合| 亚洲国产视频直播| 少妇精69xxtheporn| 国产一区二区免费在线观看| 亚洲一二三区av| 国产一级淫片久久久片a级| 国产免费视频一区二区三区| 免费av成人在线| 91精品中文在线| 黄色www视频| 51精品秘密在线观看| 在线观看亚洲色图| 国产99精品视频| 国产视频精品自拍| 国产免费一区二区三区在线能观看| 亚洲国产精品久久久久久女王| 在线观看免费国产视频| 国产一区中文字幕| 欧美性xxxxxx少妇| 久久久久亚洲精品国产| 青青艹视频在线| 国产一区二区三区视频免费观看| 国产精品精品国产色婷婷| 精品视频9999| 一区二区久久精品| 激情深爱一区二区| 欧美精品乱码久久久久久| 99久久99久久| 免费的av网站| 香蕉视频911| 日韩成人小视频| 久久久水蜜桃| 波多野结衣mp4| 亚洲欧洲精品一区二区精品久久久| 久久九九精品99国产精品| 黄色一级片在线看| 久久网一区二区| 日韩人体视频一二区| 五月婷婷一区| 国产深喉视频一区二区| 在线播放日韩导航| 国产婷婷一区二区三区| 久久精品理论片| 日日噜噜噜夜夜爽亚洲精品| 激情婷婷综合网| 天天干天天摸天天操| 亚洲福利视频专区| 久久久久久久9| av在线资源观看| 天天影视涩香欲综合网| 狠狠色综合色区| 波多野结衣啪啪| 日韩欧美专区在线| 在线免费看v片| 亚洲欧美激情小说另类| 国产一区二区久久久| 青青草免费观看视频| 欧美中文一区二区三区| 日本在线精品视频| 久久狠狠高潮亚洲精品| 岛国视频午夜一区免费在线观看| 无码人妻精品一区二区蜜桃百度| www.国产一区二区| 日韩免费一区二区| 日本女人黄色片| 自拍偷自拍亚洲精品播放| av色综合网| 在线免费观看高清视频| 欧美日韩久久一区| 一级黄色片在线免费观看| 中文字幕在线一区| 国产精品成人久久| 欧美日韩综合在线免费观看| 高清一区二区视频| 久久免费看少妇高潮| 国产精品夜夜夜爽张柏芝| 日韩精品一级二级| 亚洲深夜福利视频| 日韩免费在线观看av| 久久免费电影网| 精品少妇人欧美激情在线观看| 欧美国产精品一区二区三区| 成年人小视频网站| www激情久久| 日本精品一区二区三区四区| 午夜一区二区三区在线观看| 欧美成人久久久| 中文字幕 日韩有码| 国产精品极品美女在线观看免费 | 韩国一区二区电影| 精品国产va久久久久久久| 91天堂在线观看| 成人黄色a**站在线观看| 日韩一区不卡| 一区二区免费看| 国产一区玩具在线观看| 国产主播一区二区| 丰满爆乳一区二区三区| 在线电影院国产精品| 国产jk精品白丝av在线观看| 国产小视频国产精品| 国产女主播福利| 国产精品视频不卡| 成人免费高清在线观看| 各处沟厕大尺度偷拍女厕嘘嘘| 一区二区在线看| 三日本三级少妇三级99| 日韩片之四级片| 日本三级片在线观看| 超碰97国产在线| 中文字幕一区二区在线观看| 亚洲天堂第一区| 亚洲成色777777在线观看影院 | 亚洲不卡在线播放| 色综合天天狠天天透天天伊人 | 亚洲欧洲日韩国产| 波多野结衣黄色网址| 亚洲国产日韩欧美| 成人av先锋影音| 国产 中文 字幕 日韩 在线| 91精品国产91久久久久久不卡| 久久精品99国产精品日本| 国产精品专区在线| 中文字幕亚洲欧美日韩在线不卡| 亚洲国产精品欧美久久| 99草草国产熟女视频在线| 色噜噜狠狠狠综合曰曰曰| 国产一区二区三区不卡在线观看| 黄页网站在线看| 亚洲xxxx视频| 欧美日韩dvd在线观看| 国产特黄一级片| 日韩高清第一页| 国产精品美女999| 亚洲人成精品久久久久久| 日韩成人免费在线视频| 国产欧美123| 久久久久久91| 亚洲欧洲无码一区二区三区| 无码人妻精品一区二区三区9厂| 中文字幕日韩精品无码内射| 一个人看的www久久| 91麻豆文化传媒在线观看| 日韩黄色在线播放| 一区二区三区四区欧美日韩| 日韩精品中文字幕在线播放| 黄色精品在线看| 黑人操日本美女| 精品国产制服丝袜高跟| 成人自拍视频在线观看| www.激情五月.com| 一区二区三区免费高清视频| 老熟妇精品一区二区三区| 国产精品久久久久影院| 久久综合九色综合欧美狠狠| 欧美激情精品久久| 国产美女免费无遮挡| 欧美做受高潮中文字幕| 人妻av中文系列| 伊人再见免费在线观看高清版| 国产精品免费一区二区三区在线观看 | 一区二区三区国| 欧美一级片免费在线| 日韩电影视频免费| 日韩欧美国产午夜精品| 欧美三日本三级三级在线播放| 久久久综合视频| 国产亚洲女人久久久久毛片| 国产福利电影一区二区三区| 视频一区国产视频| 成人黄色免费网| 久久精品99北条麻妃| 登山的目的在线| 啪啪一区二区三区| jizzjizz日本少妇| 国产传媒在线看| 国产不卡在线观看视频| 国产精品1区2区3区4区| 我家有个日本女人| 亚洲 欧美 视频| 国产日韩欧美视频在线观看| 久久国产精品波多野结衣| 国产精品老熟女一区二区| 国产小视频在线观看免费| 日本熟妇毛耸耸xxxxxx| 九九视频免费看| 一级黄色片免费| 久久精品午夜| 99九九99九九九视频精品| 国产精品高潮久久久久无| 日韩欧美国产视频| 日韩视频在线永久播放| 亚洲精品一区二区三区精华液| 丝袜亚洲另类欧美重口| 日韩免费观看视频| 午夜精品亚洲一区二区三区嫩草| av天堂永久资源网| 波多野结衣a v在线| 免费视频久久久| 国产麻豆精品在线| 精品久久久久国产| 中文字幕亚洲专区| 国产精品加勒比| 国产视频在线视频| 欧美成人aaa片一区国产精品| 丁香六月天婷婷| 国产精品美女久久久久久久网站| 制服丝袜亚洲精品中文字幕| 国模精品一区二区三区色天香| 欧美日本韩国国产| 动漫美女无遮挡免费| 国产精品久久久久久久久久久久久久久久久久 | 日韩一区二区三区四区五区六区| 久久久久久午夜| 国产96在线 | 亚洲| 女人黄色一级片| 日韩黄色小视频| 亚洲蜜桃精久久久久久久| 亚洲欧洲国产精品| 黄色一区三区| xxww在线观看| 中文精品久久久久人妻不卡| 91在线你懂得| 亚洲国产精品一区二区三区| 成人春色激情网| 国产在线观看中文字幕| 三级欧美韩日大片在线看| 在线观看精品一区| 91网站在线免费观看| 第四色婷婷基地| 人妻无码中文字幕免费视频蜜桃| 亚洲高清不卡在线| 日韩av日韩在线观看| www.51色.com| 久久在线精品| 精品久久久久香蕉网| 99re在线国产| 九色porny自拍视频| 成人国产精品免费观看| 在线观看成人黄色| 国产精品一色哟哟| 伊人网中文字幕| 一本到三区不卡视频| www.久久爱.cn| 久久一二三四区| 亚洲成va人在线观看| 成人有码视频在线播放| 亚洲毛片亚洲毛片亚洲毛片| 91丨porny丨户外露出| 久久久综合免费视频| 日韩成人精品视频在线观看| 日本高清视频网站| 亚洲аv电影天堂网| 中文字幕中文字幕在线中一区高清 | 韩国欧美亚洲国产| 中文字幕免费高清视频| 91丨九色丨国产丨porny| 国产精品第二页| 国产精品免费av一区二区| 亚洲一区二区在线免费看| 久久99精品久久久久久三级| 96日本xxxxxⅹxxx17| 亚洲午夜av久久乱码| 性欧美丰满熟妇xxxx性久久久| 国产精品初高中害羞小美女文| 福利视频久久| 日韩中文字幕观看| 久久久久久免费精品| 国产极品美女在线| 日韩视频123| 男插女视频网站| 天天色天天爱天天射综合| 国产夫妻自拍一区| 久久亚区不卡日本| 午夜欧美性电影| 国产一区二区久久| 国产精品对白一区二区三区| 国产片高清在线观看| 欧美综合第一页| 怡红院男人天堂| 久久午夜a级毛片| 午夜毛片在线观看| 久久久极品av| 国产成人愉拍精品久久| 欧美精品一区二区精品网| 俄罗斯黄色录像| 欧美日韩精品一区二区三区四区 | 亚洲成人精品一区| 9久久婷婷国产综合精品性色 | 少妇高潮喷水在线观看| 国产精品久久久久天堂| 粉嫩av一区二区三区天美传媒 | 成人毛片视频在线观看| 国产另类自拍| 成人中文字幕合集| 自拍偷拍一区二区三区| 国产午夜精品一区二区三区四区| 正在播放91九色| 国产精品传媒入口麻豆| 性生活在线视频| 亚洲国产成人av在线| 亚洲图片在线视频| 91视频在线免费观看| 久久亚洲精华国产精华液 | 91九色蝌蚪嫩草| 91丨九色丨蝌蚪丨老版| 精品亚洲一区二区三区四区| 日韩亚洲国产中文字幕欧美|