色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源

消費級顯卡可跑

Pengfei Liu 投稿自 凹非寺

量子位 | 公眾號 QbitAI

評估大模型對齊表現最高效的方式是?

在生成式AI趨勢里,讓大模型回答和人類價值(意圖)一致非常重要,也就是業內常說的對齊(Alignment)。

讓大模型自己上。”

這是上海交通大學生成式人工智能研究組(GAIR)提出的最新思路。

但是目前的評估方法還存在透明度不夠、準確性不佳等問題。

所以研究人員開源了一個130億參數規模的大模型Auto-J,能對評估當下大模型的對齊效果。

它可同時分析兩個大模型的回答,分別做出評價并進行對比。

用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源

也能評估單個回復。并且在這一任務上的表現超越了GPT-4

用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源

目前,該項目開源了大量資源,包括:

  • Auto-J的130億參數模型(使用方法、訓練和測試數據也已經在GitHub上給出);
  • 所涉及問詢場景的定義文件;
  • 每個場景手工構建的參考評估準則;
  • 能夠自動識別用戶問詢所屬場景的分類器等。

用大模型指導大模型回答

在實際任務中,Auto-J不僅可以在兩個不同模型的回復中,指明更優秀的回答,而且會從多個具體維度給出判斷和分析。

同時對于它認為不夠好的回復,能提出改進建議

注:本節提供的示例已由原始英文文本翻譯為中文

具體來看Auto-J在成對回復比較單回復評估任務的效果。

成對回復比較部分給出的問題是:

起草一份給我家人的郵件,告訴他們我已經買好了感恩節的機票。我會在11月22日出發,30日離開。

實驗對比了GPT4ALL-13B-snoozy和Claude-1的回復。

用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源

Auto-J給出的判斷是Claude-1的回復更好,原因是信息更豐富、吸引人、個性化。

同時它也給出了具體的分析過程,從目的、語氣、正文內容、個性化、信息豐富度幾個方面評估,并講明了各個方面兩個大模型的優劣。

用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源

單回復評估任務的提問是:

在烤架上烤三文魚最好的方法是什么?

待評估的回復是:

在烤架上烹制三文魚的最好辦法是首先將烤架預熱至中高溫,刷上橄欖油,撒上鹽和胡椒,然后把三文魚皮朝下放在烤架上。讓三文魚烤5-7分鐘,直到皮酥脆,用叉子輕松刺入魚肉。翻轉三文魚,再烤3-4分鐘,配上你喜歡的配菜,享受美味。

對于這段回答,Auto-J給出的評價是“答得害行但是在幾個方面缺乏深度和詳細信息”。

比如沒有提到具體的烹飪溫度或時間,沒有提到三文魚的品質。

而且還給出了具體建議能讓回復更加有個性化:通過詢問用戶有關具體烤肉設備或烹飪三文魚的經驗。

用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源

支持50+場景

在性能表現上,Auto-J在以下兩方面都表現不錯。

功能使用方面

支持50+種不同的真實場景的用戶問詢(query)(如常見的廣告創作,起草郵件,作文潤色,代碼生成等)能夠評估各類大模型在廣泛場景下的對齊表現;

它能夠無縫切換兩種最常見的評估范式——成對回復比較單回復評估;并且可以“一器多用”,既可以做對齊評估也可以做“獎勵函數”(Reward Model)對模型性能進一步優化;

同時,它也能夠輸出詳細,結構化且易讀的自然語言評論來支持其評估結果,使其更具可解釋性與可靠性,并且便于開發者參與評估過程,迅速發現價值對齊過程中存在的問題

性能開銷方面

在性能和效率上,Auto-J 的評估效果僅次于GPT-4而顯著優于包括ChatGPT在內的眾多開源或閉源模型,并且在高效的vllm推理框架下能每分鐘評估超過100個樣本

在開銷上,由于其僅包含130億參數,Auto-J能直接在32G的V100上進行推理,而經過量化壓縮更是將能在如3090這樣的消費級顯卡上部署使用,從而極大降低了LLM的評估成本 (目前主流的解決方法是利用閉源大模型(如GPT-4)進行評估,但這種通過調用API的評估方式則需要消耗大量的時間和金錢成本。)

具體方法

訓練數據總體上遵循如下的流程示意圖:

用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源

△訓練數據收集流程示意圖

場景的定義和參考評估標準:

用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源
用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源

△場景定義與參考評估標準

為了更廣泛的支持不同的評估場景,Auto-J 定義了58種不同的場景,分屬于8大類(摘要,重寫,代碼,創作,考題,一般交流,功能性寫作以及其他NLP任務)。

對于每個場景,研究者手動編寫了一套用作參考的評估標準(criteria),覆蓋了這類場景下常見的評估角度,其中每條標準包含了名稱和文本描述。

評估標準的構建遵循一個兩層的樹狀結構:先定義了若干組通用基礎標準(如文本與代碼的一般標準),而每個場景的具體標準則繼承了一個或多個基礎標準,并額外添加了更多的定制化標準。

以上圖的“規劃”(planning)場景為例,針對這一場景的標準包括了該場景特定的內容與格式標準,以及繼承而來的基礎標準。

收集來自多種場景的用戶問詢和不同模型的回復

Auto-J被定位成能夠在定義的多種廣泛場景上均表現良好,因此一個重要的部分就是收集不同場景下相應的數據。為此,研究者手動標注了一定量用戶問詢的場景類別,并以此訓練了一個分類器用以識別任意問詢的所屬場景。

在該分類器的幫助下,成功從包含了大量真實用戶問詢和不同的模型回復的若干數據集中(如Chatbot Arena Conversations數據集)通過降采樣的方式篩選出了類別更加均衡的3436個成對樣本和960個單回復樣本作為訓練數據的輸入部分,其中成對樣本包含了一個問詢,兩個不同的針對該問詢的回復,以及人類標注的偏好標簽(哪個回復更好或平局);而單回復樣本則只包含了一個問詢和一個回復。

收集高質量的評判(judgment)

除了問詢和回復,更重要是收集作為訓練數據輸出部分的高質量評估文本,即“評判”(judgment)。

研究者定義一條完整的評判包含了中間的推理過程和最后的評估結果。對于成對回復比較而言,其中間推理過程為識別并對比兩條回復之間的關鍵不同之處,評估結果是選出兩條回復中更好的一個(或平局);而對于單回復樣本,其中間推理過程是針對其不足之處的評論(critique),評估結果則是一個1-10的總體打分。

在具體操作上,選擇調用GPT-4來生成需要的評判。

對于每個樣本,都會將其對應場景的評估標準傳入GPT-4中作為生成評判時的參考;此外,這里還觀察到在部分樣本上場景評估標準的加入會限制GPT-4發現回復中特殊的不足之處,因此研究者還額外要求其在給定的評估標準之外盡可能地發掘其他的關鍵因素。

最終,會將來自上述兩方面的輸出進行融合與重新排版,得到更加全面、具體且易讀的評判,作為訓練數據的輸出部分,其中對于成對回復比較數據,進一步根據已有的人類偏好標注進行了篩選。

訓練

研究者將來自兩種評估范式的數據合并使用以訓練模型,這使得Auto-J僅通過設置相應的提示詞模板即可無縫切換不同的評估范式。

另外,還采用了一種類似于上下文蒸餾的(context distillation)技術,在構建訓練序列時刪去了GPT-4用以參考的場景評估標準,僅保留了輸出端的監督信號。

在實踐中發現這能夠有效增強Auto-J的泛化性,避免其輸出的評判僅限制在對評估標準的同義重復上而忽略回復中具體的細節。

同時,對于成對回復比較數據部分,還采用了一個簡單的數據增強方式,即交換兩個回復在輸入中出現的順序,并對輸出的評判文本進行相應的重寫,以盡可能消除模型在評估時的位置偏好。

實驗和結果

針對Auto-J所支持的多個功能,分別構建了不同的測試基準以驗證其有效性:

在成對回復比較任務上,評估指標為與人類偏好標簽的一致性,以及在交換輸入中兩個回復的順序前后模型預測結果的一致性。

可以看到Auto-J在兩個指標上均顯著超過了選取的基線模型,僅次于GPT-4。

用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源
用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源

△成對回復比較任務的結果

在單回復評論生成任務上,將Auto-J生成的評論與其他模型的評論進行了一對一比較,可以看到不管是基于GPT-4的自動比較還是人類給出的判決,Auto-J所生成的評論都顯著優于大部分基線,且略微優于GPT-4。

用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源

△Auto-J在單回復評論生成任務上相比基線的勝率

研究者還探索了Auto-J作為獎勵模型(Reward Model)的潛力。

在常用的檢測獎勵模型有效性的Best-of-N設定下(即基座模型生成多個候選答案,獎勵模型根據自身輸出選擇最佳回復),Auto-J給出的單回復打分比各類基線模型能選出更好的回復(以GPT-4評分為參考)。

同時,其打分也顯示了與GPT-4打分更高的相關性。

用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源

△不同模型作為獎勵模型的表現

最后,開發者也探究了Auto-J在系統級別的評估表現。

對AlpacaEval(一個流行的基于GPT-4評估的大模型排行榜)上提交的開源模型使用Auto-J的單樣本打分進行了重新排序。

可以看到,基于Auto-J的排序結果與GPT-4的排序結果有極高的相關性。

用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源
用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源

△Auto-J與GPT-4對AlpacaEval排行榜提交的開源模型排序之間的相關性及具體排名數據

作者總結和展望

總結來說,GAIR研究組開發了一個具有 130 億參數的生成式評價模型 Auto-J,用于評估各類模型在解決不同場景用戶問詢下的表現,并旨在解決在普適性、靈活性和可解釋性方面的挑戰。

實驗證明其性能顯著優于諸多開源與閉源模型。

此外,也公開了模型之外的其他資源,如模型的訓練和多個測試基準中所使用的數據,在構建數據過程中得到的場景定義文件和參考評估標準,以及用以識別各類用戶問詢所屬場景的分類器。

該項目具體的論文、主頁信息如下:

論文地址:https://arxiv.org/abs/2310.05470
項目地址:https://gair-nlp.github.io/auto-j/
代碼地址:https://github.com/GAIR-NLP/auto-j

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
成人av电影在线| 国产有色视频色综合| 992tv成人免费观看| 欧美一区二区三区影院| 日韩欧美在线免费观看视频| 中文字幕国产亚洲2019| 亚洲欧美日韩区| 亚洲亚裔videos黑人hd| 老妇喷水一区二区三区| 少妇献身老头系列| 亚洲黄色一区二区三区| 国产视频精品网| 国产中文字幕亚洲| 日韩资源在线观看| 亚洲人成在线观看网站高清| 国产精品一区二区视频| 免费日本视频一区| 精品中文字幕一区二区| 一区二区三区鲁丝不卡| 丝袜亚洲欧美日韩综合| 在线观看av中文字幕| 国产精品初高中害羞小美女文| 国产网站一区二区| 日韩欧美成人一区| 久久久久久久久久久网站| 九色精品免费永久在线| 中文字幕日韩一区二区三区| 亚洲一区二区三区四区视频| 精品国产一区二区国模嫣然| 亚洲综合清纯丝袜自拍| 99久久免费国产| 美女久久久久久久久久久| 免费黄色日本网站| 国产熟妇搡bbbb搡bbbb| 天天综合永久入口| 97成人精品区在线播放| 日韩熟女一区二区| 伊人青青综合网站| 中文字幕在线视频一区二区| 一区二区三区在线免费观看视频| 日韩一区精品视频| av在线不卡观看免费观看| 亚洲人在线视频| 亚洲精品久久久久国产| 欧美在线综合视频| 欧美性jizz18性欧美| 亚洲国产综合人成综合网站| 国产精品久久久久久久久久久久久久| 天堂中文视频在线| 久久久久久久蜜桃| 中文字幕五月欧美| 成人午夜视频在线观看免费| 9人人澡人人爽人人精品| 免费在线观看污污视频| 国产日本亚洲高清| 国产精品三级美女白浆呻吟| 国产成人精品视频免费看| 欧美色图亚洲视频| 成人免费av资源| 亚洲欧美精品suv| 亚洲影视在线观看| 一区二区三区日韩欧美| 精品国产鲁一鲁一区二区张丽 | 婷婷六月综合网| 欧美日韩免费一区| 国产精品国模在线| 日韩黄色精品视频| 国产高清视频免费观看| 能在线观看的av| 亚洲精选在线视频| 久久久久亚洲av无码专区桃色| 国产亚洲成av人片在线观看桃| 欧洲一级黄色片| 亚洲成人中文字幕在线| 天堂va蜜桃一区二区三区| 天天射天天操天天干| 久久综合色8888| 国产精品一区二区三区久久| 一区二区三区黄色| 久久久无码精品亚洲国产| 国产 日韩 欧美在线| 一区二区三区视频| 国产精品国产a| 国产一二三区av| 91精品国产色综合久久ai换脸 | 国产精品久久久久久无人区| 国产美女91呻吟求| 激情都市一区二区| 国产日韩欧美电影在线观看| 99久久99久久久精品棕色圆| 欧美第一淫aaasss性| 91精品久久久久久久久| 亚洲春色一区二区三区| 国产日韩av在线播放| 成人av无码一区二区三区| 88xx成人精品| 精品人妻av一区二区三区| 性欧美视频videos6一9| 在线播放精品视频| 国产精品免费在线免费 | 91麻豆精品国产综合久久久久久| 三年中国国语在线播放免费| 99国产精品久久久久| 亚洲成人精品久久久| 中文在线免费看视频| 91麻豆精品91久久久久久清纯| 国产精品视频第一页| 国产美女永久无遮挡| 99re6这里只有精品视频在线观看| 成人免费激情视频| 巨乳诱惑日韩免费av| 亚洲激情在线观看视频免费| 国产一级片播放| 亚洲高清三级视频| 欧美成人午夜激情| 91亚洲免费视频| 视频一区二区三区在线| 日韩一区二区电影| 天天干在线观看| 欧美视频小说| 玖玖玖国产精品| 日韩久久精品一区二区三区| 红桃视频成人在线观看| 国产精品jvid在线观看蜜臀| 久久精品无码人妻| 亚洲第一偷拍网| 中文字幕在线视频播放| 偷窥少妇高潮呻吟av久久免费| 亚洲一区二区精品在线| 国产一区久久久| 亚洲xxxx3d| 免费成人在线看| 国产精品av电影| 国产精品亚洲lv粉色| 欧美老女人性视频| 久久久久久不卡| 久久手机精品视频| 久久久久久久久久影院| 亚洲欧洲日韩精品| 欧美偷拍一区二区| 一级黄色录像在线观看| 亚洲综合色自拍一区| 欧美色图色综合| 中文字幕一区二区三区蜜月| 正在播放一区| 91看片淫黄大片一级| 四虎一区二区| 97精品国产97久久久久久久久久久久| 国产综合18久久久久久| 天堂精品中文字幕在线| 91免费版网站在线观看| 美国欧美日韩国产在线播放| 国产麻豆日韩| 国产福利视频一区二区三区| 欧美区高清在线| 26uuu亚洲综合色欧美| 麻豆视频传媒入口| 中文字幕亚洲欧美在线不卡| 欧美色图另类小说| 岛国视频午夜一区免费在线观看| 免费在线观看污网站| 在线亚洲精品福利网址导航| 日本xxxx裸体xxxx| 亚洲黄色av网站| 国产极品美女高潮无套嗷嗷叫酒店| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 国产乱子轮精品视频| 日韩免费中文专区| 国产日韩欧美制服另类| 女性隐私黄www网站视频| 日韩欧美一区视频| 超碰97在线资源站| 日韩高清av在线| 久久9999久久免费精品国产| 久久99精品国产99久久6尤物| 99久久久国产精品无码免费| 高清国语自产拍免费一区二区三区 | 精品视频123区在线观看| 国产交换配乱淫视频免费| 在线播放国产一区二区三区| 亚洲视屏在线观看| 亚洲专区在线视频| 成人午夜电影小说| 欧美老熟妇喷水| 欧美日韩成人一区二区| 久一视频在线观看| 国产精品高潮呻吟视频| 粉嫩在线一区二区三区视频| 欧美亚洲精品一区二区| 欧美日韩免费在线视频| 国产亚洲成人av| 国产在线视频不卡| 久久这里只有精品首页| 中文字幕在线视频一区二区| 国产香蕉精品视频一区二区三区 | 中日韩精品视频在线观看| 2019国产精品自在线拍国产不卡| 青青草国产成人99久久| 日本阿v视频在线观看| 欧美性猛交xxxx黑人交| 国产一级久久久| 成人黄色免费网站在线观看| 久久久久久97三级| 国产又粗又长又爽| 欧美激情国内偷拍| 国产一区不卡在线| 色婷婷.com| 中文字幕一区二区三区电影| 香蕉av一区二区三区| 天天爱天天做天天操| 这里只有精品99re| 一区二区三区免费在线| 色综合久久av| 欧美羞羞免费网站| 精产国品一区二区| 日本三级中国三级99人妇网站| 精品久久久久久久久国产字幕 | 亚洲免费影视第一页| 亚洲伦理在线观看| 亚洲精品久久久久久久蜜桃臀| 日韩一区二区三区视频| www.国产免费| 欧美国产亚洲一区| 在线播放国产一区中文字幕剧情欧美 | 亚洲桃花岛网站| 麻豆91小视频| 国产一级免费大片| 欧美一区二区三区免费观看视频| 免费在线一区二区三区| 99久久久精品免费观看国产| 亚洲精品国产a| 精品国产欧美日韩不卡在线观看 | 国产又黄又粗视频| 国产欧美日韩精品在线观看| 1024成人网| 国产系列精品av| 亚欧洲精品在线视频免费观看| 3751色影院一区二区三区| 亚洲国产999| 亚洲少妇第一页| 午夜精品久久久久久久白皮肤| 久久久精品中文字幕麻豆发布| 五月激情四射婷婷| 久久久影院一区二区三区| 欧美日韩国产成人在线91 | 国产精品成人免费观看| 欧美日韩另类丝袜其他| 精品国产免费一区二区三区香蕉| 日本中文在线一区| 久久久久国产精品区片区无码| 91免费版网站入口| 91久久精品网| 天堂av在线一区| 欧美色图亚洲激情| 开心色怡人综合网站| 精品盗摄一区二区三区| 国产美女在线观看一区| 精品无码人妻一区二区免费蜜桃| aa成人免费视频| 日韩一区二区在线观看| 激情五月婷婷综合网| 91中文字幕永久在线| 精品综合在线| 国产一区二区三区久久精品| 久久久影视传媒| 久久久久在线视频| 天天影视综合色| 国产精品偷伦一区二区| 欧美色网一区二区| 极品少妇一区二区三区精品视频| 加勒比综合在线| 午夜精品一区二区在线观看的| 亚洲天堂男人的天堂| 亚洲国产精品黑人久久久| 国产精品sm调教免费专区| 簧片在线免费看| 97久久人人超碰caoprom欧美| 日韩欧美国产麻豆| 久久这里只有精品6| 中文字幕一区二区三区波野结 | 欧美成人久久久免费播放| 一区二区三区视频| 欧美高清不卡在线| 91黄视频在线观看| 狠狠色丁香婷综合久久| 日本妇女毛茸茸| 2022亚洲天堂| 97人人模人人爽人人喊38tv| 日韩毛片在线看| 亚洲欧美福利一区二区| 久久九九国产| 麻豆国产尤物av尤物在线观看| 成人免费aaa| 99在线看视频| 久久色免费在线视频| 午夜影视日本亚洲欧洲精品| 韩国精品在线观看| 中文字幕国产在线观看| 国产精品一区二区在线免费观看| 日韩欧美国产二区| 日本精品视频在线| 日韩国产精品一区| 欧美日韩国产专区| 成人av电影在线| 精品国产99久久久久久宅男i| 蜜桃无码一区二区三区| www.99热这里只有精品| 99re资源| 欧美国产日韩一区| 欧美mv日韩mv| 一区二区三区高清在线| 老司机一区二区| 在线免费观看一区二区| 一级二级黄色片| 亚洲人辣妹窥探嘘嘘| 视频三区二区一区| 国产日韩在线观看av| 日韩在线观看免费网站 | 国产精品国模大尺度视频| 久久久精品五月天| 久久久成人免费视频| 国产免费无遮挡吸奶头视频| wwwwww.色| 99热这里只有精品7| 国产传媒一区| 国产91在线视频| www.亚洲成人| 国产在线免费av| 国产欧美日韩精品a在线观看| 中文字幕 视频一区| 男人的天堂官网| 网站一区二区三区| 四虎一区二区| 肥熟一91porny丨九色丨| 日韩精品三区四区| 久久国产精品系列| 90岁老太婆乱淫| 午夜视频在线观| 成人午夜视频在线观看免费| 欧美日韩国产一二| 91精品视频播放| 91国内免费在线视频| 色老头一区二区三区在线观看| 日韩视频免费观看高清在线视频| 亚洲一区二区av在线| 欧美国产在线观看| 9l国产精品久久久久麻豆| 蜜臀av一区二区三区| 人妻少妇精品无码专区| 91尤物国产福利在线观看| 国产一级在线视频| 国产黄在线免费观看| 国产真人做爰视频免费| 国产在线观看无码免费视频| 99国产精品免费视频| 热久久精品国产| 国自产拍偷拍精品啪啪一区二区| 影音先锋欧美在线| 一区精品在线| 亚洲国产午夜伦理片大全在线观看网站| 国产在线高清精品| 成人网址在线观看| 91精品视频在线看| 91亚洲国产成人精品性色| 国产精品爽爽爽| 国产欧美在线观看| 成人国产在线视频| 亚洲综合最新在线| 国产精品12| 精品国产二区在线| 蜜桃av久久久亚洲精品| 欧美三级华人主播| 日韩高清专区| 吴梦梦av在线| 强开小嫩苞一区二区三区网站| 亚洲高清视频在线观看| 亚洲精品一区二区毛豆| youjizz.com亚洲| 老司机午夜网站| 女人喷潮完整视频| av在线无限看| 日本精品一二三| www.自拍偷拍| 粉嫩av性色av蜜臀av网站| 日本一区二区欧美| 人人妻人人爽人人澡人人精品| 91久久久久久久久久久久| 国产免费高清视频| 亚洲欧美日韩免费| 久久狠狠亚洲综合| 99re8在线精品视频免费播放| 亚洲国产高清aⅴ视频| 亚洲国产日韩a在线播放性色| 欧美丝袜第一区| 日韩一区二区在线免费观看| 亚洲第一中文字幕| 中文日韩在线观看| 日本久久亚洲电影| 91福利视频导航| 在线看视频不卡| 免费看a级黄色片| xxxwww国产| 国产第一页在线播放| 国产农村老头老太视频| 美洲天堂一区二卡三卡四卡视频 | 国产在线视频第一页| 97成人在线观看| 国内精品第一页| 中文字幕亚洲精品在线观看 | 亚洲三级视频网站|