色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

吃“有毒”數據,大模型反而更聽話了!來自港科大&華為諾亞方舟實驗室

從錯誤中學習的對齊框架

港科大&華為諾亞方舟實驗室

量子位 | 公眾號 QbitAI

現在,大模型也學會“吃一塹,長一智”了。(手動狗頭)

來自香港科技大學和華為諾亞方舟實驗室的最新研究發現:

相比于一味規避“有毒”數據,以毒攻毒,干脆給大模型喂點錯誤文本,再讓模型剖析、反思出錯的原因,反而能夠讓模型真正理解“錯在哪兒了”,進而避免胡說八道。

吃“有毒”數據,大模型反而更聽話了!來自港科大&華為諾亞方舟實驗室

具體而言,研究人員提出了“從錯誤中學習”的對齊框架,并通過實驗證明:

讓大模型“吃一塹,長一智”,在糾正未對齊的模型方面超越了SFT和RLHF的方法,而且在對已對齊模型進行高級指令攻擊的防御方面也具有優勢

一起來看詳情。

從錯誤中學習的對齊框架

現有的大語言模型對齊算法主要歸為兩大類:

  • 有監督的微調(SFT)
  • 人類反饋的強化學習(RLHF)

SFT方法主要依賴于海量人工標注的問答對,目的是使模型學習“完美的回復”。但其缺點在于,模型很難從這種方法中獲得對“不良回復”的認知,這可能限制了其泛化能力。

RLHF方法則通過人類標注員對回復的排序打分來訓練模型,使其能夠區分回復的相對質量。這種模式下,模型學會了如何區分答案的高下,但它們對于背后的“好因何好”與“差因何差”知之甚少。

總的來說,這些對齊算法執著于讓模型學習“優質的回復”,卻在數據清洗的過程中遺漏了一個重要環節——從錯誤中汲取教訓。

能不能讓大模型像人類一樣,“吃一塹,長一智”,即設計一種對齊方法,讓大模型既能從錯誤中學習,又不受含有錯誤的文本序列影響呢?

吃“有毒”數據,大模型反而更聽話了!來自港科大&華為諾亞方舟實驗室

△“從錯誤中學習”的大語言模型對齊框架,包含4個步驟,分別是(1)錯誤誘導(2)基于提示指引的錯誤分析(3)無引導的模型微調(4)基于提示引導的回復生成

香港科技大學和華為諾亞方舟實驗室的研究團隊對此進行了實驗。

通過對Alpaca-7B、GPT-3和GPT-3.5這三個模型的實驗分析,他們得出了一個有趣的結論:

對于這些模型,識別錯誤的回復,往往比在生成回復時避免錯誤來得容易

吃“有毒”數據,大模型反而更聽話了!來自港科大&華為諾亞方舟實驗室

△判別比生成更容易

并且,實驗還進一步揭示,通過提供適當的指導信息,例如提示模型“回復中可能存在錯誤”,模型識別錯誤的準確性可以得到顯著提升。

基于這些發現,研究團隊設計了一種利用模型對錯誤的判別能力來優化其生成能力的全新對齊框架。

對齊流程是這樣的:

(1)錯誤誘導

這一步的目標是誘導模型產生錯誤,發現模型的弱點所在,以便后續進行錯誤分析和修正。

這些錯誤案例可以來自于現有的標注數據,或者是模型在實際運行中被用戶發現的錯例。

該研究發現,通過簡單的紅隊攻擊誘導,例如向模型的指令中添加某些誘導性關鍵字(如“unethical”和“offensive”),如下圖(a)所示,模型往往會產生大量不恰當的回復。

(2)基于提示引導的錯誤分析

當收集到足夠多包含錯誤的問答對后,方法進入第二步,即引導模型對這些問答對進行深入分析。

具體來說,該研究要求模型解釋為什么這些回復可能是不正確或不道德的。

如下圖(b)所展示,通過為模型提供明確的分析指導,比如詢問“為什么這個答案可能是錯誤的”,模型通常能給出合理的解釋。

(3)無引導性的模型微調

在收集了大量的錯誤問答對及其分析后,該研究使用這些數據來進一步微調模型。除了那些包含錯誤的問答對,也加入了正常的人類標注問答對作為訓練數據。

如下圖(c)所示,在這一步驟中,該研究并沒有給模型任何關于回復中是否包含錯誤的直接提示。這樣做的目的是鼓勵模型自行思考、評估并理解出錯的原因。

(4)基于提示引導的回復生成

推理階段采用了基于引導的回復生成策略,明確提示模型產生“正確的、符合道德且無冒犯性”的回復,從而確保模型遵守道德規范,避免受到錯誤文本序列影響。

即,在推理過程中,模型基于符合人類價值觀的生成指導,進行條件生成,從而產生恰當的輸出。

吃“有毒”數據,大模型反而更聽話了!來自港科大&華為諾亞方舟實驗室

△“從錯誤中學習”的大語言模型對齊框架指令示例

以上對齊框架無需人類標注以及外部模型(如獎勵模型)的參與,模型通過利用自身對錯誤的判別能力對錯誤進行分析,進而促進其生成能力。

就像這樣,“從錯誤中學習”可以準確識別用戶指令當中的潛在風險,并做出合理準確的回復:

吃“有毒”數據,大模型反而更聽話了!來自港科大&華為諾亞方舟實驗室

實驗結果

研究團隊圍繞兩大實際應用場景展開實驗,驗證新方法的實際效果。

場景一:未經過對齊的大語言模型

以Alpaca-7B模型為基線,該研究采用了PKU-SafeRLHF Dataset數據集進行實驗,與多種對齊方法進行了對比分析。

實驗結果如下表所示:

當保持模型的有用性時,“從錯誤中學習”的對齊算法在安全通過率上相比SFT、COH和RLHF提高了大約10%,與原始模型相比,提升了21.6%

同時,該研究發現,由模型自身產生的錯誤,相較于其他數據源的錯誤問答對,展現出了更好的對齊效果。

吃“有毒”數據,大模型反而更聽話了!來自港科大&華為諾亞方舟實驗室

△未經過對齊的大語言模型實驗結果

場景二:已對齊模型面臨新型指令攻擊

研究團隊進一步探索了如何加強已經過對齊的模型,以應對新出現的指令攻擊模式。

這里,該研究選擇了ChatGLM-6B作為基線模型。ChatGLM-6B已經經過安全對齊,但面對特定指令攻擊時仍可能產生不符合人類價值觀的輸出。

研究人員以“目標劫持”這種攻擊模式為例,并使用含有這一攻擊模式的500條數據進行了微調實驗。如下表所示,“從錯誤中學習”的對齊算法在面對新型指令攻擊時展現出了強大的防御性:即使只使用少量的新型攻擊樣本數據,模型也能成功保持通用能力,并在針對新型攻擊(目標劫持)的防御上實現了16.9%的提升。

實驗還進一步證明,通過“從錯誤中學習”策略獲得的防御能力,不僅效果顯著,而且具有很強的泛化性,能夠廣泛應對同一攻擊模式下的多種不同話題。

吃“有毒”數據,大模型反而更聽話了!來自港科大&華為諾亞方舟實驗室

△經過對齊的模型抵御新型攻擊

論文鏈接:
https://arxiv.org/abs/2310.10477

— 完 —

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
伦理中文字幕亚洲| 亚洲一区精品在线| 久久精品一区二区三| 久久影视中文粉嫩av| 国产精品天干天干在观线| 国精产品一区二区三区| 国产欧美日韩小视频| 天天综合天天综合| 96精品久久久久中文字幕| 99re这里都是精品| 国产18无套直看片| av电影网站在线观看| 亚洲一区二区在线看| 欧美专区中文字幕| 国内不卡一区二区三区| 亚洲iv一区二区三区| 久久另类ts人妖一区二区| 日本精品国语自产拍在线观看| 亚洲精品国产系列| 人妻少妇被粗大爽9797pw| 日本熟妇人妻中出| 国产黄色网址在线观看| 国产在线视频在线观看| 亚洲av无码国产精品永久一区| 国产亚洲精品美女久久久| 国产一区二区三区三区在线观看| 欧美激情a在线| 国产精品免费久久久| 欧美高清视频一区二区三区在线观看 | 色婷婷av一区二区三区大白胸| 欧美日韩小视频| 99精品视频在线播放观看| 国产精品无遮挡| 在线视频一区二区免费| 亚洲欧美日韩精品久久| 91高清在线免费观看| 国产精品对白一区二区三区| 欧美精品卡一卡二| 这里只有精品在线观看视频| 91精品少妇一区二区三区蜜桃臀| 亚洲一区中文字幕永久在线| 免费观看一区二区三区毛片| 久久中文精品| 欧美国产日韩在线观看| 欧美日韩在线三区| 久99九色视频在线观看| 国产视频一区二区不卡| 50路60路老熟妇啪啪| 自拍偷拍第9页| 开心激情五月网| 精品国产无码一区二区| 久久久99精品久久| 欧美一区二区三区在线观看视频| 久久久亚洲天堂| 欧美精品欧美精品系列c| 中文字幕资源在线观看| 国产又爽又黄的视频| 国产精品一品二品| 欧美性生交片4| 九九热这里只有精品免费看| 日韩精品一区二区三区色偷偷| 在线免费看v片| 国产成人精品777777| 久久精品国产77777蜜臀| 性感美女极品91精品| 日韩有码在线播放| 日本不卡二区高清三区| 国产麻豆剧传媒精品国产av| 7777女厕盗摄久久久| 精品日韩一区二区三区| 91在线视频成人| 手机看片福利盒子久久| 免费黄色av片| 国产精品毛片无遮挡高清| 日韩黄色av网站| 乱色588欧美| 91精品人妻一区二区三区蜜桃欧美| 国产绿帽刺激高潮对白| 一区二区三区中文免费| 欧美成人午夜视频| 人人妻人人澡人人爽欧美一区| 少妇人妻好深好紧精品无码| 麻豆91小视频| 日韩欧美在线1卡| 91亚洲国产精品| 国产十八熟妇av成人一区| 国产女人高潮的av毛片| 亚洲国产精品久久久久秋霞影院| 欧美激情手机在线视频 | 欧美体内she精视频| 国产成人精品一区二区在线| 性猛交ⅹ×××乱大交| 国产乱码久久久| 国产高清第一页| 一区二区三区不卡在线观看| 欧美极品少妇xxxxⅹ免费视频| 黄色国产一级视频| 亚洲天堂久久久久| 亚洲成人av中文| 国产成人精品电影久久久| 亚州精品一二三区| 丰满人妻一区二区三区四区53| 色94色欧美sute亚洲线路二| 成人在线观看av| 人妻视频一区二区| aaa欧美日韩| 欧美丰满老妇厨房牲生活| 亚洲性生活网站| 亚洲av成人精品毛片| 69精品人人人人| 亚洲欧美日韩国产成人综合一二三区| 国产亚洲欧美精品久久久久久| 国产精品久久久久久久久久免费看| 性欧美暴力猛交69hd| 韩国三级与黑人| 国产精品99久久久久久有的能看| 有码中文亚洲精品| 无码无遮挡又大又爽又黄的视频| 亚洲爱情岛论坛永久| 欧美一卡2卡三卡4卡5免费| 亚洲精品自在在线观看| 国产精品无码粉嫩小泬| 欧美日韩一区在线| 国产手机视频在线观看| 国产免费一区二区三区最新不卡| 欧美片网站yy| 少妇熟女一区二区| 丰满肉肉bbwwbbww| 亚洲精品天天看| 在线观看av日韩| 粉嫩av一区二区三区在线播放| 欧美日韩ab片| 国产精久久一区二区三区| 欧美激情综合在线| 成人免费淫片aa视频免费| 中文字幕av免费在线观看| 精品欧美国产一区二区三区| 午夜老司机精品| 99热这里只有精品在线| 国产视频精品免费播放| 亚洲图色中文字幕| 成人动漫一区二区| 国产精品一区二区三区在线播放| fc2ppv在线播放| 亚洲h精品动漫在线观看| 秋霞在线观看一区二区三区| 91成年人视频| 亚洲色图欧美偷拍| 国产伦精品一区二区三区视频黑人| 久草手机在线观看| 日韩精品一区二区三区三区免费| 日韩精品 欧美| 成人午夜又粗又硬又大| 成人久久久久久久| 一级黄色在线观看| 亚洲图片制服诱惑| 日韩成人av一区二区| 国产精品理论片在线观看| 久久涩涩网站| 日韩 欧美一区二区三区| 97视频人免费观看| 天海翼一区二区| 五月婷婷色丁香| 国产一区二区三区免费| 国产精品99导航| 无码aⅴ精品一区二区三区| 亚洲偷熟乱区亚洲香蕉av| 漂亮人妻被黑人久久精品| 亚洲高清免费一级二级三级| 每日在线观看av| 久久久影院官网| 色吧亚洲视频| 国产成人免费xxxxxxxx| 99久久一区三区四区免费| 亚洲av无码乱码国产麻豆| 午夜精品免费视频| 亚洲欧美自拍视频| 久久久国产精品一区| 日本青青草视频| 日韩av最新在线观看| 欧美成人午夜精品免费| 欧美日韩一区二区三区四区五区 | 欧美成年人视频网站欧美| 欧美精品久久久久性色| 亚洲精品一区中文字幕乱码| 欧美自拍偷拍网| 亚洲成人av片| www深夜成人a√在线| 亚洲护士老师的毛茸茸最新章节| 国产精品无码永久免费不卡| 日韩一区二区在线播放| 3d动漫精品啪啪一区二区下载 | 亚洲国产成人不卡| 懂色av中文一区二区三区| 日本一区二区三区四区在线观看 | 国产午夜在线播放| 日韩中文字幕久久| 五月天婷婷导航| 97精品久久久| 欧美一区二区黄片| 亚洲最大成人在线| 韩国欧美国产1区| 国产高清精品一区二区| 风间由美性色一区二区三区| 一级一片免费播放| 亚洲日本电影在线| 天堂网成人在线| 日韩一区二区电影在线| 极品盗摄国产盗摄合集| 欧美成人合集magnet| 国产av一区二区三区| 51精品国产人成在线观看| 国产一区二区在线观看视频| 四虎精品欧美一区二区免费| 亚洲综合一区二区三区| 中文字幕无码人妻少妇免费| 国产亚洲精品高潮| 国产一区二区在线播放视频| 91视频网页| 国产亚洲午夜高清国产拍精品| 麻豆av免费在线| 欧美一卡二卡在线观看| 欧美一级视频免费观看| 国产精品久久久久久久久久新婚 | 欧美日韩精品在线观看视频| 欧美多人爱爱视频网站| 久久久久国产精品一区三寸| 在线观看免费高清视频97| 日韩xxx视频| 国产美女精品久久久| 欧美国产在线观看| 国产乱淫av片| 色婷婷av一区二区三区在线观看| av在线免费在线观看| 久久亚洲综合网| 亚洲欧美电影院| 欧美极品jizzhd欧美18| 日本乱人伦a精品| 丰满岳乱妇一区二区三区| 在线观看av日韩| 亚洲欧洲免费视频| 亚洲精品字幕在线| 正在播放精油久久| 欧美日韩一区中文字幕| 超碰在线观看91| 免费久久99精品国产自| 天天免费综合色| 久久久久久久9999| 91色p视频在线| 亚洲免费观看高清在线观看| 色一情一交一乱一区二区三区| 久久99国产精品自在自在app| 久久成人免费网| 精品国产一区二区三区久久久久久 | 亚洲黄色www网站| 亚洲乱码在线观看| 香港三级日本三级a视频| 91精品免费在线观看| 亚洲熟妇无码久久精品| 亚洲成人一区二区三区| 欧美视频日韩视频在线观看| 国产偷人爽久久久久久老妇app | 81精品国产乱码久久久久久| 成人av网址在线观看| 国内精品免费视频| 欧美极品xxxx| 久久久www成人免费毛片麻豆| 国产麻豆天美果冻无码视频 | 国产一二三四区在线| 国产精品啪视频| 亚洲一区在线视频| 国产成人无码av| 一区二区三区四区| 亚洲护士老师的毛茸茸最新章节| 免费在线观看精品| 蜜桃色一区二区三区| 国产成人精品视频在线| 亚洲激情一二三区| 羞羞影院体验区| 欧美日韩视频免费| 色小说视频一区| 国产欧美一区二区三区网站| 国产大学生自拍| 亚洲免费久久| 亚洲欧美国产一区二区三区| 国产精一品亚洲二区在线视频| 波多野结衣中文字幕在线播放| 51视频国产精品一区二区| 亚洲人成精品久久久久久| 91香蕉在线视频| 日韩欧美一区三区| 国产+人+亚洲| 一区二区三区四区激情| 波多野结衣视频在线看| 亚洲爆乳无码专区| 91成人在线观看国产| 亚洲最大的成人av| www精品国产| 真实乱偷全部视频| 99九九视频| 亚洲国产日韩欧美在线99| 国产不卡在线一区| 欧美成人精品一区二区免费看片| 400部精品国偷自产在线观看| 少妇精69xxtheporn| 欧美激情中文字幕| 国产精品自拍第一页| 欧美一级片中文字幕| 国产精品成熟老女人| 色域天天综合网| 精品亚洲国内自在自线福利| 国产一区在线观看免费| 久久久久久av无码免费网站下载| 久久久久亚洲精品国产| 精品国产91久久久久久老师| 视频一区二区欧美| 国产精品综合激情| 国产毛片久久久久久国产毛片| 久久综合久中文字幕青草| 亚洲成精国产精品女| 久久婷婷亚洲| 免费在线观看一级片| 欧美女人性生活视频| 成人国产精品日本在线| 日韩精品免费综合视频在线播放| 国产精品欧美一区二区三区| 亚洲第一精品网站| 三上悠亚影音先锋| 97视频在线免费| 国产一区二区视频在线观看| 日韩精品免费视频| 午夜精品成人在线视频| 国产做a爰片久久毛片| 天堂在线免费观看视频| 久久久久久久久久久影视| 色中色综合成人| 日本aⅴ大伊香蕉精品视频| 日韩欧美视频一区| 亚洲欧洲中文日韩久久av乱码| 亚洲av成人精品毛片| 麻豆成人在线视频| 无码人妻少妇色欲av一区二区| 色一情一乱一伦一区二区三区丨 | 91精品久久久久久久99蜜桃 | 亚洲免费成人在线| 希岛爱理中文字幕| 自拍偷拍21p| 一本色道婷婷久久欧美| 国产日韩在线亚洲字幕中文| 日韩黄色高清视频| 91精品福利视频| 国产精品女同一区二区三区| 免费视频一区二区| 亚洲最新av网站| 欧美精品久久久久性色| 国产又粗又长又爽| 国产精品wwwww| 亚洲一区二区在线看| 亚洲va欧美va国产综合剧情| 色综合91久久精品中文字幕| 亚洲国内精品在线| 欧美艳星brazzers| 欧美国产一区二区| 福利一区在线观看| 久久亚洲综合| av男人天堂av| 六月丁香婷婷综合| 免费在线观看h片| 国产精品一区二区入口九绯色| 国产一线二线三线在线观看| 中国老女人av| 日韩一本精品| 国产伦精品一区二区三区四区免费 | 北条麻妃在线观看| 亚洲精品永久www嫩草| 国产在线一区二区三区欧美| 国产精品自产拍在线观看中文 | 欧美激情一区二区三区p站| 国产午夜福利在线播放| 中文字幕综合在线观看| 欧美日韩在线高清| 韩国一区二区三区美女美女秀| 国产精品视频地址| 人人爽久久涩噜噜噜网站| 欧美精品久久久久久久| 免费不卡欧美自拍视频| 北条麻妃在线一区二区| 亚洲欧美综合精品久久成人| 日韩av网址在线| 日韩电影第一页| 亚洲电影免费观看| 亚洲成人亚洲激情| 亚洲国产99精品国自产| 欧美一级午夜免费电影| 欧美一区午夜精品| 91精品国产综合久久久久久久| 欧美老肥妇做.爰bbww| 欧美肥胖老妇做爰| 日韩一级高清毛片| 亚洲国产又黄又爽女人高潮的| 欧美一区二区三级| 精品三级在线观看| 日韩精品在线视频| 亚洲人成电影网站色www| 亚洲精品天天看| 久久精品国产99国产精品澳门| 欧美巨大黑人极品精男| 欧美中文字幕在线播放| 成人激情春色网| 美女被啪啪一区二区|