色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

大模型“精細化”對齊,真實性提升25.8%刷新SOTA!token級精準編輯,無需訓練即插即用

雙模塊設計,找準病根對癥下藥

TAE團隊 投稿

量子位 | 公眾號 QbitAI

提升大模型對齊能力新方法,在TruthfulQA任務上真實性指標提升25.8%,刷新當前最優性能!

方法名為Token-Aware Editing (TAE),是一種token感知的推理時表征編輯方法。

該方法首次系統性地從token層面解決了傳統表征編輯技術的問題,無需訓練、即插即用,可廣泛應用于對話系統、內容審核、偏見mitigation等場景。

大模型“精細化”對齊,真實性提升25.8%刷新SOTA!token級精準編輯,無需訓練即插即用

在大模型廣泛應用的時代,如何讓模型輸出更符合人類價值觀(如真實性、無害性、公平性)已成為關鍵挑戰。傳統方法通常依賴大量數據微調,成本高、效率低,且容易引入新風險。

近年來,對大語言模型(LLMs)的內部激活值直接進行編輯,被證明是一種有效的推理時對齊方法,能夠高效抑制模型生成錯誤或有害內容等不良行為,從而確保大語言模型應用的安全性與可靠性。

然而,現有方法忽略了不同token之間的錯位差異,導致對齊方向出現偏差且編輯強度缺乏靈活性。

由此,來自北航的研究團隊在EMNLP 2025上提出了該方法。

未來,團隊計劃將TAE擴展至多維度對齊(如同時優化真實性與無害性),并探索與SFT、RLHF等訓練方法的結合,推動大模型向更安全、可靠的方向發展。

TAE:從“句子”到“詞”的精細化干預

研究團隊指出,以往的表征編輯研究(如ITI、TruthX等)大多在句子級別進行激活值編輯,在編輯方向探尋和內部表征編輯兩個主要階段均存在問題:

  • 方向偏差(Deviant Alignment Direction):僅用最后一個token代表整個句子,信息不全面,學到的編輯方向不準。
  • 編輯強度不靈活(Inflexible Editing Strength):對所有token“一視同仁”地進行編輯,無法精準糾正真正“出錯”的token。
大模型“精細化”對齊,真實性提升25.8%刷新SOTA!token級精準編輯,無需訓練即插即用

為了解決上述問題,團隊提出了Token-Aware Editing (TAE),核心包含兩個模塊:

大模型“精細化”對齊,真實性提升25.8%刷新SOTA!token級精準編輯,無需訓練即插即用

1、Mutual Information-guided Graph Aggregation (MIG)

傳統句子級探針使用最后一個token(通常是或句號等標志符)的激活值來代表整個復雜句子的語義和對齊狀態。然而,盡管LLM的自注意力機制允許最后一個token感知到前面所有token的信息,但這種感知可能存在信息損失和局部理解局限。因此,僅基于它學到的“對齊方向”可能是有偏差的,不是一個普適性的方向。而MIG模塊的目標是增強激活值的表征能力,從而訓練出更優秀的探針,找到更準確的編輯方向。

  • 構建Token關系圖:利用互信息(Mutual Information)量化Token激活值之間的關聯性,構建信息交互圖;
  • 多層次信息聚合:通過多輪圖傳播,融合所有Token的語義信息,生成更具代表性的增強激活表征;
  • 精準對齊方向探測:基于增強表征訓練探測頭,準確識別與對齊相關的干預方向

2、Misalignment-aware Adaptive Intervention (MAI)

在推理干預時,傳統方法對所有token應用相同的編輯強度(α)。但顯然,一個句子中有些token很“安全”(已對齊),有些token則很“危險”(即將導致模型產生不對齊的內容)。用同樣的力度去“推”所有token,要么可能對安全token造成過度干預(可能影響流暢性和有用性),要么可能對危險token的干預力度不足(無法有效糾正錯誤)。MAI模塊的目標是在推理時,為當前正在生成的每個token計算一個自適應的編輯強度A(o_t)。它從兩個維度來感知一個token的“錯位”風險:

  • 雙路錯位評估:從表示錯位估計和預測不確定性量化兩個方面評估token的潛在不確定性程度
  • 動態強度調整:根據錯位程度自適應計算干預強度,高風險token強干預,低風險token弱干預。

最終,TAE方法將兩者結合,實現了比前人方法更精細、更有效、成本更低的推理時對齊干預,在真實性、無害性、公平性等多個對齊維度上都取得了顯著提升。

實驗結果:顯著超越現有方法

團隊選取真實性、有害性和公平性三個典型對齊維度來評估TAE的對齊效果:

大模型“精細化”對齊,真實性提升25.8%刷新SOTA!token級精準編輯,無需訓練即插即用

在評估真實性的TruthfulQA數據集上,TAE在LLaMA-3-8B-Instruct上取得了87.8%的True*Info得分,比之前最好的編輯方法(SEA: 73.2%)提升了14.6個百分點,比原始基線(62.0%)提升了25.8個百分點

大模型“精細化”對齊,真實性提升25.8%刷新SOTA!token級精準編輯,無需訓練即插即用

TAE在去毒任務的RealToxicPrompt上同樣表現卓越,將TP(毒性概率)從基線的0.41大幅降低到0.05,降幅近90%,并且優于所有專門的去毒基線方法(如DESTEIN: 0.13);在公平性任務數據集StereoSet上,TAE將刻板印象分數(SS)從基線的64.8%顯著降低到50.3%,極大地緩解了模型偏見,并且最接近理想的無偏見狀態(50%)。

不僅如此,TAE在不同類型、大小的模型上均表現出顯著增益,如Llama2-7B-Chat, Llama2-13B-Chat, Alpaca-7B和Mistral-7B等。

大模型“精細化”對齊,真實性提升25.8%刷新SOTA!token級精準編輯,無需訓練即插即用

論文鏈接:https://openreview.net/pdf?id=43nuT3mODk

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
国产又大又黄又猛| 日韩欧美国产综合一区| 国产精品看片你懂得| 国产婷婷色一区二区三区在线| 久久久美女艺术照精彩视频福利播放| 91在线视频免费观看| 欧美国产一区二区| 一区二区三区在线视频免费| 懂色av一区二区三区| 欧美日韩精品一区视频| 亚洲国产黄色片| 美日韩精品视频免费看| 欧洲美女免费图片一区| 国产精品国色综合久久| 992tv成人免费观看| 欧美牲交a欧美牲交aⅴ免费下载| 欧美大片久久久| 国产性猛交xx乱| 欧美精品一二三四区| 国产人妖一区二区| 蜜桃av一区二区在线观看| 99精品1区2区| 一本色道a无线码一区v| 亚洲另类欧美自拍| 国产极品jizzhd欧美| 日本视频一区二区在线观看| 日韩一级在线免费观看| 色噜噜在线观看| 国产成人无码精品| 日韩中文欧美在线| 国产精品视频线看| 91精品午夜视频| 欧美黑人一级爽快片淫片高清| 亚洲一区二区三区成人在线视频精品 | 依依成人综合网| 污污视频在线免费看| 久久亚洲综合av| 欧美无乱码久久久免费午夜一区 | 国产精品国产三级国产aⅴ原创| 91福利在线看| 久久99精品国产99久久6尤物| 成人在线观看91| 欧美成人免费高清视频| av最新在线观看| 日韩在线观看视频一区| 国产欧美日韩在线| 精品日韩欧美在线| 国产在线精品一区免费香蕉| 97碰在线视频| 青娱乐国产视频| 免费a级片在线观看| 中文字幕中文字幕一区二区| 日韩亚洲欧美高清| 国产精品白丝jk喷水视频一区| 国产日产欧美一区二区| 你懂得视频在线观看| 天天av天天翘| 色先锋久久av资源部| 97不卡在线视频| 成人免费毛片在线观看| 欧美极品视频在线观看| 国产在线一区观看| 欧美巨大另类极品videosbest | 亚洲综合小说区| 亚洲精品日韩激情在线电影| 337p粉嫩大胆色噜噜噜噜亚洲| 草草草视频在线观看| 18啪啪污污免费网站| 三级影片在线观看欧美日韩一区二区| 亚洲一区二区四区蜜桃| 九九精品在线观看| 97超碰国产精品| 婷婷色中文字幕| 成人精品国产福利| 亚洲黄色www| 精品久久一区二区三区蜜桃| 醉酒壮男gay强迫野外xx| 久久婷婷丁香| 欧美日韩免费观看一区二区三区| 国产精品久久久久久久久免费| 亚欧在线免费观看| 国产按摩一区二区三区| 午夜电影网一区| 国产精品黄色影片导航在线观看| 欧美美女一级片| 午夜精品久久久久久久99老熟妇| 亚欧色一区w666天堂| 先锋资源在线视频| 成人免费毛片视频| 亚洲色图视频网站| 欧美诱惑福利视频| 91插插插影院| 日韩av成人高清| 欧美成人福利视频| 色播五月综合| 久久综合亚洲色hezyo国产| 91丨porny丨蝌蚪视频| 日韩一区二区三区xxxx| 精品视频免费在线播放| 国产乱叫456在线| 色中色一区二区| 动漫一区二区在线| 亚洲怡红院在线观看| 国产清纯白嫩初高生在线观看91| 久久av在线播放| 91女神在线观看| 免费看欧美女人艹b| 亚洲另类激情图| 免费在线观看日韩视频| 神马午夜电影一区二区三区在线观看 | 欧美性猛交xxxxxx富婆| 国产精品中出一区二区三区| 日日噜噜夜夜狠狠久久波多野| 国产目拍亚洲精品99久久精品| 欧美性视频精品| 成人免费看aa片| 欧美国产97人人爽人人喊| 日本欧美中文字幕| 国产日产在线观看| 一区二区三区在线免费播放| 亚洲va码欧洲m码| 久久婷婷一区二区| 亚洲一区二区三区四区在线| 韩国av一区二区三区在线观看| 国产 日韩 欧美大片| 91麻豆免费视频| 不卡的一区二区| 欧美国产精品人人做人人爱| 成人激情av网| 亚洲精品视频网址| 亚洲国产精彩中文乱码av| 精品1卡二卡三卡四卡老狼| 国产欧美精品区一区二区三区| 亚洲国产精品日韩| 亚洲欧美一区二区三区国产精品| 国产一区玩具在线观看| 朝桐光av一区二区三区| 欧美在线看片a免费观看| 免费成年人视频在线观看| 日本大香伊一区二区三区| 亚洲高潮女人毛茸茸| 久久久久久久一| 五月婷婷综合色| 国产无一区二区| 99色精品视频| 久热99视频在线观看| 综合久久久久久| 中文字幕在线观看欧美| 午夜精品在线免费观看| 亚洲国产精品悠悠久久琪琪 | 五月婷婷欧美视频| 超碰av在线免费观看| 中文字幕av一区 二区| 91精品在线看| 三级欧美韩日大片在线看| 亚洲天堂av一区二区| 日韩午夜中文字幕| 国产成人精品网址| 男人的天堂日韩| 欧美一区二区三区不卡| 明星裸体视频一区二区| 日韩免费高清av| 黄色一级a毛片| v8888av| 女性女同性aⅴ免费观女性恋| 久久99九九| 91精品国产91久久久| 国产suv一区二区三区88区| 精品www久久久久奶水| 欧美精品一区二| 久久伊人成人网| 亚洲精品成人自拍| 日韩一区二区三区观看| 57pao国产成永久免费视频| **性色生活片久久毛片| 日本阿v视频在线观看| 亚洲男人的天堂在线观看| 美女流白浆视频| 痴汉一区二区三区| 欧美日韩精品高清| 国产91免费看| 女同性αv亚洲女同志| 男人的天堂狠狠干| 亚洲人成网站在线播放2019| 亚洲影院高清在线| 7777精品视频| 日韩视频在线一区| 99久久综合色| 91嫩草丨国产丨精品| 91亚洲va在线va天堂va国 | 亚洲娇小娇小娇小| 亚洲人成网站在线播| 亚洲在线一区二区三区| 欧美 日韩 国产 成人 在线 91| 天堂一区二区三区| 国产一区二区三区视频在线观看| 欧美偷拍一区二区三区| 欧美日韩视频在线第一区| 亚洲av成人无码久久精品老人| 亚洲视频天天射| 国产树林野战在线播放| 免费视频爱爱太爽了| 免费在线精品视频| 老太脱裤让老头玩ⅹxxxx| 久久精品99国产| 91免费看蜜桃| 亚洲美女在线视频| 国产福利91精品| 日本一区二区不卡在线| 米仓穗香在线观看| 在线日韩精品视频| 国产馆精品极品| 久久久精品视频免费| 永久看看免费大片| 精品www久久久久奶水| 久久成人免费视频| 91精品国产综合久久精品麻豆| 欧美激情一区二区在线| 亚洲免费国产视频| 国产精品av在线| 国产精品对白刺激| 中文字幕精品网| 国产一区二区三区毛片| 国产成人黄色网址| 亚洲人成亚洲人成在线观看| 亚洲国产精品成人久久综合一区| 手机视频在线观看| 欧美性受黑人性爽| 97精品久久久| 亚洲国产欧美久久| 国产精品久久久久久久久免费桃花| 国产乱码一区二区三区四区| 国模精品视频一区二区三区| 亚洲同性同志一二三专区| 波多野结衣黄色| 国产玉足脚交久久欧美| 又大又硬又爽免费视频| 色婷婷精品国产一区二区三区| 色吧影院999| 这里只有精品电影| 日韩一区二区三区四区五区六区| 亚洲视频在线播放| 91精品国产综合久久香蕉的用户体验 | 国产在线视频一区| 亚洲欧美国产精品va在线观看| 欧美刺激脚交jootjob| 狠狠色狠狠色综合日日五| 自拍偷拍亚洲激情| 国产亚洲短视频| 久久青青草原亚洲av无码麻豆| 中文字幕在线亚洲三区| 久久久久久中文| 精品不卡在线视频| 亚洲最大的成人av| 午夜久久福利影院| 亚洲成av人片在线观看无码| 亚洲日本在线看| 椎名由奈av一区二区三区| 国产精品电影院| 日韩av在线免费观看| 国产精品www色诱视频| 国产69精品久久久久久久| 精品国产免费久久| 午夜电影一区二区三区| 欧美性色黄大片手机版| 欧美一区二区视频在线观看2020 | 成人不卡免费av| 26uuu另类欧美亚洲曰本| 国产精品亚洲专一区二区三区| 99久久夜色精品国产网站| 性色av蜜臀av| 国产精品成人免费一区二区视频| 国产激情第一页| 青青青在线视频免费观看| 久久久久99精品成人片| 麻豆av一区二区三区| 亚洲美女搞黄| 久久久免费视频网站| 久久99国产精品一区| 人妻体内射精一区二区三区| 精国产品一区二区三区a片| 国产精品一二三四五| 久久久久久91| 中文字幕在线播放一区| 丁香激情综合五月| 欧美一级国产精品| 日本精品一区二区三区视频 | 欧美最大成人综合网| 17c丨国产丨精品视频| 人人干人人干人人| 中国女人真人一级毛片| 国产精品美女久久| 欧美精三区欧美精三区| 精品免费国产一区二区三区四区| 国产一区香蕉久久| 欧美一级片黄色| 久久久久久久久影院| 日韩黄色片在线观看| 欧美性xxxxx极品娇小| 91成人免费电影| 欧美一卡二卡三卡四卡| 国产精品免费看久久久香蕉| 欧美日韩一区二区三| 国产第一页精品| 一本到不卡免费一区二区| 精品一区2区三区| 国产99久久九九精品无码免费| 欧美视频三区在线播放| 2020国产精品久久精品不卡| 午夜啪啪福利视频| 久久国产在线视频| www毛片com| 国产精品久久久久桃色tv| 亚洲精品网址在线观看| 99精品国产高清在线观看| heyzo亚洲| 女同性恋一区二区三区| 亚洲成人av影片| 亚洲国产精品ⅴa在线观看| 国产精品永久免费在线| 欧美三级午夜理伦三级富婆| 国产不卡av在线播放| 五月天激情综合| 久久精品国产99| a资源在线观看| 久久久久一区| 日韩电影中文字幕一区| 国产精品免费一区二区三区| 亚洲一区二区人妻| 久久亚洲精品毛片| 日本在线视频免费| 亚洲大胆美女视频| 无码人妻一区二区三区精品视频| 成人夜色视频网站在线观看| 一本色道久久88综合日韩精品| 国产对白在线播放| 欧美特黄一级视频| 精品人伦一区二区三区蜜桃免费| 欧美精品在线一区| 色无极影院亚洲| 中文字幕一区视频| 欧美大片在线看| 免费毛片网站在线观看| 国产黄色录像片| 国产成人一区二区精品非洲| 成人黄在线观看| 国产绿帽一区二区三区| 欧美在线一区二区| 成人中心免费视频| 中文字幕在线国产| 亚洲黄色在线视频| 午夜精品亚洲一区二区三区嫩草 | 久久综合九色综合久99| www.亚洲天堂.com| 欧美专区在线观看一区| 伊人国产在线视频| 欧美在线观看18| 中文字幕高清视频| 日韩三级在线免费观看| aaaaaa亚洲| 国内外成人在线| 国产91网红主播在线观看| jizz18女人| 亚洲激情男女视频| 91久久国产自产拍夜夜嗨| 久久夜色精品国产噜噜亚洲av| 亚洲女同一区二区| 爱爱免费小视频| 国产制服丝袜一区| 欧美大胆a视频| 一级特黄a大片免费| 日韩vs国产vs欧美| 欧美一区二区在线免费观看| 国产精品专区一| 亚洲成熟丰满熟妇高潮xxxxx| 久久久久久国产精品免费播放| 国产成人在线免费| 久久精品在线播放| 国产精品21p| 精品免费一区二区三区| 精品蜜桃传媒| 老司机免费视频久久| 国产综合久久久久| 一卡二卡三卡在线| 久久av红桃一区二区小说| 日本丰满大乳奶| 亚洲AV无码成人片在线观看| 国产精品久久久久久久9999| 国产人妻精品一区二区三| 高清视频欧美一级| 真实的国产乱xxxx在线91| 风间由美一区二区三区| 国产精品久久久久永久免费观看 | 亚洲影院污污.| 国产又粗又猛又色又| 久久久久久久成人| 中文字幕av网站| 亚洲精品日韩激情在线电影| 国产精品第九页| 色七七影院综合| 国产视频丨精品|在线观看| 天堂8在线天堂资源bt| 欧美在线观看你懂的| 看全色黄大色黄女片18| 色噜噜狠狠色综合中国| 中日韩av在线播放| 欧美三级电影在线看| 国产女人被狂躁到高潮小说| 欧美巨乳美女视频| 国产精品第6页|