色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

什么會影響大模型安全?NeurIPS’24新研究提出大模型越獄攻擊新基準與評估體系

不僅專注于攻擊,還深入探討了越獄評估

USAIL團隊 投稿

量子位 | 公眾號 QbitAI

全新大語言模型越獄攻擊基準與評估體系來了。

來自香港科技大學(Guangzhou)USAIL研究團隊,從攻擊者和防御者的角度探討了什么因素會影響大模型的安全。

提出攻擊分析系統性框架JailTrackBench

什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系

JailTrackBench研究重點分析了不同攻擊配置對LLMs性能的影響,包括攻擊者的能力、預算、對抗性后綴長度,以及模型的大小、安全對齊情況、系統提示和模板類型。

其研究成果《Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs》現已被NeurIPS D&B 2024接收。

此外,為了全面解決大語言模型的越獄問題,USAIL團隊不僅專注于攻擊,還深入探討了越獄評估這一核心問題。

越獄分析JailTrackBench

近年來,隨著人工智能的迅速發展,尤其是大語言模型(LLMs)的廣泛應用,保障模型的安全性并防止其被惡意利用,已成為一個重要的議題。越獄攻擊通過惡意指令誘導模型生成有害或不道德的內容,對模型的安全性和可靠性構成了嚴峻挑戰。

這種攻擊與防御的博弈,極大地推動了大模型安全性的提升。

在這一背景下,香港科技大學(Guangzhou)USAIL研究團隊從攻擊者和防御者的角度,探討了影響大模型安全性的關鍵因素。

什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系

盡管已有研究揭示了多種越獄攻擊的威脅,現有的評估方法往往過于片面,無法全面涵蓋攻擊與防御兩方面的核心因素。

為此,團隊提出了JailTrackBench,一個全面涵蓋越獄攻擊各個方面的系統性基準測試框架,旨在為研究人員提供一個標準化、全面的評估工具。

什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系△圖1 JailTrackBench框架

通過對七種具有代表性的越獄攻擊和六種防御方法的320項實驗,使用50,000 GPU小時,團隊以標準化的方式評估了這些攻擊方法的效果。

目標模型層面

模型大小(Model Size)

實驗(如圖2所示)中選擇了不同規模的模型(如Llama-7B、Llama-13B、Llama-70B,Qwen1.5-14B等)進行對比,探討模型規模對越獄攻擊的防御能力是否有顯著影響。

實驗結果表明,模型的魯棒性并不與其規模成正比,較大的模型并不總是比較小的模型更具防御能力。

什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系△圖2 模型大小與魯棒性的關系

安全對齊情況(Safety Alignment):

模型的安全能力會被后續的大模型微調所影響。

實驗表明(如圖3所示),經過領域類的微調(fine-tuning)大模型,其安全能力會降低,相比之前沒有微調的模型則更容易受到攻擊。

什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系△圖3 安全對齊情況與模型魯棒性

系統提示(System Prompt)

實驗(如圖4所示)還評估了系統提示(如包含安全提示的系統消息)對模型安全性的影響。結果顯示,包含安全提示的系統消息能夠顯著增強模型的安全性,減少攻擊成功率。

什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系△圖表 4 系統提示與模型類型

模板類型(Template Type)

實驗(如圖5所示)測試了不同提示模板(如零樣本提示與默認提示)對越獄攻擊成功率的影響。結果顯示,使用默認提示的模型比使用零樣本提示的模型更加安全。

什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系△圖5 模版類型與模型魯棒

攻擊者層面

攻擊者能力(Attacker Ability)

攻擊者(如圖6所示)使用不同的模型(如GPT-3.5、GPT-4、Vicuna-13B等)來生成對抗性提示,實驗評估了不同攻擊者模型能力對越獄攻擊成功率的影響。結果表明,攻擊者模型越強,越獄攻擊的成功率越高。

什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系△圖6 攻擊者能力與攻擊效果

對抗性后綴長度(Adversarial Suffix Length)

在針對令牌級別的越獄攻擊中,實驗(如圖7所示)通過調整對抗性后綴的長度(如10、20、30等)來評估其對攻擊成功率的影響。結果表明,較長的對抗性后綴通常能提高攻擊成功率,但超過一定長度后效果趨于平穩。

什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系△圖7 對抗性后綴長度與攻擊效果

攻擊者預算(Attacker Budget)

實驗(如圖8和9所示)探討了攻擊者可以提交的查詢次數對攻擊效果的影響。實驗表明,對于令牌級別的攻擊,攻擊預算越大,攻擊成功率越高;而對于提示級別的攻擊,預算的影響則較為有限。

什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系△圖8 指令級別攻擊的預算
什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系△圖9 提示級別攻擊的預算

攻擊意圖(Attack Intention)

實驗(如圖10所示)設計了多種不同的攻擊意圖(如隱私侵犯、惡意軟件等)來評估其對攻擊成功率的影響。結果表明,不同的攻擊意圖會顯著影響攻擊的成功率,某些攻擊意圖(如經濟損害)更容易成功,而其他意圖(如隱私侵犯)則較難得逞。

什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系△圖10 攻擊者意圖

通過對一些不易察覺的設置進行簡單調整(見表1),包括攻擊者和目標模型,研究發現大模型越獄攻擊的成功率可以從0%飆升至驚人的90%(如圖11所示)。這些設置涵蓋了多個關鍵因素,如目標模型的規模、安全對齊方式、系統提示的使用,以及攻擊者的能力和攻擊預算。

什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系△表格1:不同技巧組合的配置,從弱到強(weak to strong)
什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系△圖11 不同技巧組合對越獄攻擊成功率的顯著影響

越獄評估JAILJUDGE

越獄評估依賴于對模型輸出內容的有害性進行分析,這一任務復雜且充滿不確定性(見圖12)。因此,迫切需要一種系統化的評估方法,幫助研究者和開發者深入了解模型的脆弱性,并持續優化其防御能力。

JAILJUDGE,在此背景下應運而生的。

什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系

由USAIL團隊聯合百度搜索團隊及英國伯明翰大學共同提出,JAILJUDGE旨在彌補現有越獄評估工具的不足,尤其是應對復雜場景下的挑戰。

該評估框架涵蓋廣泛的風險場景,如對抗性越獄查詢、真實世界交互以及多語言環境等。JAILJUDGE的核心創新是引入了多Agent越獄評估框架,借鑒法庭審判的模式,通過多個Agent的協作,實現對越獄判斷過程的明確化和可解釋性。

每個Agent(如判斷Agent、投票Agent和推斷Agent)分工明確,通過協作得出精確的評估結果,并提供解釋性理由。

什么會影響大模型安全?NeurIPS'24新研究提出大模型越獄攻擊新基準與評估體系△圖12:越獄評估:輸入用戶問題和模型回答,判斷大模型是否被越獄

為進一步提高評估效率,USAIL團隊開發了JAILJUDGE Guard,這是一種端到端的越獄評估模型,不需要API調用即可提供細粒度的越獄評分(評分范圍從1到10),并伴隨推理解釋。

JAILJUDGE Guard不僅在評估精度上超越了現有的頂級模型(如GPT-4和Llama-Guard),還在閉源和開源安全模型上展現了強大的評估能力,同時具備更高的效率和更低的成本。

此外,團隊還推出了JailBoost和GuardShield兩大工具,以強化越獄攻擊和防御。實驗表明,JailBoost在零樣本設置下將攻擊成功率提高了約29.24%,而GuardShield則將防御后的攻擊成功率從40.46%大幅降低至0.15%。

未來,團隊計劃進一步擴展JAILJUDGE的功能和應用場景,包括:

  • 動態場景測試:擴展數據集,增加更多動態和實時的越獄攻擊場景,以模擬實際應用中的復雜環境,提升評估的代表性。
  • 跨領域應用:將JAILJUDGE應用于醫療、金融等關鍵行業,評估并保障這些領域中LLMs的安全性。
  • 多模態擴展:探索多模態數據的越獄評估,結合文本、圖像、音頻等多種數據類型,全面評估LLMs在多模態環境下的安全表現。
  • 協作防御機制:開發基于多Agent的協作防御機制,使模型在面對復雜攻擊時能夠自適應進行防御,進一步提升整體安全性。

項目網站:https://secure-intelligence.github.io/
團隊鏈接:https://github.com/usail-hkust

JailTrackBench
論文地址:https://arxiv.org/pdf/2406.09324
代碼:https://github.com/usail-hkust/Bag_of_Tricks_for_LLM_Jailbreaking
JAILJUDGE
論文地址:https://arxiv.org/abs/2410.12855
項目主頁:https://usail-hkust.github.io/Jailjudge
代碼:https://github.com/usail-hkust/Jailjudge
數據集:https://huggingface.co/usail-hkust/JailJudge-guard
端到端越獄評估模型:https://huggingface.co/usail-hkust/JailJudge-guard

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
欧美激情视频免费看| www.欧美日本| chinese国产精品| 欧美日韩免费高清| 久久一级黄色片| 欧美日韩黄色一区二区| 中国男女全黄大片| 欧美sm美女调教| 亚洲婷婷综合网| 成人免费福利在线| 91麻豆文化传媒在线观看| 精品成在人线av无码免费看| 亚洲成人一区二区| 能直接看的av| 国产精品pans私拍| 久久青草欧美一区二区三区| 精品不卡一区二区三区| 亚洲av成人精品一区二区三区| 亚洲精品色婷婷福利天堂| 中文字幕第三页| 国产精品国产一区二区| 亚洲日本在线看| 你懂得视频在线观看| 国产成人aa精品一区在线播放| 国产成人免费视频网站| 潘金莲一级淫片aaaaa| 国产视频亚洲精品| 在线免费观看一区二区| 黄色手机在线视频| 欧美高清一级大片| 久久精品亚洲一区二区三区浴池| 能看毛片的网站| 不卡中文字幕av| 粉嫩aⅴ一区二区三区四区五区| 亚洲ai欧洲av| 国产大片一区二区三区| 91天堂在线观看| 亚洲国产日韩欧美| 在线a免费观看| 日本一卡二卡在线| 久久综合中文色婷婷| 日韩在线观看免费全| 色综合老司机第九色激情| 亚洲人成精品久久久久久| 亚洲av综合色区无码一二三区| 国产河南妇女毛片精品久久久| 国产精品久久婷婷| 无码人妻精品一区二区三区不卡| 免费在线观看日韩| 色噜噜狠狠色综合网| 男人插女人视频在线观看| 黄色录像a级片| 国产精品亚洲成人| 欧美精品激情blacked18| 青青草国产精品视频| 视频国产一区二区| 精品久久久久久中文字幕人妻最新| 精品亚洲乱码一区二区 | 怡红院一区二区三区| 精品中文字幕一区二区小辣椒| 噼里啪啦国语在线观看免费版高清版| 圆产精品久久久久久久久久久| 国产一区二区三区免费观看| 久久精品色妇熟妇丰满人妻| 久久精品亚洲乱码伦伦中文| 久久久影院一区二区三区| 久久久久久激情| 久久国产精品99精品国产| 久久国产生活片100| av一区二区三区在线| 中文字幕佐山爱一区二区免费| 成人精品国产一区二区4080| 日韩专区一卡二卡| 久久成人免费网| 久久中文在线| 天天综合天天色| 国产二区一区| 91精品国产99久久久久久| 午夜精品久久久久久久久久久久久| 91在线中文字幕| 国产激情视频一区二区在线观看 | 中文字幕免费观看一区| 午夜精品一区二区三区视频| 国产一区二区不卡视频在线观看| 亚洲一卡二卡三卡四卡无卡网站在线看| 96成人在线视频| 欧美日韩国产精品一区二区| 国产一线在线观看| 日韩在线视频免费看| 日韩欧美黄色网址| 污污内射在线观看一区二区少妇| 日本三级2019| 999这里只有精品| 成人h动漫精品一区二区下载| 男女性高潮免费网站| 国产在线视视频有精品| 精品国产91乱码一区二区三区 | 激情五月开心婷婷| 免费看欧美女人艹b| 欧美日韩中文一区| 日韩电影在线观看中文字幕| 蜜桃欧美视频| 亚洲理论片在线观看| 日本三级日本三级日本三级极| 丰满少妇一区二区| 91在线porny国产在线看| 55夜色66夜色国产精品视频| 欧美日韩一级在线| 亚洲中文无码av在线| 欧美制服丝袜第一页| 午夜国产不卡在线观看视频| av成人观看| www.五月激情| 成人福利在线视频| 国内精品伊人久久久久影院对白| 91麻豆国产语对白在线观看| 中文字幕影片免费在线观看| 亚洲风情第一页| 色播五月激情综合网| 九九九九精品| 激情av中文字幕| 久青草免费视频| 欧美日韩精品一区二区三区四区 | 久久一区二区三区av| 久章草在线视频| 日本熟妇人妻xxxxx| www.99re6| 亚洲一区3d动漫同人无遮挡| xnxx国产精品| 久久精品国产精品亚洲| 日韩人妻无码一区二区三区| 精品久久久久久久久久国产| 亚洲大尺度视频在线观看| www亚洲欧美| 在线精品视频播放| 欧美天天综合色影久久精品| 国产在线拍揄自揄拍无码视频| 欧美一二三视频| 精品无人码麻豆乱码1区2区| 91亚洲国产成人精品性色| 成人手机在线免费视频| 成人福利在线看| 成人黄色在线播放| 97人妻一区二区精品免费视频| 视频一区免费在线观看| 欧美xxxx老人做受| 国产99久久久久久免费看| 性欧美长视频免费观看不卡| 亚洲午夜激情视频| 亚洲最新在线视频| 男女高潮又爽又黄又无遮挡| 亚洲自拍一区在线观看| 久久精品久久久久| 青青草国产精品亚洲专区无| 三年中国中文在线观看免费播放| 国产精品网站导航| 久久久久免费精品国产| 免费看黄在线看| 亚洲国产一区二区三区青草影视 | 黄色一级免费视频| 国产福利一区在线| 欧美极品少妇xxxxⅹ裸体艺术 | 亚洲成人精品电影在线观看| 亚洲精品日韩一| 亚洲 中文字幕 日韩 无码| 国产成人免费视频| 日韩成人在线资源| 中文字幕精品—区二区四季| 九色自拍视频在线观看| 丰满少妇一级片| 亚洲欧美福利视频| 韩国av一区二区| 国内外成人免费视频| 水蜜桃久久夜色精品一区的特点| 久久久综合香蕉尹人综合网| 欧美国产日韩精品免费观看| 精品精品欲导航| av中文字幕免费在线观看| 国产亚洲一区二区三区在线播放| 激情成人在线视频| 欧美熟妇交换久久久久久分类 | 亚洲黄色小说网| 久久久久久久久久婷婷| 成人av免费播放| 国产伦精品一区| 丝袜美腿亚洲一区二区图片| 日韩欧美在线影院| 精品毛片在线观看| 日韩精品欧美专区| 中文字幕在线国产| 国产不卡视频一区| 国产免费一区二区三区在线能观看| 亚洲精品国产suv一区| 久久国产精品99久久久久久丝袜| 国产成人综合亚洲网站| 一区二区精品国产| av电影在线观看不卡 | 国产精品视频免费| 国产精品理论在线观看| 一区二区三区久久网| 北条麻妃一区二区三区| 国产精品视频不卡| 精品久久在线观看| 亚洲free嫩bbb| 久久这里有精品15一区二区三区| 超碰97在线播放| 日本v片在线高清不卡在线观看| 精品蜜桃传媒| 成人网男人的天堂| 欧美日韩一道本| 亚洲.国产.中文慕字在线| 中文字幕第66页| 欧美精品在线一区二区三区| 免费网站在线高清观看| 精品国产乱码久久久久久免费| 青青青在线视频| 91av网站在线播放| 午夜福利一区二区三区| 天天综合色天天综合色hd| 91视频国产资源| 欧美特级aaa| 91精品福利在线一区二区三区| 东方伊人免费在线观看| 精品国偷自产在线| 99在线观看精品视频| 国产精品视频成人| 国产精品夜夜嗨| aa在线观看视频| 日韩一区二区免费在线观看| 99热精品免费| 国产精品美乳一区二区免费| 老司机精品视频导航| 奇米影视亚洲色图| 日韩一级黄色片| 亚洲男人的天堂在线视频| 国产美女扒开尿口久久久| 久久se这里有精品| 久久综合久久色| 色狠狠桃花综合| 久久久久久久久艹| 91精品国产99久久久久久红楼 | 亚洲欧美日韩精品久久| 永久免费无码av网站在线观看| 成人黄色网免费| 日本一区二区三区dvd视频在线| 在线观看你懂的视频| 亚洲人成电影在线播放| 色女孩综合网| 亚洲一区二区中文字幕| 欧美综合亚洲图片综合区| 登山的目的在线| 亚洲一区二区三区免费观看| 久久中文娱乐网| 久久久亚洲成人| 亚洲综合色区另类av| 国产福利资源在线| 黄色永久免费网站| 久久精品国产一区二区电影| 国产亚洲精品aa午夜观看| 激情五月婷婷小说| 影音先锋在线亚洲| 中文字幕亚洲欧洲| 日韩av影视在线| 国产三级三级在线观看| 中文字幕人成一区| 欧洲人成人精品| 97人妻一区二区精品视频| 蜜桃网站成人| 欧美日韩在线观看一区二区| 国产精品7777| 狠狠色伊人亚洲综合网站色| 狠狠躁夜夜躁人人躁婷婷91 | 国产绳艺sm调教室论坛| 日本一区二区高清视频| 色婷婷久久久久swag精品| 日本一级片免费看| 一区高清视频| 日韩精品一区二区三区视频 | 穿情趣内衣被c到高潮视频| 欧美一区二区视频在线观看| 亚洲av无码一区二区三区dv| 午夜免费福利小电影| 亚洲精品大尺度| 国产乱对白刺激视频不卡| 精品无码人妻少妇久久久久久| 欧美专区中文字幕| 亚洲欧美日韩电影| 亚洲国产成人精品女人久久| 裸体大乳女做爰69| 日韩精品一二三四区| 久久99热99| av网站有哪些| 91在线高清免费观看| 欧美亚洲一区二区在线| 99热这里是精品| 久久久久久国产精品日本| 国产精品h在线观看| 夜夜亚洲天天久久| 一区二区视频免费| 不卡的在线视频| 国产精品久久久精品| 狠狠躁夜夜躁人人爽天天天天97| 亚洲一级av毛片| 99国产精品久久久久久| 国产精品丝袜久久久久久高清| 色先锋aa成人| 日韩一区二区三区在线观看视频| 精品人妻在线视频| 国产免费一区二区三区| 精品av综合导航| 成人app下载| 无码人妻av免费一区二区三区| 欧美图片激情小说| 97av视频在线| 91国偷自产一区二区开放时间| 精品亚洲成a人| 91香蕉一区二区三区在线观看| 亚洲欧洲一区二区福利| 日韩专区在线观看| 精品久久久久久亚洲精品| 一区二区在线不卡| 日韩在线第三页| 亚洲一二区在线观看| 性色av蜜臀av浪潮av老女人| wwww.国产| 青青青在线播放| 日本天堂中文字幕| 一区二区三区四区五区精品 | 高清毛片aaaaaaaaa片| 国产精品一区二区入口九绯色| 92国产精品久久久久首页| 亚洲精品综合精品自拍| 最新国产精品久久精品| 精品乱子伦一区二区| 老司机精品免费视频| 免费高清一区二区三区| 国产精品福利片| 欧美性大战久久久久久久蜜臀| 国产成人自拍网| 一区二区视频网| 中文字幕在线看高清电影| 欧美深夜福利视频| 国产精品国产亚洲精品看不卡15| 97超碰国产在线| 韩国午夜理伦三级不卡影院| 久久久精品综合| 亚洲国产精品久久久久爰性色 | 日韩污视频在线观看| 男操女免费网站| 亚洲午夜激情| 91精品国产综合久久国产大片 | 国内精品久久久久| 日韩资源av在线| 日日摸夜夜添夜夜添国产精品| 成人黄色免费网址| 一区二区传媒有限公司| 国产精品白丝jk白祙| 久久视频在线观看免费| 日韩一级黄色片| caoporn国产一区二区| 亚洲第一天堂影院| 国产精品1000| 人妻激情偷乱频一区二区三区 | 精品国产三级a在线观看| 亚洲蜜臀av乱码久久精品| 久久福利视频一区二区| 国产高清第一页| 精品小视频在线观看| 少妇人妻好深好紧精品无码| 91网址在线观看精品| 韩日视频在线观看| 亚洲欧洲久久| 国产精品狠色婷| 欧美乱大交xxxxx| 亚洲天堂日韩电影| 69堂成人精品免费视频| 欧美日韩一区二区免费在线观看| 国产激情视频一区二区在线观看 | 制服丝袜综合日韩欧美| 成人福利网站在线观看| 57pao成人国产永久免费| 日韩成人免费视频| 欧美日本精品一区二区三区| 欧美性少妇18aaaa视频| 国产亚洲精久久久久久| av综合在线播放| 日韩av手机在线播放| 一区二区三区在线观看欧美| 欧美性受xxx| 黄色小视频免费网站| 国产精品系列在线播放| 久久综合88中文色鬼| 丰满少妇一区二区三区专区| 黑人巨大国产9丨视频| 国产成人久久久| 欧美激情手机在线视频| 亚洲性生活视频| 亚洲精品小视频| 亚洲成人网av| 日韩成人久久久| 亚洲色图国产精品| 亚洲国产精品成人精品| 亚洲精品电影网在线观看| 日韩午夜激情视频| 亚洲国产成人久久综合一区| 日韩av在线资源| 亚洲人成人99网站| 久久久精品久久久| 久久久久久久久国产| 久久久噜噜噜久久中文字免|