色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

網 友:歸因圖可能成為LLM研究的顯微鏡

西風 發自 凹非寺

量子位 | 公眾號 QbitAI

Claude團隊來搞開源了——

推出“電路追蹤(circuit tracing)工具,可以幫大伙兒讀懂大模型的“腦回路”,追蹤其思維過程。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

該工具的核心在于生成歸因圖(attribution graphs),其作用類似于大腦的神經網絡示意圖,通過可視化模型內部超節點及其連接關系,呈現LLM處理信息的路徑。

研究人員通過干預節點激活值,觀察模型行為變化,從而驗證各節點的功能分工,解碼LLM的“決策邏輯”。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

官方表示,此次發布的開源庫支持在主流開源權重模型上快速生成歸因圖,而Neuronpedia托管的前端界面則進一步允許用戶交互式探索。

總之,研究人員能夠:

  • 通過生成自有歸因圖,在支持的模型上進行電路追蹤;
  • 在交互式前端中可視化、注釋和分享圖表
  • 通過修改特征值并觀察模型輸出變化來驗證假設
Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

Anthropic CEO Dario Amodei表示:

目前,我們對AI內部運作的理解遠遠落后于其能力的發展。通過開源這些工具,我們希望讓更廣泛的社區更容易研究語言模型的內部機制。我們期待看到這些工具在理解模型行為方面的應用,以及對工具本身的改進拓展。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

目前,該項目開源不到24小時,在GitHub就已攬獲400+Star。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

在Reddit、X上都有不少網友點贊&討論。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

有網友直呼“DeepSeek肯定喜歡這個”。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

還有網友認為“歸因圖可能成為LLM研究的顯微鏡”。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

“電路追蹤”食用教程

除了宣布開源外,Anthropic依據介紹電路追蹤方法的原始論文《On the Biology of a Large Language Model》中多步推理和多語言電路示例,利用該工具深入探究了幾個涉及Gemma-2-2b的歸因圖。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

一起來看看具體示例和分析。

如果想生成自己的圖,可以在Neuronpedia上進行操作,也可以直接在Colab中使用這個起始notebook進行操作。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

兩階推理

先來看一個兩階推理示例。

問題:包含達拉斯的州的首府是?(Fact: The capital of the state containing Dallas is → Austin)

模型必須首先推斷出包含達拉斯的州是得克薩斯州;然后,回答得克薩斯州首府是奧斯汀

介紹電路追蹤方法的原始論文中表明,模型Claude 3.5 Haiku使用以下電路解決了該問題,計算了“包含達拉斯的州”這一中間步驟。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

而對Gemma 2(2B)進行歸因分析表明,它使用以下電路成功完成了prompt任務:

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

該電路結構與Claude 3.5 Haiku的類似,存在一個對應“得克薩斯州”的節點,并同時顯示從“達拉斯”到“奧斯汀”的直接路徑以及經過“得克薩斯州”的間接路徑。

歸因圖基于使用transcoders來近似多層感知機(MLP)的行為,提出了關于模型行為的假設。

Anthropic表示,可以通過直接對底層模型進行干預,來驗證他們對模型行為的理解是否正確。

對圖中所示的每個超節點(supernodes)進行干預,首先需要從該圖中獲取超節點。

Anthropic提供了一個便捷函數,可將電路URL(及其中存儲的超節點)映射到Feature對象列表。每個Feature對象是一個(layer, position, feature_index)元組。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

然后,創建用于解決此任務的電路表示。

首先需定義一些超節點對象(Supernode objects),這些對象將存儲底層Feature列表,以及受其因果影響的子超節點。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

再初始化一個干預圖(InterventionGraph),用于存儲所有超節點并跟蹤它們的狀態。

另外,還需要獲取模型在此提示下的logits和激活值

設置每個節點的默認激活值(即未進行干預時,原始提示下的激活值),并設定其激活分數,激活分數為節點當前激活值與默認激活值的比值。

由于當前激活值與默認激活值相同,因此每個節點的激活分數均為100%。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

另外還將記錄top-5的logits,然后對圖表進行可視化。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

結果顯示電路與在可視化完整圖表時創建的超節點吻合。

現在,通過干預驗證每個超節點是否如假設般發揮作用,每次干預會將節點值設定為原始值的特定倍數。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

在介紹電路追蹤方法的原始論文中,關閉“說出一個首府”(Say a capital)Feature會導致“說出奧斯汀”(Say Austin)超節點關閉,且模型的最高logits變為得克薩斯州(Texas)。

若接下來對Gemma 2(2B)歸因圖進行相同操作,會發生什么?

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

結果觀察到了完全相同的現象。強行關閉“說出一個首府”超節點后,“說出奧斯汀”節點也隨之關閉,模型的最高logit變為了得克薩斯州。

那如果關閉“首府”(capital)超節點會怎樣?

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

與之前的干預行為類似:關閉“說出一個首府” 超節點,但沒有像之前那樣強烈,也部分關閉了“說出奧斯汀”節點。

如果我們關閉“得克薩斯州”超節點會怎樣?

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

關閉“得克薩斯州”超節點同樣會使“說出奧斯汀”節點失效,導致模型輸出其它州的首府。

如果關閉“州”(state)超節點會怎樣?

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

關閉“州”超節點效果并不明顯,它對其它超節點的激活狀態幾乎沒有影響,模型的logits也幾乎沒有變化。

現在已經通過剔除節點驗證了其行為。

那么,能否注入完全不同的節點并驗證其是否產生預期效果?

以prompt“包含奧克蘭的州的首府是( Fact: The capital of the state containing Oakland is → Sacramento)”中的電路為例,從該圖中提取兩個超節點“加利福尼亞州”(California)和 “說出薩克拉門托”(Say Sacramento),并將其添加到干預圖中。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

然后,進行干預操作:關閉“得克薩斯州”超節點,并激活“加利福尼亞州”超節點。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

這樣做導致“說出奧斯汀”節點完全關閉,而“說出薩克拉門托”節點開始激活,模型最高輸出現在也變為薩克拉門托。

還可以將州替換為國家進行類似實驗。以Prompt“包含上海的國家的首都是(Fact: The capital of the country containing Shanghai is → Beijing)”的電路為例,執行與之前完全相同的操作:

禁用“得克薩斯州”超節點,并激活“中國”超節點。這次雖然沒有“說出北京”節點,但這種干預的效果應該會在logits中顯現。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

結果同樣有效,北京現在成為模型最可能的輸出。

那總是會有效嗎?

再用Prompt“包含溫哥華的地區的首府是(Fact: the capital of the territory containing Vancouver is → Victoria)”的電路來試試。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

在這種情況下,干預效果并不顯著。

模型的輸出看起來與僅剔除“得克薩斯州”時的結果類似,這表明“不列顛哥倫比亞省”(British Columbia)節點的加入幾乎沒有產生作用

多語言電路

接下來Anthropic還探討了原論文中研究的多語言電路。

具體而言,將考察三個電路,分別對應三種語言的同一句子:

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

關于Claude 3.5 Haiku的研究展示了一個共享的多語言電路:

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

與Haiku的電路不同,Gemma 2(2B)的電路從本質上完全具備多語言特性。

模型中并不存在獨立的“Say big”或“Say grand”超節點來驅動其用特定語言輸出對應答案。相反,所有電路均采用 “Say big”Feature,若答案為非英語,則會結合“French”或“Chinese”Feature共同作用。

接下來,通過對這些電路進行干預實驗來展開研究。

首先,如前所述創建超節點對象(Supernode objects)

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

然后,獲取這些節點的激活值,對其進行初始化,并生成可視化圖表。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

現在進行第一次干預操作:關閉“French”超節點。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

在關閉“French”超節點后,模型輸出變成了英文。

值得注意的是,這對“Say big”超節點僅產生輕微影響,二者的作用似乎相互獨立

再嘗試將語言切換為另一種:關閉“French”超節點,并激活“Chinese”超節點。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

正如預期,干預后的模型輸出與中文示例的原始輸出一致。

那如果將“small”Feature替換為“big”會怎樣?

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

將“small”超節點替換為“big”超節點后,導致“說出big”超節點關閉,同時一個新的“Say small”超節點被激活。

模型的輸出在法語中變為“petit”(即 “small”)

接下來是最后一項干預,能否將“opposite”(反義詞)超節點替換為 “synonym”(同義詞),以獲取同義輸出?

雖然該模型并不擅長處理同義詞:當輸入“Un synonyme de ‘petit’ est ‘”(“petit”的同義詞是“”)時,模型會重復輸出“petit”,而非其它同義詞。

但是,仍可觀察此干預是否會復現該行為。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

不過最終這項干預并未奏效。盡管“Say small”超節點被激活,但“Say big”也保持激活狀態,模型的輸出并未改變。

Anthropic團隊認為這并不意外,如果觀察該任務的原始電路,會發現“opposite”(反義詞)超節點與輸出端僅存在弱連接。因此,盡管它本應發揮作用,但其因果效應相當有限。

更多細節大伙兒可自行查閱。

另外作為啟發,Anthropic在demo notebook和Neuronpedia上提供了尚未分析的額外歸因圖,感興趣的童鞋可以親自上手研究研究。

Claude團隊打開大模型「腦回路」,開源LLM思維可視化工具來了

GitHub鏈接:https://github.com/safety-research/circuit-tracer?tab=readme-ov-file
參考鏈接:
[1]https://x.com/anthropicai/status/1928119229384970244?s=46
[2]https://www.anthropic.com/research/open-source-circuit-tracing

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
国产精一区二区三区| 国产又黄又粗又猛又爽的视频 | 欧美日韩精品在线观看| 日韩三级视频在线看| 日韩视频免费看| 欧美一区二区三区免费视| 91看片破解版| 天堂免费在线视频| 国产精品不卡在线| 国产一区二区三区在线看| 欧美成年人网站| 992tv成人免费观看| 成人免费观看视频| 国产性生活免费视频| 亚洲男人电影天堂| 午夜激情福利在线| 久久网福利资源网站| 国产精品va在线播放| 亚洲bbw性色大片| 日韩av免费播放| 国产成人av免费看| 精品少妇一区二区三区密爱| 无套内谢丰满少妇中文字幕| 99久久精品无码一区二区毛片| 欧美一区二区三区电影| 偷拍视频一区二区| 中文字幕精品—区二区四季| 欧美日韩成人免费视频| 欧美韩国一区二区| 欧美日韩另类综合| 大地资源第二页在线观看高清版| 国产高清视频免费在线观看| 国产精品一区二区三区四区| 日韩中文在线观看| 国产精品亚发布| 综合欧美国产视频二区| 91|九色|视频| 国产一级免费观看| 91精品国产日韩91久久久久久| 欧美日韩视频第一区| 喜爱夜蒲2在线| 岛国一区二区三区| 国产色综合一区二区三区| 中文字幕人妻互换av久久| 国产精品无码永久免费888| 久久亚洲国产成人| 波多野结衣av在线免费观看| www.99re7.com| 国产精品久久久久久69| 亚洲第一页自拍| 精品日韩久久久| 天天综合网入口| 亚洲av无码乱码国产精品| 久久黄色av网站| 国产成人强伦免费视频网站| 中文字幕人妻一区二区三区在线视频| 日本高清无吗v一区| 亚洲一区二三区| 91精品国产777在线观看| 老司机福利在线观看| 亚洲色图欧美视频| 国产一区二区日韩精品欧美精品| 亚洲天堂成人在线| 国产精品wwwwww| 精品国产国产综合精品| 欧美激情国产高清| 中文字幕在线有码| 亚洲精品色婷婷福利天堂| 日韩av图片| 日本免费网站视频| 五月婷婷综合激情网| 天天操天天干天天综合网| 欧美日韩系列| 极品久久久久久久| 性网爆门事件集合av| 国产成人一区二区三区免费看| 国产麻豆免费观看| 久久久电影免费观看完整版| 国产精品suv一区二区88| 久久精品一区二区国产| 成人在线资源网址| 99久久精品免费| 性欧美丰满熟妇xxxx性仙踪林| 国产精品中文久久久久久久| 亚洲一区二区三区影院| 久久国产这里只有精品| 自拍偷拍亚洲欧美日韩| 国产精品永久入口久久久| 免费黄色片视频| 久久久久www| 黄色网页免费在线观看| 国产精品原创巨作av| 女人裸体性做爰全过| 亚洲理论在线a中文字幕| 1级黄色大片儿| 91久久线看在观草草青青| 欧美韩国日本在线| 亚洲三级免费看| 成人看片黄a免费看在线| 国产精品边吃奶边做爽| 日韩av第一页| 图片区日韩欧美亚洲| 色诱视频在线观看| 91亚洲永久精品| 26uuu成人| 一区二区三区中文字幕电影| 久久久视频精品| 国产又粗又黄又猛| 久久久久久久久久久成人| 蜜桃一区二区三区在线| 国产精品久久久久久久久婷婷| 激情图片小说一区| 超碰10000| 姝姝窝人体www聚色窝| 国内视频一区| 婷婷中文字幕综合| www.日本高清视频| 久久久欧美一区二区| 日本精品人妻无码77777| 日韩精品视频中文在线观看| 国产寡妇亲子伦一区二区三区四区| 欧美日本国产一区| 日韩精品一区二区三区不卡 | 久久久久久国产精品mv| 一区二区视频在线看| 国产一区激情在线| 91久久国产最好的精华液| 真实乱偷全部视频| 欧美三级蜜桃2在线观看| 深爱五月激情网| 欧美与欧洲交xxxx免费观看| 99精品中文字幕| 视频一区视频二区国产精品| 国产九九视频一区二区三区| 黄色一级视频免费| 国产日韩欧美日韩大片| 午夜日韩在线观看| 伊人久久久久久久久久久久 | 鲁片一区二区三区| 亚洲天堂自拍偷拍| 欧美黑人极品猛少妇色xxxxx| 97在线观看免费视频| 欧美巨大另类极品videosbest | 国产视频99| 久久综合久中文字幕青草| 国产美女精品一区二区三区| 中文字幕一区二区三区在线乱码 | 免费污污视频在线观看| 国产精品 欧美在线| 91精品国产综合久久福利| 国产一区二区三区成人| 激情综合网俺也去| 亚洲综合视频1区| 黑人操亚洲女人| 国产精品露出视频| 日韩欧美国产电影| 亚洲一区电影777| 国产精品黄色在线观看| 成人av在线一区二区三区| 亚洲精品18在线观看| 99视频只有精品| xxxx在线免费观看| 久久精品国产96久久久香蕉| 91丝袜高跟美女视频| 亚洲精品卡一卡二| 夜夜爽99久久国产综合精品女不卡 | 欧美日韩午夜在线| 老熟妇仑乱视频一区二区| 国产精品网站入口| 久久黄色网页| 91最新在线免费观看| 国产精品极品美女粉嫩高清在线| 日韩综合视频在线观看| 中文字幕亚洲在| 国产一区在线观看免费| 99re99热| 亲子乱一区二区三区电影| 在线播放中文一区| 精品视频一二三区| 欧美 日韩精品| 亚洲一区美女| 久久青草精品视频免费观看| 亚洲色图视频免费播放| 久久黄色影院| 日本一区二区三区久久| 国产精品国产精品国产专区不卡| 久久久久久国产精品| 国产亚洲精品一区二区| 136fldh精品导航福利| 精品1区2区| 日韩精品视频一区二区在线观看| 日韩一级免费片| 国产高清999| 国产精品久久久毛片| 久久久一本精品99久久精品| 精品国产一区久久久| 欧美精品在线一区二区| 欧洲亚洲国产日韩| 亚洲精品中文在线| 久草免费新视频| 日本特级黄色大片| 欧美成人性色生活仑片| 亚洲欧洲另类国产综合| 中文字幕 国产| 亚洲人成色777777老人头| 国产特级黄色片| 日批视频在线看| 国产无套精品一区二区三区| 天天插天天射天天干| wwwxxx亚洲| 久久99精品网久久| 欧美色图在线观看| 不卡av电影院| 成人在线精品视频| 国产综合第一页| 久久婷婷国产综合尤物精品| 91久久国产精品91久久性色| 国内揄拍国内精品| 韩国三级日本三级少妇99| 2019精品视频| 日韩欧美精品中文字幕| 日韩精品免费视频人成| 国产在线视频99| jjzzjjzz欧美69巨大| 一个色的综合| www.夜夜爱| 污污的网站18| 大吊一区二区三区| 日本wwwwwww| 亚洲天堂一区在线观看| 中文字幕在线观看精品| k8久久久一区二区三区 | 亚洲网中文字幕| 国产做a爰片久久毛片| 久久精品免费观看| 99久久国产综合色|国产精品| 99草在线视频| 少妇又色又爽又黄的视频| 国产·精品毛片| 亚洲一二三级电影| 欧美嫩在线观看| 日韩黄在线观看| 国产精品私拍pans大尺度在线| 亚洲精品久久久久国产| 日韩亚洲欧美成人| 57pao精品| 日韩人妻精品一区二区三区| 欧美日韩精品一区二区三区视频播放 | 国产精品扒开腿爽爽爽视频| 国产免费成人av| 99视频国产精品免费观看| 丝袜足脚交91精品| wwwwww.色| 国产性生活大片| 亚洲欧美综合另类| 国产同性人妖ts口直男| 黄色一级大片在线免费看国产一| 亚洲一区av在线| 欧美在线观看一区二区三区| 96精品久久久久中文字幕| 日韩欧美亚洲日产国产| 白白色免费视频| 国内精品写真在线观看| 一区二区乱子伦在线播放| 国产美女精品一区二区三区| 亚洲图片有声小说| 欧美高清性猛交| 成人在线视频免费播放| 久久久美女毛片| 国产成人中文字幕| 日批在线观看视频| www欧美成人18+| 亚洲天堂影视av| www.久久草| 国产av无码专区亚洲精品| 欧美丰满美乳xxⅹ高潮www| 亚洲AV无码精品色毛片浪潮| 亚洲欧美综合另类在线卡通| 日韩在线激情视频| 久久久久久亚洲精品不卡| 91系列在线播放| 天天综合色天天| 精品少妇一区二区| 成年丰满熟妇午夜免费视频 | 日本不卡久久| 久久久久久久久艹| 手机免费看av| 久久av资源网| 日韩av有码在线| 欧美乱做爰xxxⅹ久久久| 毛片基地黄久久久久久天堂| 亚洲mm色国产网站| 日韩成人伦理电影在线观看| 久久久久成人网| 黄色a级片在线观看| 色综合咪咪久久| 91传媒视频在线观看| 免费黄色日本网站| 日韩熟女一区二区| 欧美亚洲禁片免费| 99色精品视频| 老司机精品福利在线观看| www日本在线观看| 一卡二卡三卡日韩欧美| 久久青青草综合| 一级黄色录像在线观看| 欧美一级特黄aaaaaa大片在线观看| 亚洲精品ady| 99色这里只有精品| 深夜做爰性大片蜜桃| 国产又大又黄又粗| 欧美无人高清视频在线观看| 5566av亚洲| 日韩中文字幕影院| 91精品国产综合久久香蕉最新版 | 中文一区二区在线观看| 日韩少妇中文字幕| www.一区二区| 456亚洲影院| 日本熟妇乱子伦xxxx| 久久影院视频免费| 日本精品免费观看| 日韩影院一区二区| 91福利在线导航| 亚洲综合视频一区| 日韩主播视频在线| 伊人久久久久久久久久久久久| 97伦理在线四区| 亚洲av无码国产精品麻豆天美| 日本最新不卡在线| 亚洲精品99久久久久中文字幕| 亚洲精品在线免费| 久久精品亚洲无码| 日韩一级免费观看| 久久久精品高清| 亚洲精品免费看| 91精品免费视频| 中文亚洲av片在线观看| 亚洲激情第一页| 日b视频在线观看| 久久久精品日本| 精品人妻一区二区三区三区四区| 国产精品三区四区| 国产亚洲短视频| 黄色片在线免费| 色先锋资源久久综合| 国产免费黄色小视频| 99精品一区二区| 91亚洲精品一区| 日本成人在线电影网| 国产成人91久久精品| 瑟瑟视频在线免费观看| 美日韩在线视频| 五月天婷婷丁香| 欧美二区乱c少妇| 日韩国产欧美一区| www.中文字幕| 超碰97人人做人人爱少妇| 国产精品边吃奶边做爽| 一区二区三区在线视频免费| 四虎永久国产精品| www.亚洲色图| 久久五月天婷婷| 99国产精品久| 在线观看成人一级片| 黄色资源网久久资源365| 91久久中文字幕| 精品久久久中文字幕人妻| 亚洲一区二区三区午夜| 8x8x8国产精品| 伊人影院中文字幕| 国产手机免费视频| 色偷偷偷综合中文字幕;dd| 久久久久久9| caoporm在线视频| 欧美成人一区二区| www.国产高清| 9.1国产丝袜在线观看 | 国产精品福利影院| 在线免费一区二区| 国产一二三区精品| 欧美极品少妇xxxxx| a级黄色片免费看| av男人的天堂av| 亚洲精品一区二区三区福利| 久久午夜鲁丝片| 日本91av在线播放| 免费一级a毛片夜夜看| 欧美在线观看网站| 激情综合色丁香一区二区| 久久综合一区二区三区| 69堂成人精品免费视频| 污视频在线免费观看| 国产51自产区| 亚洲free性xxxx护士白浆| 91精品国产综合久久精品图片| 亚洲av人无码激艳猛片服务器| 精品少妇人欧美激情在线观看| 欧美精品久久天天躁| 国产一区二区三区精品在线| 91香蕉国产在线观看| 久久婷婷亚洲| 午夜精品一区二区三区四区| 精品国产户外野外| 精品视频在线观看免费| 国产精品三级在线| 亚洲一卡二卡三卡四卡| 国产稀缺精品盗摄盗拍| 国产精品第三页| 国产高清精品网站|