色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

GPT-4搞不定的圖推理,港科大7B模型搞定|KDD2024

不僅給出正確答案,還能提供清晰且詳細的推理路徑

香港科技大學 陳諾 投稿
量子位 | 公眾號 QbitAI

大模型執行圖推理任務,我們是希望大模型僅僅給出結果,還是在給出準確答案的同時,輸出詳細的推理過程?

先來看GPT-4的表現:

給出了一個非常簡短且錯誤的答案(判斷該圖中沒有環),這可能是由于模型在處理長輸入時的局限性,或者是對圖的復雜結構理解錯誤所致。這顯示了大型模型在適應圖論問題時面臨的挑戰。

相比之下,港科大團隊開發的GraphWiz不僅給出了正確的答案,還提供了一條清晰且詳細的推理路徑。

GPT-4搞不定的圖推理,港科大7B模型搞定|KDD2024

GraphWiz 的設計目的是提升目前開源的大型模型在解決各種圖推理任務時的能力:

通過對大型模型進行針對性的微調,處理不同復雜度的圖推理任務,并同時輸出明確而連貫的推理路徑。

對于人類來說,要在這樣規模的圖中檢測環是極具挑戰性的。通常,人類需要借助外部工具或花費大量時間來完成這一任務,因為僅僅依靠腦力計算是不切實際的。

這突顯了GraphWiz在空間推理和記憶保持方面的能力。它表明,該模型已經有效地吸收了圖論的基本原理,并能夠自主地在大規模且復雜的圖結構中進行導航和推理。GraphWiz在處理復雜圖問題方面的能力,證明了其在實際應用中的巨大潛力。

總的來說,本篇文章的主要貢獻如下:

  • 創建了GraphInstruct,一個大規模的數據集,用于訓練語言模型處理圖任務,并提供清晰推理路徑,提高可解釋性。
  • 推出了GraphWiz,一個開源的大型語言模型,擅長通過明確推理解決各種圖問題,性能優于GPT-4。
  • 研究了訓練數據量和DPO框架下采樣策略等對模型性能的影響,并探索了GraphWiz跨任務遷移的能力,為后續模型優化和性能提升提供指導。

圖推理任務介紹

在本研究中,團隊精心挑選了九種不同計算復雜度層次的圖問題,涵蓋了研究的廣度和深度,包括:

  • 四個線性復雜度任務:連通性和環檢測、二分圖檢驗、拓撲排序
  • 三個多項式復雜度任務:最短路徑、最大三角形和、最大流;
  • 以及兩個NP完全任務:哈密爾頓路徑和子圖匹配。
GPT-4搞不定的圖推理,港科大7B模型搞定|KDD2024

通過選擇這九個圖問題,團隊的工作從簡單到復雜、可解到難解的問題上進行了全面的圖論探索。這種多樣化的選擇不僅有助于團隊理論上理解圖算法,而且還能解決廣泛的實際應用問題。

GraphInstruct數據集構建

GPT-4搞不定的圖推理,港科大7B模型搞定|KDD2024

GraphInstruct的構建包括以下幾個關鍵步驟:

圖問題生成。為了打造一個多樣而具挑戰性的圖問題庫以供模型訓練與測試之用,團隊通過編程輔助的方法,為每一種預設的任務生成隨機圖問題。團隊為每一個任務設計了獨特的模板,以捕捉圖的特有屬性,例如圖是有向還是無向,邊是否有權重等。隨機圖的生成團隊采用了Erd?s-Rényi(ER)模型。

顯式推理路徑生成。GraphInstruct為每一個圖問題對都配備了一條顯式推理路徑。考慮到手動標注這些圖任務的推理路徑既復雜又耗時,團隊選擇利用GPT-4來生成初步的推理路徑。

數據增強與拒絕采樣。由于觀察到GPT-4在許多圖任務上的表現欠佳,比如在初始數據集中的最大流任務上自由不足100個樣本是正確的,團隊采用了拒絕采樣策略來增廣數據集,以包含更多樣的推理路徑。

挑選多樣化的推理路徑。這個步驟需要在準確度和多樣性之間找到平衡。為此,團隊采用了一系列精細化策略,這些策略分為基于字符串和基于語義的方法,用以篩選出不同的生成推理路徑。

GraphWiz訓練

GPT-4搞不定的圖推理,港科大7B模型搞定|KDD2024

基于GraphInstruct,團隊訓練了GraphWiz,旨在優化當前大模型解決圖問題并給出顯式推理路徑的能力。GraphWiz的訓練方法是一個創新的兩階段過程:

混合任務指令調優(Mixed-Task Instruction Tuning):在第一階段,團隊專注于提升模型解釋和解決各種圖問題的能力。通過這種方法,GraphWiz學習處理包括理解問題、識別圖的屬性、應用圖算法等在內的多個子任務。

直接偏好優化對齊(Direct Preference Optimization Alignment ):第二階段,團隊通過訓練模型區分更有效與不太有效的問題解決路徑來進一步銳化模型的推理能力。DPO對齊使模型能夠識別和生成更理想的推理路徑,從而提高解決問題的效率和準確性。

GraphWiz性能評測

團隊對GraphWiz進行評估,旨在回答以下關鍵問題:

  • Q1: GraphWiz在不同復雜度的圖問題上的表現如何,特別是與目前最強大的閉源模型GPT-4相比如何?
  • Q2: 訓練數據量的變化對GraphWiz的性能有什么影響?
  • Q3: GraphWiz 對不同圖問題的遷移能力如何?
  • Q4: 圖中節點數量的變化會如何影響GraphWiz的性能?此外,它能有效處理的最復雜的圖是多大的?
  • Q5: 超參數?如何影響模型性能?
GPT-4搞不定的圖推理,港科大7B模型搞定|KDD2024

從上表中可以看出,團隊的模型在各種開源模型上展示出了卓越的結果,顯著超過了GPT-4的性能。這一點在從簡單到困難類別的各種任務中都保持一致。DPO進一步提高了模型平均性能。然而,DPO可能對特定任務有不利影響。這表明,雖然DPO通常有助于改善模型推理,但可能需要進一步調整,以避免對某些問題類型產生負面影響。

GPT-4搞不定的圖推理,港科大7B模型搞定|KDD2024

根據上表,團隊觀察到隨著訓練語料庫的增加,兩個模型都有效果的提升,比如GraphWiz (Mistral-7B)的平均準確率從1:1比率的46.56%上升到1:5比率的53.75%。這表明更多的多樣化推理路徑通常有利于模型解決圖推理問題的整體性能。

團隊可以注意到在某些任務上,如三角形和漢密爾頓路徑問題,準確性并沒有顯著提高,甚至隨著數據量的增加而略有下降。例如,GraphWiz (Mistral-7B) 在三角和問題上在1:1比率下的準確性為47.00%,然后在1:5比率下降至38.75%。這可能表明了過擬合現象,即模型開始記住訓練數據中的模式,這些模式并不適用于未見過的數據。

總之,雖然增加數據量和推理路徑的多樣性通常可以導致更好的模型性能,但在某些復雜任務中存在潛在的過擬合跡象,這強調了需要仔細設計模型訓練,并對不同的圖問題任務進行驗證,以確保廣泛的泛化能力。

GPT-4搞不定的圖推理,港科大7B模型搞定|KDD2024

為了探索GraphWiz在不同圖任務中的遷移能力,團隊建立了一個額外的模型變體:GraphWiz-High。這個模型僅在兩個高復雜度(NP-完全)圖任務上進行訓練:漢密爾頓路徑和子圖匹配。為了研究其遷移能力,團隊進行了兩個比較實驗:

高復雜度任務比較。團隊首先將GraphWiz-High與常規的GraphWiz在高復雜度任務上進行比較。上圖(a)表明GraphWiz的表現更好,驗證了混合任務訓練的有效性。這個結果也表明模型能夠將從其他任務學到的知識轉移到特定的高復雜度任務上。

零樣本遷移能力。團隊進一步測試GraphWiz-High在從未訓練過的低和中復雜度任務上的零樣本遷移能力。如上圖 (b) 所示,GraphWiz-High與Mistral-Base相比有顯著的性能提升。即使與ChatGPT相比,團隊的模型也能保持相當的性能。考慮到ChatGPT和GraphWiz-High之間在參數數量上的巨大差異,這表明團隊的模型具有值得稱贊的跨任務泛化能力,展示了實際應用的重大潛力。

GPT-4搞不定的圖推理,港科大7B模型搞定|KDD2024

為了解答關于模型性能如何隨著不同圖大小變化的問題,以及確定模型能夠有效解決的最大圖大小,團隊在上圖展示了GraphWiz在表現最佳任務(a)環檢測和最差任務(b)最短路徑上的性能。

從圖中,團隊得出以下結論:

GraphWiz和GPT-4在圖的大小增加時都表現出性能的下降。然而,團隊的模型在大多數時候當圖大小上一致時優于GPT-4,這表明了對圖結構更強大的理解和處理能力。

團隊觀察到在最短路徑上,隨著節點數的增加,性能顯著下降。這種下降很可能可以歸因于兩個主要因素:該任務要求高推理和記憶能力,因為更高時間復雜性,以及強大的計算技巧,這可能對模型的容量構成額外挑戰。實際上,團隊發現兩種模型主要依賴枚舉來得出解決方案。因此,隨著圖大小的增加,所需的枚舉推理呈指數級增長,導致當節點數超過60后,準確率顯著下降,之后幾乎不再有準確性。

這些觀察表明,盡管GraphWiz在處理與圖相關的任務方面明顯優于GPT-4,但存在一個復雜度的閾值——特別是在需要超出簡單推理的計算的任務中——即使是最先進的模型的性能也開始顯著下降。

GPT-4搞不定的圖推理,港科大7B模型搞定|KDD2024

最后,團隊還探究了參數?對模型效果的影響。團隊觀察到,較高的 ?似乎在一定程度上有利于困難任務的性能,但這并非嚴格的線性關系,并且在不同的模型大小之間也不一致。這表明,仔細調整 ? 對于在不同難度任務之間取得最佳平衡,提高模型的整體準確性是必要的。

更多樣例

團隊還展示了更多不同任務上GraphWiz的推理樣例。

連通性任務:

GPT-4搞不定的圖推理,港科大7B模型搞定|KDD2024

漢密爾頓路徑任務:

GPT-4搞不定的圖推理,港科大7B模型搞定|KDD2024

最短路徑任務:

GPT-4搞不定的圖推理,港科大7B模型搞定|KDD2024

子圖匹配任務:

GPT-4搞不定的圖推理,港科大7B模型搞定|KDD2024

論文鏈接:https://arxiv.org/abs/2402.16029
項目主頁:https://graph-wiz.github.io/

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
蜜臀av中文字幕| 久久久成人精品视频| 日韩精品中文字幕视频在线| 国产精品一区二区三区在线免费观看| www.成年人视频| 国内精品久久久久久久久| 日韩美女写真福利在线观看| 天天综合中文字幕| 成年丰满熟妇午夜免费视频| 中文字幕av不卡在线| 成人毛片视频免费看| 久久乐国产精品| 精品人妻一区二区三区蜜桃视频| 亚洲色图19p| 欧美日韩亚洲另类| 亚洲成人av在线| 日韩电影中文字幕| 国产日本欧美一区二区三区在线| 日本精品国语自产拍在线观看| 欧美性受xxxx黑人xyx| 国产一区 二区 三区一级| 国产毛片aaa| 日韩精品三区四区| 欧洲亚洲国产日韩| 欧美性猛交xxxxxxxx| 欧美成人免费播放| 欧美做受喷浆在线观看| 日韩欧美一二三四区| 97视频在线观看视频免费视频| 欧美 变态 另类 人妖| 秋霞视频一区二区| 国产麻豆日韩欧美久久| 欧美日韩国产综合一区二区三区| 国产精品一区久久久| 久久国产欧美精品| 久久波多野结衣| 亚洲GV成人无码久久精品| 成人永久免费视频| 精品精品欲导航| 精品欧美一区二区久久久伦| 亚洲奶大毛多的老太婆| 毛片在线视频播放| 99精品久久久久久中文字幕| 久久亚洲综合国产精品99麻豆精品福利| 5566中文字幕| 欧美一区二区国产| 在线观看av网页| 日本网站在线观看一区二区三区| 亚洲人成人一区二区在线观看| 欧美国产日韩xxxxx| 黄色在线免费播放| 免费黄色在线网址| 黄色福利在线观看| 久久精品视频中文字幕| 欧美日韩在线不卡视频| 日本天堂在线视频| 一区二区三区成人| 久久久精品影院| 亚洲一区二区免费| 日韩在线视频免费播放| 日韩欧美国产系列| 久久久久久久伊人| 91国产高清在线| www.黄色片| 91搞黄在线观看| 91国内免费在线视频| 无码国产精品久久一区免费| 狂野欧美一区| 久久九九亚洲综合| 久久久久久久久国产| 国内精品在线观看视频| 欧美亚洲自拍偷拍| 国产精品高潮呻吟久久av野狼| 色欲狠狠躁天天躁无码中文字幕| 亚洲丰满少妇videoshd| 依依成人综合视频| 日韩精品在线观看av| 91视频国产观看| 亚洲不卡中文字幕| 在线一区二区视频| 天天爽天天爽天天爽| 日韩禁在线播放| 国产又粗又硬视频| 国产色爱av资源综合区| 国产99视频在线观看| 日韩精品视频播放| 成人97在线观看视频| 六月婷婷久久| 欧美亚洲一二三区| 国语对白在线播放| 日韩在线一二三区| 日韩激情在线视频| 免费在线观看污| ww亚洲ww在线观看国产| 国产区一区二区三区| 中文字幕不卡在线观看| gv天堂gv无码男同在线观看| 国产精品v欧美精品v日韩| 国产精品久久久久久久久图文区| 少妇真人直播免费视频| 日韩国产高清视频在线| 男人亚洲天堂网| 中文字幕第一区综合| 一区精品视频| 麻豆传媒一区二区三区| 亚洲精品成人久久久| 欧美色图校园春色| 亚洲欧美日韩久久| 亚洲黄色网址在线观看| 国产老肥熟一区二区三区| 久久免费福利视频| 国产精品99久久久久| 少妇高潮喷水久久久久久久久久| 成人综合婷婷国产精品久久| 欧美大香线蕉线伊人久久国产精品| 欧美一区二区三区激情| 一区二区三区资源| 中文字幕一区二区久久人妻网站 | 亚洲一区二区三区四区的| 久艹在线观看视频| 国产一区二区高清视频| 久久国产毛片| 久久久久国产精品www| 国产性xxxx| 久久久久久一区二区三区| av网站中文字幕| 欧美在线综合视频| 三级黄色录像视频| 亚洲狠狠婷婷综合久久久| 99久久精品久久久久久清纯| 国产精品久久久久久久乖乖| 国产精品无码一区| 99国产精品久久久久久久久久| 欧美性视频在线播放| 久久久五月婷婷| 免费成人深夜天涯网站| 欧美久久在线观看| 久久久久久国产精品美女| 久久毛片高清国产| 福利在线一区二区| 成人午夜精品在线| 久久婷婷国产91天堂综合精品| 日本丰满少妇一区二区三区| www.浪潮av.com| 成人精品视频网站| 婷婷丁香综合网| 久久久久亚洲av无码专区喷水| 亚洲日韩欧美一区二区在线| 一个人看的视频www| 国产成人精品网站| 精品一区二区三区视频在线观看| 久久成人免费网站| 在线国产精品视频| 99热一区二区| 国产99久久久国产精品免费看 | 亚洲精品中文字幕av| 成人h动漫精品一区二区| 91ts人妖另类精品系列| 综合久久国产| 欧美日韩极品在线观看一区| 国产馆在线观看| 国产成人午夜视频网址| 麻豆精品视频在线观看免费 | 日本中文字幕在线视频观看| 精品国产污网站| 国产亚洲欧洲997久久综合 | 成人免费直播live| 国产福利拍拍拍| 91精品国产高清自在线| 一区二区在线免费| 无码人妻一区二区三区免费| 中国xxxx性xxxx产国| www,av在线| 欧洲在线视频一区| 91po在线观看91精品国产性色| 亚洲最快最全在线视频| 日韩欧美一级视频| 日韩成人在线免费观看| 欧美性猛交xxxx乱大交少妇| 欧美大胆一级视频| 丰满人妻一区二区三区大胸| 精品久久香蕉国产线看观看亚洲| 50度灰在线观看| 久久久亚洲精品一区二区三区| 久中文字幕一区| 国产精品久久久久一区| 一区二区在线中文字幕电影视频| 欧美mv和日韩mv的网站| 亚洲女人小视频在线观看| 欧美日韩亚洲一| 亚洲国产欧美一区二区三区久久| 婷婷丁香花五月天| 手机看片久久久| 久久综合九九| 精品电影一区二区| 中文字幕一区在线观看视频| 深夜黄色小视频| 97久久伊人激情网| 日韩美女天天操| 欧美日韩国内自拍| 午夜免费久久看| 一区二区久久久| 亚洲一级二级三级| ...xxx性欧美| 91色在线porny| 日本一二三区在线观看| 成人性生交xxxxx网站| 日韩成人性视频| 成人午夜短视频| 国内精品偷拍视频| 亚洲一区二区在线观| 亚洲成在人线av| 一区二区三区在线观看网站| 亚洲免费观看高清完整版在线| a级片在线观看免费| 精品国产一区二区三区在线| 91在线观看欧美日韩| 欧美三级日本三级少妇99| 五月天av网站| 免费高清一区二区三区| 欧美性猛交xxxx久久久| 国产美女久久久久久| 国产精品成熟老女人| 91免费观看国产| 国产精品成人一区二区三区电影毛片| 日韩av毛片网| 男人操女人的视频在线观看欧美| 一区二区三区四区国产| 色综合久久88色综合天天6| 国产一区在线观看免费| 国产日本欧美一区二区三区在线 | 欧美一卡二卡三卡| 欧美黄色免费观看| 久久综合一区二区三区| 亚洲国产精品一区二区久久恐怖片| 中文字幕国产综合| 国产精品一二区| 亚洲精品国产成人久久av盗摄| 久草资源在线视频| 日本10禁啪啪无遮挡免费一区二区| 国产精品久久久久久久久久免费看| 激情文学亚洲色图| 91精品国产色综合久久不卡98| 国产欧美精品日韩区二区麻豆天美| 北条麻妃在线观看视频| 国产精品日韩精品| 中文欧美字幕免费| 成人啪啪18免费游戏链接| 日本欧美一二三区| 精品国产伦一区二区三区观看体验| 国产免费观看久久| 日韩一区二区三区不卡| 国产福利视频在线播放| 精品国产一区二区三区久久久| 成人性生交大片免费看中文网站| 午夜一区二区三区免费| 成人午夜在线观看| xxxxxx在线观看| 亚洲国产黄色片| 成人动漫中文字幕| 国产精品免费精品一区| 欧美三级一级片| 97在线免费观看视频| 一区二区三区色| 天天干天天草天天射| 免费黄色在线视频| 热re99久久精品国99热蜜月| 一区二区欧美在线| 亚洲天天做日日做天天谢日日欢| 午夜精品久久久久久久蜜桃| 毛片毛片毛片毛片毛片毛片毛片毛片毛片| 美乳少妇欧美精品| 在线精品视频一区二区| 成人一区在线看| 国产精品自拍第一页| 欧产日产国产精品98| 色一情一乱一伦一区二区三区丨| 亚洲人成绝费网站色www| 欧美日韩国产在线| 蜜桃久久久久久久| 久久黄色免费网站| 香蕉视频在线网址| 久久久久久久久久久久av| 欧美在线不卡视频| 色婷婷香蕉在线一区二区| 欧美日韩国产精品自在自线| 国产美女被下药99| 欧美日韩视频在线一区二区| 久久国产精品色| 性欧美videos| 免费看日本毛片| 秋霞av国产精品一区| 欧美精品视频www在线观看| 国产成人在线免费观看| 日产亚洲一区二区三区| 日本成人黄色网| 91精品天堂| 一区二区三区国产视频| 亚洲成人一区二区在线观看| 秋霞电影网一区二区| 精品在线免费观看视频| 538在线视频观看| 国模精品一区二区三区| 自拍偷拍亚洲区| 日韩欧美高清在线视频| 高清不卡在线观看| 日韩黄色片网站| 午夜不卡久久精品无码免费| 在线观看精品视频| 国产精品久久久久久亚洲调教| 欧美成人一区二区三区| 中文字幕制服丝袜成人av| 久久亚洲图片| 日本道在线观看| 久久久久国产免费| bt天堂新版中文在线地址| 国产精品欧美日韩一区二区| 亚洲三级 欧美三级| 欧美日韩国产专区| 久久午夜国产精品| 狂野欧美一区| 6080午夜伦理| japanese中文字幕| 欧美国产日韩在线播放| 水蜜桃一区二区三区| 国产美女高潮久久白浆| 欧美精品亚州精品| 日韩欧美的一区二区| 国产 日韩 欧美 精品| 精品久久在线观看| 亚洲国产欧美一区二区三区丁香婷| 中文字幕欧美一| 午夜影院久久久| 欧美videos大乳护士334| 亚洲免费视频网站| 午夜美女久久久久爽久久| 国产v综合v亚洲欧美久久| 国产区精品视频| 一路向西2在线观看| 精品国产欧美日韩不卡在线观看| 精品国产精品国产精品| 日韩精品久久久久久免费| 亚洲av无码一区二区乱子伦| 国产成人精品亚洲男人的天堂| 国产99久一区二区三区a片 | 成人国产在线看| 久久er精品视频| 久久精品2019中文字幕| 日本不卡一区二区三区在线观看| 日本一级黄色录像| 国产精品影音先锋| 精品国产人成亚洲区| 91网免费观看| 中文字幕亚洲欧美日韩| 亚洲少妇中出一区| 国产精品亚洲美女av网站| 91超薄肉色丝袜交足高跟凉鞋| 国产麻豆91视频| 久久毛片高清国产| 亚洲激情视频在线观看| 国产一区二区久久精品| 久久久久久九九| 国产一区二区视频免费在线观看| av高清在线免费观看| 波多野结衣办公室33分钟| 免费黄色网址在线| 成人一区二区在线观看| 亚洲人成亚洲人成在线观看| 日韩电影在线播放| 国产av自拍一区| 国产成人在线视频播放| 久久精品小视频| 性生活在线视频| 国产福利一区二区| 午夜免费日韩视频| 日本高清www免费视频| 欧美—级在线免费片| 久久不射热爱视频精品| 一级日韩一区在线观看| 亚洲高清精品视频| 欧美二区三区91| 亚洲三级小视频| 欧美日韩在线观看不卡| 日本熟妇一区二区| 日韩视频在线一区二区| 免费看毛片的网址| 久久国产麻豆精品| 日韩精品一区二区三区老鸭窝| 91av在线免费播放| 丁香另类激情小说| 亚洲综合精品一区二区| 一级黄色免费看| 欧美大片大片在线播放| 精品人妻中文无码av在线| 成人性生交大片免费| 国产精品高清免费在线观看| 永久免费无码av网站在线观看| 欧美网站大全在线观看| 91网址在线播放| 国产午夜亚洲精品不卡| 日韩欧美亚洲精品| 国产馆精品极品| 欧美爱爱视频网站| 亚洲综合一区二区| 好男人www社区| 中文字幕在线不卡| 奇米精品在线| 久久综合九色综合久久久精品综合| 欧美一级爱爱| 99re视频精品|