用大模型吃瓜更智能了!阿里通義實驗室提出新時間線總結(jié)框架
開放域TLS也能輕松拿捏
Chronos團隊 投稿
量子位 | 公眾號 QbitAI
現(xiàn)在,大模型可以幫你梳理新聞時間線了,以后吃瓜就更方便了!
AI Agent的風(fēng),咱們賽博樂子人也得吹吹。
這就是來自阿里巴巴通義實驗室與上海交通大學(xué)的新研究,他們提出了一種基于Agent的新聞時間線摘要新框架——CHRONOS。
它不僅可以幫你從海量新聞中總結(jié)出重要事件,更重要的是,它還可以梳理出清晰的時間線,以后上網(wǎng)沖浪時各種復(fù)雜事件都一目了然。

其中的CHRONOS一詞取自希臘神話中的時間之神柯羅諾斯。

該框架通過迭代多輪的自我提問方式,結(jié)合檢索增強生成技術(shù),從互聯(lián)網(wǎng)上檢索相關(guān)事件信息,并生成時間順序的新聞?wù)瑸樾侣剷r間線摘要生成提供了一種全新的解決方案。
先來一起瞅瞅幾個例子。
比如對于新聞“國足1-0巴林”,CHRONOS能夠總結(jié)海量新聞,呈現(xiàn)事件的來龍去脈。

對于覆蓋時間更長的新聞“中國探月工程”,CHRONOS也能聚焦重點事件,呈現(xiàn)時間線發(fā)展,使得用戶能夠一目了然。

補齊開放域TLS短板
時間線總結(jié)(Timeline Summarization, TLS)任務(wù)是一種自然語言處理領(lǐng)域的經(jīng)典技術(shù)挑戰(zhàn),它旨在從大量文本數(shù)據(jù)中提取關(guān)鍵事件,并按時間順序排列,以提供對某一主題或領(lǐng)域歷史發(fā)展的結(jié)構(gòu)化視圖。
例如,在新聞領(lǐng)域,時間線總結(jié)可以幫助用戶快速了解一個新聞事件的來龍去脈。該任務(wù)不僅要求識別出重要的事件,還需要理解事件之間的時間關(guān)系和因果聯(lián)系,以便生成一個連貫、簡潔且信息豐富的時間線摘要。

根據(jù)可檢索事件的來源,可以將TLS任務(wù)細(xì)分為封閉域(closed-domain)和開放域(open-domain)兩個設(shè)定:在封閉域TLS任務(wù)中,時間線是從一組預(yù)定義的、與特定主題或領(lǐng)域相關(guān)的新聞文章中創(chuàng)建的,而開放域TLS指的是從互聯(lián)網(wǎng)上直接搜索和檢索新聞文章來生成時間線的過程。
過去的工作主要集中于解決封閉域上時間線生成問題,而開放域TLS則需要強大的信息檢索和篩選能力,以及在沒有全局視圖的情況下識別和建立事件之間聯(lián)系的能力,為這項任務(wù)提出了新的要求和挑戰(zhàn)。
迭代檢索的CHRONOS框架
為了應(yīng)對上述挑戰(zhàn),團隊提出CHRONOS框架,通過迭代提問進行相關(guān)事件檢索,生成準(zhǔn)確、全面的時間線摘要,能夠有效地解決開放域和封閉域兩種設(shè)定下的TLS任務(wù)。
1. 動機
時間線生成的核心在于建立事件之間的時間和因果關(guān)系。
每個新聞事件都可以被表示為一個不同的節(jié)點,任務(wù)的目標(biāo)是建立這些節(jié)點之間的邊,以展示它們的相關(guān)性,并最終形成一個異構(gòu)圖,從主題新聞的節(jié)點開始。
因此,通過一個檢索機制來檢索相關(guān)的新聞文章,可以有效建立這些邊,形成事件之間的聯(lián)系。
2. 概述
CHRONOS利用大模型的能力,通過模擬人類信息檢索的過程,即通過提出問題、基于檢索結(jié)果進一步提出新的問題,最終收集關(guān)于相關(guān)事件的全面信息并總結(jié)為時間線。

CHRONOS包括以下幾個模塊:
自我提問 (Self-Questioning):首先搜索粗粒度的新聞背景信息,然后迭代地提出問題,以檢索更多相關(guān)新聞。
問題改寫 (Question Rewriting):將復(fù)雜或表現(xiàn)不佳的問題分解為更具體、更易檢索的查詢。
時間線生成 (Timeline Generation):通過合并每一輪檢索生成的時間線來總結(jié)一個突出重要事件的時間線。
3. 自我提問
3.1 粗粒度背景調(diào)研
在自我提問的初始階段,CHRONOS使用目標(biāo)新聞的標(biāo)題作為關(guān)鍵詞進行搜索,以收集與目標(biāo)新聞最直接相關(guān)的信息。
這些信息構(gòu)成了新聞背景(News Context),為自我提問打下初步基礎(chǔ)。
3.2 提問示例選擇
在粗粒度背景調(diào)研之后,CHRONOS利用大模型的上下文學(xué)習(xí)能力,通過少量樣本提示來指導(dǎo)模型生成關(guān)于目標(biāo)新聞的問題。
為了評估問題樣本質(zhì)量,引入了時序信息量(Chrono-Informativeness, CI)的概念,用來衡量模型提出的問題檢索與參考時間線對齊事件的能力,即高CI值的問題更有可能引導(dǎo)檢索到與目標(biāo)新聞事件相關(guān)的文章,用檢索生成的時間線和參考時間線中包含日期的F1分?jǐn)?shù)進行衡量。
基于最大化問題集時序信息量的目標(biāo),構(gòu)建一個“新聞-問題”的示例池,用于指導(dǎo)新目標(biāo)新聞的問題生成。
對于每個新的目標(biāo)新聞,通過余弦相似性動態(tài)檢索與目標(biāo)新聞最相似的樣本,確保了樣本的上下文相關(guān)性和時間信息的準(zhǔn)確性。
3.3 迭代提問
CHRONOS通過連續(xù)迭代提問,逐步深入探索事件的細(xì)節(jié)。
每一輪迭代都基于前一輪的檢索結(jié)果,以發(fā)現(xiàn)新的問題和信息,直到滿足時間線中事件數(shù)量或達(dá)到最大迭代次數(shù)。
3.4 問題改寫
查詢改寫(Query Rewriting)是檢索增強生成中常用的優(yōu)化方法。
在CHRONOS框架中,團隊通過對初始提問階段產(chǎn)生的寬泛或復(fù)雜問題改寫為2-3個更易于檢索的子問題,能夠生成更具體、更有針對性的查詢,從而提高搜索引擎的檢索效果。
他們同樣在提示中加入少量樣本,指導(dǎo)大模型進行有效改寫,將復(fù)雜問題轉(zhuǎn)化為更具體的查詢,同時保持問題的原始意圖。
3.5 時間線生成
CHRONOS通過兩階段生成完整的時間線總結(jié):生成(Generation)和合并(Merging)。
生成:通過分析每一輪檢索到的新聞文章來識別關(guān)鍵事件和詳細(xì)信息。利用大模型的理解和生成能力,提取每個事件的發(fā)生日期和相關(guān)細(xì)節(jié),并為每個事件撰寫簡潔的描述。這些事件和描述被組織成初步的時間線,按照時間順序排列,為后續(xù)的合并階段提供基礎(chǔ)。
合并:將多輪檢索生成的初步時間線整合成一個連貫的最終摘要。這一過程涉及對齊不同時間線中的事件、解決任何日期或描述上的沖突,并選擇最具代表性和重要性的事件。
全新數(shù)據(jù)集OPEN-TLS
為了評估TLS系統(tǒng),研究團隊還收集了由專業(yè)記者撰寫的關(guān)于近期新聞事件的時間線,構(gòu)建了一個名為Open-TLS的新數(shù)據(jù)集。
與以往封閉域的數(shù)據(jù)集相比,Open-TLS不僅在數(shù)據(jù)集規(guī)模和內(nèi)容上更加多樣化,覆蓋政治、經(jīng)濟、社會、體育和科學(xué)技術(shù)等多個領(lǐng)域,而且在時效性上更具優(yōu)勢,為開放域TLS任務(wù)提供了一個更全面和更具挑戰(zhàn)性的基準(zhǔn)。

實驗結(jié)果
1. 實驗設(shè)定
實驗基于GPT-3.5-Turbo、GPT-4和Qwen2.5-72B分別構(gòu)建CHRONOS系統(tǒng),評測開放域和封閉域兩個設(shè)定下TLS的性能表現(xiàn)。使用的評估指標(biāo)主要有:
ROUGE-N: 衡量生成時間線和參考時間線之間的N-gram重疊。具體包括:(1)Concat F1:通過將所有日期摘要連接起來計算ROUGE,以評估整體的一致性;(2)Agree F1:僅使用匹配日期的摘要計算ROUGE,以評估特定日期的準(zhǔn)確性;(3)Align F1:在計算ROUGE之前,先根據(jù)相似性和日期接近性對預(yù)測摘要和參考摘要進行對齊,評估對齊后的一致性。
Date F1:衡量生成時間線中日期與參考時間線中真實日期匹配程度。
2. 開放域TLS
在開放域TLS的實驗中,CHRONOS與幾個基線方法進行了比較,包括直接搜索目標(biāo)新聞(DIRECT)和重寫目標(biāo)新聞以創(chuàng)建查詢用于檢索(REWRITE)。
對比之下,CHRONOS通過迭代自我提問和檢索相關(guān)新聞文章的方法,顯著提高了事件總結(jié)的質(zhì)量和日期對齊的準(zhǔn)確性,在所有指標(biāo)上都領(lǐng)先于基線方法。

3. 封閉域TLS
在封閉域TLS的實驗中,CHRONOS與之前的代表性工作進行了比較,包括:(1)基于事件聚合方法的CLUST (Gholipour Ghalandari and. Ifrim, 2020);(2)基于事件圖模型EGC(Li et al., 2021)和(3)利用大模型進行事件聚類的LLM-TLS(Hu et al., 2024)。
在Crisis和T17這兩個經(jīng)典數(shù)據(jù)集上的比較結(jié)果顯示,CHRONOS達(dá)到了與這些工作類似的表現(xiàn),在兩個數(shù)據(jù)集的AR-2指標(biāo)上取得了SOTA效果,證明了其在不同類型事件和時間跨度上的強大性能和適應(yīng)性。

4. 運行時間分析
CHRONOS的另一個優(yōu)勢體現(xiàn)在效率方面。
與同樣基于大模型、但需要處理新聞庫中所有文章的LLM-TLS方法相比,它通過檢索增強機制專注于最相關(guān)的新聞文章,顯著減少了處理時間。
這種效率的提升使其在實際應(yīng)用中更為實用,尤其是在需要快速響應(yīng)的場景中。

案例研究:蘋果產(chǎn)品發(fā)布時間線
團隊深入分析了模型在處理具體新聞事件時的表現(xiàn),通過選擇具有代表性的新聞事件,如蘋果公司的重大產(chǎn)品發(fā)布,能夠觀察到CHRONOS如何通過由淺入深的自我提問和信息檢索來生成時間線。
在案例研究中,CHRONOS展示了其能夠準(zhǔn)確提取關(guān)鍵事件和日期的能力,同時也揭示了在某些情況下可能需要改進的地方,例如對某些事件的遺漏或日期幻覺。

結(jié)語
CHRONOS框架通過結(jié)合大型語言模型的迭代自我提問和檢索增強生成技術(shù),為時間線總結(jié)任務(wù)提供了一種新穎且有效的解決方案。
這種方法的核心在于模擬人類的信息檢索過程,通過不斷地提出和回答新問題來逐步深入理解事件,最終生成一個全面且連貫的時間線摘要。
實驗結(jié)果已經(jīng)充分證明了CHRONOS在復(fù)雜事件檢索和構(gòu)建時間線方面的能力,展示了該框架在實際新聞時間線生成應(yīng)用中的應(yīng)用潛力和準(zhǔn)確性。
同時,這種迭代提問的檢索生成方法是否具有泛化到通用任務(wù)上的能力也值得未來進一步研究。
論文:https://arxiv.org/abs/2501.00888
Github:?https://github.com/Alibaba-NLP/CHRONOS
Demo:?https://modelscope.cn/studios/vickywu1022/CHRONOS
Reference:
- 打臉!GPT-4o輸出長度8k都勉強,陳丹琦團隊新基準(zhǔn)測試:所有模型輸出都低于標(biāo)稱長度2025-01-15
- 好家伙,海螺直接拍了個AI版的《教父》2025-01-10
- 2025-01-08
- 你的專屬“鋼鐵俠”助手OSAgents來了!浙大等10個機構(gòu)全新綜述2025-01-03




