允中 發(fā)自 凹非寺
量子位 編輯 | 公眾號 QbitAI
2021年6月14日~6月17日,第48屆國際計算機體系結(jié)構(gòu)大會(ISCA)通過線上模式順利召開。清華大學(xué)魏少軍、劉雷波教授團隊作了題為“ABC-DIMM: Alleviating the Bottleneck of Communication in DIMM-based Near Memory Processing with Inter-DIMM Broadcast”的學(xué)術(shù)報告。
該報告針對DIMM(雙列直插式存儲模塊)近存計算架構(gòu)的通信瓶頸問題,提出了基于DIMM間廣播技術(shù)的通信優(yōu)化方法。該方法充分利用了內(nèi)存總線廣播的可擴展性以及廣播機制的廣泛適用性,為DIMM近存計算的通信優(yōu)化提供了強有力的新工具。
報告人孫偉藝是論文第一作者(如圖1所示),目前正在清華大學(xué)集成電路學(xué)院攻讀博士學(xué)位。論文通訊作者是劉雷波教授,主要合作者還有李兆石、尹首一等。

△?圖1 孫偉藝同學(xué)報告論文的主要工作
當前,隨著數(shù)據(jù)密集型應(yīng)用的廣泛部署,傳統(tǒng)主存系統(tǒng)已難以應(yīng)對日益增長的容量和帶寬需求。為應(yīng)對這一挑戰(zhàn),諸多近存計算架構(gòu)被相繼提出,其中基于DIMM的近存計算架構(gòu)是公認最具潛力的架構(gòu)之一(如圖2所示)。
該架構(gòu)把計算邏輯集成到DIMM的緩存芯片上,通過讓內(nèi)存通道內(nèi)多個DIMM并行訪存和計算,實現(xiàn)較高的總訪存帶寬,從而以較低的設(shè)計與生產(chǎn)代價獲得較高的性能提升潛力。然而,DIMM近存計算系統(tǒng)的性能提升依賴于DIMM數(shù)量的增加,但現(xiàn)有DIMM間基于內(nèi)存總線的點對點通信機制卻可能嚴重制約系統(tǒng)性能相對于DIMM數(shù)量的可擴展性。
具體來說,當一個內(nèi)存通道內(nèi)DIMM數(shù)量增加時,每個DIMM分配到的平均點對點通信帶寬迅速減小,對于許多重要的數(shù)據(jù)密集型應(yīng)用,各個DIMM和CPU之間的通信主導(dǎo)了程序的運行時間,極大限制了系統(tǒng)的整體性能。
△?圖2 基于DIMM的近存計算架構(gòu)
針對該問題,魏少軍、劉雷波團隊提出了DIMM間廣播技術(shù)。
從硬件角度來看,總線系統(tǒng)在物理層面上天然支持廣播,且主存總線的有效廣播帶寬隨著DIMM數(shù)量的增加而自然擴展。而從軟件角度來看,大量數(shù)據(jù)密集型應(yīng)用都能以“廣播主導(dǎo)”的方式實現(xiàn)。
基于上述想法,團隊設(shè)計了ABC-DIMM系統(tǒng),通過在主存中實現(xiàn)并利用“DIMM間廣播”來消除DIMM近存計算架構(gòu)中的通信瓶頸。該系統(tǒng)由三部分構(gòu)成。
首先,團隊設(shè)計了指導(dǎo)程序員以廣播主導(dǎo)方式實現(xiàn)各類應(yīng)用的“廣播-計算”編程框架,從而讓軟件能夠充分利用“DIMM間廣播”來優(yōu)化通信。如圖3(a)所示,它通過分割輸出來劃分任務(wù),而任務(wù)間的通信則由輸入數(shù)據(jù)的廣播所主導(dǎo)。
其次,團隊提供了“內(nèi)存通道內(nèi)”和“內(nèi)存通道間”的完整“DIMM間廣播”機制,如圖3(b)(c)所示。利用這些機制,“廣播-計算”框架在多內(nèi)存通道下的通信可以得到高效的實現(xiàn),如圖3(d)所示。
最后,團隊為“DIMM間廣播”機制提供了全棧式的硬件和API設(shè)計。為使系統(tǒng)實現(xiàn)盡可能地簡單和低廉,團隊將設(shè)計開銷和范圍成功控制在了DIMM緩存芯片以及CPU的內(nèi)存控制器之內(nèi)。具體而言,通過在緩存芯片中加入指令翻譯模塊,“DIMM間廣播”能夠在不更改DRAM芯片的前提下以新DDR指令的形式融入主存系統(tǒng)中。此外,通過對內(nèi)存控制器的有限修改以及相應(yīng)的API設(shè)計,“DIMM間廣播”能夠在不更改ISA的前提下被軟件有效使用。
模擬評估顯示,ABC-DIMM的平均性能分別達到了兩個主流基線近存系統(tǒng)性能的2.50倍和2.93倍。
過去10余年,魏少軍、劉雷波教授團隊在軟件定義芯片領(lǐng)域取得了多項重要技術(shù)突破,關(guān)鍵技術(shù)在多項國家重大工程中得到批量應(yīng)用,曾獲國家技術(shù)發(fā)明二等獎、教育部技術(shù)發(fā)明一等獎、電子學(xué)會技術(shù)發(fā)明一等獎、中國發(fā)明專利金獎、世界互聯(lián)網(wǎng)大會15項世界互聯(lián)網(wǎng)領(lǐng)先科技成果等。
△?圖3(a)“廣播-計算”編程框架(b)內(nèi)存通道內(nèi)的廣播機制
(c)內(nèi)存通道間的廣播機制(d)多內(nèi)存通道下“廣播-計算”框架通信部分的多核實現(xiàn)
關(guān)于ISCA
ISCA(International Symposium on Computer Architecture,國際計算機體系結(jié)構(gòu)大會)是提出或發(fā)現(xiàn)計算機體系結(jié)構(gòu)新思想、新方法和新成果的重要國際會議,被譽為計算機體系結(jié)構(gòu)領(lǐng)域最權(quán)威的會議之一,與MICRO、HPCA 并稱為體系結(jié)構(gòu)三大頂會。超標量架構(gòu)、多級緩存、同步多線程和緩存一致性等都在ISCA上首次被提出。自1973年以來,ISCA已成功舉辦48屆。
—?完?—




