終端側AI才是生成式AI規模化的未來 | 高通顏辰巍@MEET2024
原因有三。
編輯部 整理自 MEET2024
量子位 | 公眾號 QbitAI
縱觀剛剛過去的MEET 2024智能未來大會,終端側AI儼然成為其中一大熱詞。
為什么大家都在談論這一趨勢?
在大會現場,高通技術公司產品管理高級副總裁顏辰巍歸納了三點原因:
一是隨著模型參數越來越大、相關應用以及用戶越來越多,云計算推理成本和綜合成本將急劇增加,將難以支持生成式AI規模化發展。
二是數據在哪里,AI推理就應該在哪里進行,這不僅最經濟也更為保護用戶隱私。
三是有些應用場景沒有5G數據連接,這時候就必須有本地計算能力。
基于此,顏辰巍認為:
只有當終端就能運行基于AI大模型的用例時,端側與云側能很好地結合,生成式AI才能大規模普及,發揮出所有的潛力。

為了完整體現顏辰巍對終端側AI的見解和思考,量子位在不改變原意的基礎上,對他的演講內容進行了編輯整理。
關于MEET 智能未來大會:MEET大會是由量子位主辦的智能科技領域頂級商業峰會,致力于探討前沿科技技術的落地與行業應用。今年共有數十家主流媒體及直播平臺報道直播了MEET2024大會,吸引了超過300萬行業用戶線上參會,全網總曝光量累計超過2000萬。
演講要點
- 當數十億用戶都日常使用生成式AI時,云經濟顯然難以支持生成式AI規模化擴展。
- 只有當終端就能運行基于AI大模型的用例時,端側與云側能很好地結合,生成式AI才能大規模普及,發揮出所有的潛力。
- 隨著基礎模型的創新,很多用例可以完全在終端上運行。而這將實實在在的改變人們互動的方式。
- 終端側AI模型的發展不能只依賴文本或單一的輸入或輸出形式,多模態生成式AI一定是未來的發展方向。
(以下為顏辰巍演講全文)
終端側AI為什么是AI的未來?
大家早上好,今天非常高興能夠來到現場,為大家介紹高通公司在AI,特別是終端側AI領域的愿景。
高通公司認為,生成式AI正在開啟人與終端交互的全新方式:
通過輸入提示就可以生成文本、圖像、代碼、音樂和語音,為我們帶來變革產業、生產力、生活娛樂方式的全新應用場景和功能。

接下來,我想談一談,為什么除了網絡側云端的生成式AI之外,讓生成式AI在終端側運行才能發揮生成式AI的所有巨大潛力。
當前生成式AI領域正出現多個關鍵趨勢:第一,模型參數大大增加;第二,圍繞著基礎模型每天都在涌現新的應用;第三使用用戶數大大增加。
這樣就造成云計算推理不只是每次運行成本增加,綜合成本也會急劇增加。
當數十億用戶都日常使用生成式AI時,云經濟顯然難以支持生成式AI規模化擴展。
這就是我們必須在終端側支持生成式AI的第一個原因。

第二,大部分的數據產生在端側,比如用戶的聊天記錄、辦公記錄、視頻和照片等等,所以在終端側處理AI是最經濟的,也能夠更好的保護用戶隱私。
第三,有些應用場景可能沒有5G數據連接,比如在野外,車座艙里的司機與車交互的應用。這時候就必須有本地計算能力。
所以只有當終端就能運行基于AI大模型的用例時,端側與云側能很好地結合,生成式AI才能大規模普及,發揮出所有的潛力。
另外還有一個趨勢更重要。
大語言模型的性能正在變得愈發強大,同時我們觀察到能夠實現更高準確度、更好KPI,同時適合終端側運行的參數規模在150億以下的模型,覆蓋了自然語言處理、編程、數學推理、圖像或視頻理解等豐富用例。

很多超大的云端模型也都推出了經過優化的終端側版本。
隨著基礎模型的創新,很多用例可以完全在終端上運行。而這將實實在在的改變人們互動的方式。
PC和手機都已有落地方案
接下來,我們看一下高通的硬件和軟件解決方案。
驍龍品牌大家都非常熟悉,驍龍已成為全球近30億部終端的核心。
除了智能手機領域,驍龍也在不斷往更多領域擴展,包括筆記本電腦、汽車、XR設備、平板等等。
隨著行業進入生成式AI的全新時代,我們正在開啟全新的突破,讓驍龍成為面向終端側生成式AI的首選平臺。
驍龍的一貫優勢在于我們非常注重低功耗計算和連接能力的完美結合,結合我們出色的異構計算能力,對AI模型的支持和優化,使得我們能和廠家和生態一起快速推動終端側AI的規模化發展。
在今年10月底,我們發布了兩款專為生成式AI而打造的全新平臺。
一個是面向PC的驍龍X Elite平臺,另一個是第三代驍龍8移動平臺,目前也已經有多款搭載第三代驍龍8的旗艦終端面市。

面向PC的驍龍X Elite
驍龍X Elite平臺是驍龍在PC領域的巨大突破,它是我們面向未來AI PC的最強大、最先進、最智能的平臺。
它的性能和能效,完全不同于業內迄今為止的任何產品。它采用全新的、高通自主設計的基于ARM指令集的Oryon CPU架構。
它也是首個能夠通過雙核增強使得內核性能提升,實現主頻達到4GHz以上的ARM架構CPU核心。
除了CPU,驍龍X Elite還具備最佳集成圖形性能和高通AI引擎。
高通AI引擎采用異構計算架構,包括三部分。一個是剛才提到的CPU,另一個是進行圖形處理的GPU,以及第三部分是為了解決在端側運行AI大模型的低功耗大算力需求,專門為AI計算量身定制的NPU。
驍龍X Elite的Hexagon NPU能夠支持45TOPS的出色AI性能,通過NPU、CPU和GPU能夠整體實現75TOPS的AI算力,與其他PC平臺相比AI性能十分領先,所以我們非常有信心驍龍X Elite能夠支持AI PC應用出色落地。
面向手機的第三代驍龍8
在智能手機方面,第三代驍龍8的終端側AI也是業界領先水平,尤其是Hexagon NPU與前代相比性能提升了98%,能效也提升了40%。我們正在與多家廠商共同合作,基于第三代驍龍8面向用戶打造生成式AI應用。
在硬件方面,除了NPU運算能力之外,AI因為巨大的數據量,對內存速度和帶寬也有很高的要求。
現在,我們在第三代驍龍8上還支持業內最新的LPDDR5-x內存,頻率達到4.8GHz,通過更快的數據速度和更大帶寬支持用戶運行更大、更復雜的AI模型。
基于我們強大的硬件生成式AI技術,第三代驍龍8能夠支持100億參數的模型,運行速度能夠達到20個token/秒。
舉一個具體應用的例子,在2023年巴塞羅那世界移動通信大會上,我們第一次展示了Stable Diffusion在驍龍移動平臺上運行的技術演示,當時能夠在15秒內生成圖片。
現在通過第三代驍龍8移動平臺對算力和模型的不斷優化,我們運行Fast Stable Diffusion生成圖片僅需不到1秒。
高通AI軟件棧以及開發工具
除了行業領先的硬件,支持在既定功耗下實現更高性能,我們在AI業務領域的關鍵要素還包括高通AI軟件棧以及開發工具。
高通AI軟件棧作為領先的邊緣側軟件棧,其核心是高通神經網絡處理SDK和高通AI引擎Direct,連接芯片與所有主流AI框架。
它面向我們的合作伙伴、用戶和開發人員提供了一個集成所有AI框架、開發者庫、全方位工具鏈、操作系統的整合平臺,讓他們得以在搭載驍龍平臺的終端上打造應用,并實現“一次開發、多次部署”。
我們感到非常自豪的是已經有很多廣受歡迎的生成式AI模型,其中也包括很多來自中國合作伙伴的模型,已經能夠在驍龍平臺上運行,我們期待這些模型讓開發者能夠創造出更多令人驚艷的體驗。
終端側AI模型的發展不能只依賴文本或單一的輸入或輸出形式,我們認為多模態生成式AI一定是未來的發展方向。
視覺、文本和語音的結合是實現完全直觀體驗的關鍵。我們的終端應該能夠像人一樣處理多種輸入類型,我們很期待和合作伙伴盡快為這些模型提供支持。

最后總結一下今天給大家介紹的內容:
一個是第三代驍龍8能夠支持在終端側運行高達100億參數的生成式AI模型,并以20 token/秒的速度運行大語言模型,僅需不到一秒就能使用Fast Stable Diffusion在智能手機上生成圖像,為用戶帶來響應更快、更高效、更安全的AI應用。

另一個是驍龍X Elite平臺,它的AI算力還要更高,是高通公司迄今為止面向PC打造的最強計算處理器。
憑借一流的CPU性能、領先的終端側AI推理和支持多天續航的高能效,顯著提升PC體驗。
驍龍X Elite專為AI打造,支持在終端側運行超過130億參數的生成式AI模型,憑借快達競品4.5倍的AI處理速度,將繼續擴大我們在AI領域的領先優勢。
高通在AI硬件和軟件工具上所做的工作和積累,能夠最大程度上支持我們的OEM合作伙伴和應用開發者利用高通平臺,盡快打造讓消費者真正眼前一亮的體驗和應用。
我們對在終端上運行更多生成式AI倍感興奮,它將與云計算結合,完成更多的重負載工作,使生成式AI的變革成為現實。
我們很期待未來能有機會與各位合作。謝謝。
- 北大開源最強aiXcoder-7B代碼大模型!聚焦真實開發場景,專為企業私有部署設計2024-04-09
- 剛剛,圖靈獎揭曉!史上首位數學和計算機最高獎“雙料王”出現了2024-04-10
- 8.3K Stars!《多模態大語言模型綜述》重大升級2024-04-10
- 谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用2024-04-10




