終端側生成式AI下一步將如何演進?
即將到來的生成式AI趨勢,以及高通技術公司在賦能下一波終端側創新中的角色
Joseph Soriaga博士 高通技術公司技術高級總監
Pat Lawlor 高通技術公司技術市場總監

生成式AI時代已經到來。生成式AI創新正在持續快速發展,并逐步融入人們的日常生活,為用戶提供增強的體驗、提高生產力和帶來全新的娛樂形式。那么,接下來會發生什么呢?本文將探討即將到來的生成式AI趨勢、正在賦能邊緣側生成式AI的技術進步和通向具身機器人之路。我們還將闡述高通技術公司的端到端系統理念如何處在賦能下一輪終端側創新方面的行業最前沿。

△生成式AI能力正在持續多維度提升
即將到來的趨勢和終端側AI的重要性
Transformer因其可擴展性,已成為主要的生成式AI架構。隨著技術的不斷演進,Transformer正在從傳統的文本和語言處理擴展到更多模態,帶來了全新能力。我們正在多個領域看到這一趨勢,比如在汽車行業,通過多攝像頭和激光雷達(LiDAR)的協同實現鳥瞰視角;在無線通信領域,利用Transformer結合全球定位系統(GPS)、攝像頭和毫米波(mmWave)信號,以優化毫米波波束管理。
另一個主要趨勢是生成式AI的能力在這兩方面持續增強:
- 模態和用例
- 能力和KPI
在模態和用例方面,我們看到了語音UI、多模態大模型(LMM)、智能體、視頻/3D的提升。在能力和KPI方面,我們看到了更長上下文窗口、個性化和更高分辨率的提升。
為了充分實現生成式AI的全部潛能,將這些趨勢能力引入邊緣側終端對于實現時延改善、交互泛化和隱私增強至關重要。例如,賦能具身機器人與環境和人類實時交互,這就需要利用終端側處理確保即時性和可擴展性。

面向生成式AI的邊緣平臺技術進步
我們如何將更多生成式AI能力引入邊緣終端呢?通過多維度技術研究,高通將全面推進面向生成式AI的邊緣平臺發展。
我們致力于通過知識蒸餾、量化、投機采樣高效的圖像和視頻架構,以及異構計算等技術優化生成式AI模型,使其能夠在硬件上高效運行。這些技術相輔相成,因此對從多角度解決模型優化和效率挑戰至關重要。
以大語言模型(LLM)的量化為例。大語言模型通常以16比特浮點進行訓練。我們希望在保持準確度的同時壓縮大語言模型,以提高性能。例如,將16比特浮點(FP16)模型壓縮為4位整數(INT4)模型,能夠將模型縮小4倍,同時降低內存帶寬占用、存儲、時延和功耗。
量化感知訓練結合知識蒸餾有助于實現準確的4位大語言模型,但如果需要甚至更低的bits-per-value指標,向量量化(VQ)可幫助解決該問題。向量量化在保持期望準確度的同時,進一步壓縮模型大小。我們的向量量化方法能以INT4線性量化的相似精確性,實現3.125 bits-per-value,實現甚至更大的模型能夠在邊緣終端的DRAM限制內運行。
另一個例子是高效視頻架構。高通正在開發讓面向終端側AI的視頻生成方法更高效的技術。例如,我們對視頻到視頻生成式AI技術FAIRY進行了優化。在FAIRY第一階段,從錨定幀提取狀態。在第二階段,跨剩余幀編輯視頻。優化示例包括:跨幀優化、高效instructPix2Pix和圖像/文本引導調節。
通向具身機器人之路
高通已經將生成式AI的相關工作擴展到大語言模型及其相關用例研究,尤其是面向多模態大模型(LMM)集成視覺和推理。去年,我們在2023年國際計算機視覺與模式識別會議(CVPR 2023)上進行了支持基于實時視覺大語言模型的健身教練技術演示,我們在近期還探索了多模態大模型針對更復雜的視覺問題進行推理的能力。在此過程中,我們在存在運動和遮擋的情況下推斷物體位置方面取得了行業領先技術成果。
然而,與情景式智能體進行開放式、異步交互是一項亟待解決的挑戰。目前,大多數面向多模態大模型的解決方案只具備以下基本能力:
- 僅限于離線文檔或圖像的基于回合的交互。
- 僅限于在視覺問答式(VQA)對話中進行現實的快速抓拍。
我們在情景式多模態大模型方面取得了一些進展,這些模型能夠實時處理直播視頻流,并與用戶進行動態交互。其中一項關鍵創新是針對情景式視覺理解的端到端訓練,這將開辟通向具身機器人之路。
未來將有更多終端側生成式AI技術進步
高通的端到端系統理念處于推動邊緣側生成式AI下一輪創新的行業最前沿。我們持續進行研究,并將新技術和優化快速引入商用產品。我們期待看到AI生態系統如何利用這些新能力,讓AI無處不在,并提供更佳體驗。
- 九章云極獨攬量子位三項大獎:以“一度算力”重構AI基礎設施云格局2025-12-10
- 視頻理解霸榜!快手Keye-VL旗艦模型重磅開源,多模態視頻感知領頭羊2025-11-28
- 中國唯一!阿里千問斬獲全球AI頂會最佳論文2025-11-28
- 第19屆中國投資年會·有限合伙人峰會在滬成功舉辦2025-11-28



