終端側(cè)生成式AI下一步將如何演進(jìn)?
即將到來(lái)的生成式AI趨勢(shì),以及高通技術(shù)公司在賦能下一波終端側(cè)創(chuàng)新中的角色
Joseph Soriaga博士 高通技術(shù)公司技術(shù)高級(jí)總監(jiān)
Pat Lawlor 高通技術(shù)公司技術(shù)市場(chǎng)總監(jiān)

生成式AI時(shí)代已經(jīng)到來(lái)。生成式AI創(chuàng)新正在持續(xù)快速發(fā)展,并逐步融入人們的日常生活,為用戶提供增強(qiáng)的體驗(yàn)、提高生產(chǎn)力和帶來(lái)全新的娛樂(lè)形式。那么,接下來(lái)會(huì)發(fā)生什么呢?本文將探討即將到來(lái)的生成式AI趨勢(shì)、正在賦能邊緣側(cè)生成式AI的技術(shù)進(jìn)步和通向具身機(jī)器人之路。我們還將闡述高通技術(shù)公司的端到端系統(tǒng)理念如何處在賦能下一輪終端側(cè)創(chuàng)新方面的行業(yè)最前沿。

△生成式AI能力正在持續(xù)多維度提升
即將到來(lái)的趨勢(shì)和終端側(cè)AI的重要性
Transformer因其可擴(kuò)展性,已成為主要的生成式AI架構(gòu)。隨著技術(shù)的不斷演進(jìn),Transformer正在從傳統(tǒng)的文本和語(yǔ)言處理擴(kuò)展到更多模態(tài),帶來(lái)了全新能力。我們正在多個(gè)領(lǐng)域看到這一趨勢(shì),比如在汽車(chē)行業(yè),通過(guò)多攝像頭和激光雷達(dá)(LiDAR)的協(xié)同實(shí)現(xiàn)鳥(niǎo)瞰視角;在無(wú)線通信領(lǐng)域,利用Transformer結(jié)合全球定位系統(tǒng)(GPS)、攝像頭和毫米波(mmWave)信號(hào),以優(yōu)化毫米波波束管理。
另一個(gè)主要趨勢(shì)是生成式AI的能力在這兩方面持續(xù)增強(qiáng):
- 模態(tài)和用例
- 能力和KPI
在模態(tài)和用例方面,我們看到了語(yǔ)音UI、多模態(tài)大模型(LMM)、智能體、視頻/3D的提升。在能力和KPI方面,我們看到了更長(zhǎng)上下文窗口、個(gè)性化和更高分辨率的提升。
為了充分實(shí)現(xiàn)生成式AI的全部潛能,將這些趨勢(shì)能力引入邊緣側(cè)終端對(duì)于實(shí)現(xiàn)時(shí)延改善、交互泛化和隱私增強(qiáng)至關(guān)重要。例如,賦能具身機(jī)器人與環(huán)境和人類(lèi)實(shí)時(shí)交互,這就需要利用終端側(cè)處理確保即時(shí)性和可擴(kuò)展性。

面向生成式AI的邊緣平臺(tái)技術(shù)進(jìn)步
我們?nèi)绾螌⒏嗌墒紸I能力引入邊緣終端呢?通過(guò)多維度技術(shù)研究,高通將全面推進(jìn)面向生成式AI的邊緣平臺(tái)發(fā)展。
我們致力于通過(guò)知識(shí)蒸餾、量化、投機(jī)采樣高效的圖像和視頻架構(gòu),以及異構(gòu)計(jì)算等技術(shù)優(yōu)化生成式AI模型,使其能夠在硬件上高效運(yùn)行。這些技術(shù)相輔相成,因此對(duì)從多角度解決模型優(yōu)化和效率挑戰(zhàn)至關(guān)重要。
以大語(yǔ)言模型(LLM)的量化為例。大語(yǔ)言模型通常以16比特浮點(diǎn)進(jìn)行訓(xùn)練。我們希望在保持準(zhǔn)確度的同時(shí)壓縮大語(yǔ)言模型,以提高性能。例如,將16比特浮點(diǎn)(FP16)模型壓縮為4位整數(shù)(INT4)模型,能夠?qū)⒛P涂s小4倍,同時(shí)降低內(nèi)存帶寬占用、存儲(chǔ)、時(shí)延和功耗。
量化感知訓(xùn)練結(jié)合知識(shí)蒸餾有助于實(shí)現(xiàn)準(zhǔn)確的4位大語(yǔ)言模型,但如果需要甚至更低的bits-per-value指標(biāo),向量量化(VQ)可幫助解決該問(wèn)題。向量量化在保持期望準(zhǔn)確度的同時(shí),進(jìn)一步壓縮模型大小。我們的向量量化方法能以INT4線性量化的相似精確性,實(shí)現(xiàn)3.125 bits-per-value,實(shí)現(xiàn)甚至更大的模型能夠在邊緣終端的DRAM限制內(nèi)運(yùn)行。
另一個(gè)例子是高效視頻架構(gòu)。高通正在開(kāi)發(fā)讓面向終端側(cè)AI的視頻生成方法更高效的技術(shù)。例如,我們對(duì)視頻到視頻生成式AI技術(shù)FAIRY進(jìn)行了優(yōu)化。在FAIRY第一階段,從錨定幀提取狀態(tài)。在第二階段,跨剩余幀編輯視頻。優(yōu)化示例包括:跨幀優(yōu)化、高效instructPix2Pix和圖像/文本引導(dǎo)調(diào)節(jié)。
通向具身機(jī)器人之路
高通已經(jīng)將生成式AI的相關(guān)工作擴(kuò)展到大語(yǔ)言模型及其相關(guān)用例研究,尤其是面向多模態(tài)大模型(LMM)集成視覺(jué)和推理。去年,我們?cè)?023年國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議(CVPR 2023)上進(jìn)行了支持基于實(shí)時(shí)視覺(jué)大語(yǔ)言模型的健身教練技術(shù)演示,我們?cè)诮谶€探索了多模態(tài)大模型針對(duì)更復(fù)雜的視覺(jué)問(wèn)題進(jìn)行推理的能力。在此過(guò)程中,我們?cè)诖嬖谶\(yùn)動(dòng)和遮擋的情況下推斷物體位置方面取得了行業(yè)領(lǐng)先技術(shù)成果。
然而,與情景式智能體進(jìn)行開(kāi)放式、異步交互是一項(xiàng)亟待解決的挑戰(zhàn)。目前,大多數(shù)面向多模態(tài)大模型的解決方案只具備以下基本能力:
- 僅限于離線文檔或圖像的基于回合的交互。
- 僅限于在視覺(jué)問(wèn)答式(VQA)對(duì)話中進(jìn)行現(xiàn)實(shí)的快速抓拍。
我們?cè)谇榫笆蕉嗄B(tài)大模型方面取得了一些進(jìn)展,這些模型能夠?qū)崟r(shí)處理直播視頻流,并與用戶進(jìn)行動(dòng)態(tài)交互。其中一項(xiàng)關(guān)鍵創(chuàng)新是針對(duì)情景式視覺(jué)理解的端到端訓(xùn)練,這將開(kāi)辟通向具身機(jī)器人之路。
未來(lái)將有更多終端側(cè)生成式AI技術(shù)進(jìn)步
高通的端到端系統(tǒng)理念處于推動(dòng)邊緣側(cè)生成式AI下一輪創(chuàng)新的行業(yè)最前沿。我們持續(xù)進(jìn)行研究,并將新技術(shù)和優(yōu)化快速引入商用產(chǎn)品。我們期待看到AI生態(tài)系統(tǒng)如何利用這些新能力,讓AI無(wú)處不在,并提供更佳體驗(yàn)。



