25個(gè)視頻神同步,還能給視頻聲音移花接木,谷歌開(kāi)源最新自監(jiān)督算法
讓AI理解視頻里的每一幀
曉查 發(fā)自 凹非寺
量子位 出品 | 公眾號(hào) QbitAI
對(duì)于AI來(lái)說(shuō),識(shí)別視頻里發(fā)生了什么已經(jīng)不是難事,訓(xùn)練它的方法就是用帶有標(biāo)簽的視頻數(shù)據(jù)集進(jìn)行監(jiān)督學(xué)習(xí)。
比如我們給AI看帶有“棒球”標(biāo)簽的視頻,然后它就能知道這是什么運(yùn)動(dòng)。但這是遠(yuǎn)遠(yuǎn)不夠的,我們希望它不僅能知道這是什么運(yùn)動(dòng),還希望它能預(yù)測(cè)球何時(shí)被投出去。
可是要讓AI理解視頻里每一幀的內(nèi)容太難了,因?yàn)槟悴豢赡苤饚瑢?duì)視頻做標(biāo)記,用監(jiān)督學(xué)習(xí)的方法是不切實(shí)際的。
所以谷歌的研究人員提出了一種時(shí)間周期一致性學(xué)習(xí)(TCC)的自監(jiān)督學(xué)習(xí)算法,可以在一段連續(xù)過(guò)程中,找到每一幀和某個(gè)具體動(dòng)作的對(duì)應(yīng)關(guān)系。
目前,谷歌已經(jīng)開(kāi)源了TCC的代碼,希望讓用戶能夠在自己開(kāi)發(fā)的程序中用上這種最新算法。
TCC原理
當(dāng)一個(gè)人想去倒一杯飲料時(shí),他會(huì)去伸手去拿茶壺、酒瓶或水杯。這是一種按特定順序發(fā)生的事件。相同類型的視頻都會(huì)有類似的時(shí)間先后對(duì)應(yīng)關(guān)系。
關(guān)鍵幀對(duì)于所有倒水視頻是相似的,并且存在許多變化因素,例如視點(diǎn)、物體大小,容器形狀或倒水速度的差異。
TCC利用周期一致性原則在相同動(dòng)作的視頻中找到這種對(duì)應(yīng)關(guān)系,通過(guò)對(duì)齊視頻來(lái)學(xué)習(xí)有用的視覺(jué)表征。
首先,訓(xùn)練算法通過(guò)單獨(dú)提取每個(gè)幀來(lái)產(chǎn)生視頻幀的嵌入。然后選擇用于TCC學(xué)習(xí)的兩個(gè)視頻,使用其中一個(gè)作為參考視頻,用它的幀嵌入來(lái)識(shí)別來(lái)自第二個(gè)視頻相同動(dòng)作的最近幀。
隨著訓(xùn)練過(guò)程的進(jìn)行,嵌入器對(duì)在動(dòng)作的上下文中產(chǎn)生對(duì)每個(gè)視頻幀的語(yǔ)義理解,改善和降低了周期一致性損失。
在下圖中,谷歌展示了使用TCC訓(xùn)練的模型,該模型來(lái)自賓夕法尼亞動(dòng)作數(shù)據(jù)集中進(jìn)行深蹲練習(xí)的人的視頻。
圖中左側(cè)的每個(gè)點(diǎn)對(duì)應(yīng)于幀嵌入,點(diǎn)的位置隨著當(dāng)前視頻幀動(dòng)作而變化。盡管在姿勢(shì)、光照、身體等方面存在許多差異,TCC還是能在不提供標(biāo)注的情況將將兩個(gè)視頻同步起來(lái)。
谷歌還將TCC與其它有監(jiān)督學(xué)習(xí)算法進(jìn)行對(duì)比。在識(shí)別高爾夫揮桿和網(wǎng)球發(fā)球這個(gè)兩個(gè)動(dòng)作時(shí),有監(jiān)督學(xué)習(xí)需要50個(gè)標(biāo)記樣本才能達(dá)到和TCC一樣的準(zhǔn)確度,而TCC在僅有一個(gè)標(biāo)記樣本的情況下就已經(jīng)有很高準(zhǔn)確度了。
實(shí)際應(yīng)用
TCC可以在只有一個(gè)標(biāo)記視頻的情況下,將其它同類視頻的動(dòng)作階段進(jìn)行分類,并且可以用參考視頻一次對(duì)齊多個(gè)剪輯視頻,做到“神同步”。
下面就是TCC將25個(gè)棒球投手視頻的動(dòng)作完全同步到一致的例子:
此外,TCC還可以將與一個(gè)視頻中的任何幀相關(guān)聯(lián)的元數(shù)據(jù)傳輸?shù)搅硪灰曨l中。比如將一個(gè)倒水視頻中的聲音傳輸?shù)搅硪粋€(gè)視頻中,做到音畫(huà)同步,聽(tīng)起來(lái)毫無(wú)違和感。
博客地址:
https://ai.googleblog.com/2019/08/video-understanding-using-temporal.html
源代碼地址:
https://github.com/google-research/google-research/tree/master/tcc
- 腦機(jī)接口走向現(xiàn)實(shí),11張PPT看懂中國(guó)腦機(jī)接口產(chǎn)業(yè)現(xiàn)狀|量子位智庫(kù)2021-08-10
- 張朝陽(yáng)開(kāi)課手推E=mc2,李永樂(lè)現(xiàn)場(chǎng)狂做筆記2022-03-11
- 阿里數(shù)學(xué)競(jìng)賽可以報(bào)名了!獎(jiǎng)金增加到400萬(wàn)元,題目面向大眾公開(kāi)征集2022-03-14
- 英偉達(dá)遭黑客最后通牒:今天必須開(kāi)源GPU驅(qū)動(dòng),否則公布1TB機(jī)密數(shù)據(jù)2022-03-05



