加盟依圖科技后,顏水成首篇頂會論文提出“高效多人體姿態(tài)檢測SPM”
唐木 發(fā)自 天龍寺
量子位 出品 | 公眾號 QbitAI
顏水成團隊研究實力依然強勁。
從360到依圖,顏水成依然保持著高質(zhì)量的學術(shù)輸出。
最近提出的單階段高效人體姿態(tài)檢測模型SPM就是最好的例證,論文被ICCV收錄。
這篇論文從全新的角度處理了單圖像多人姿態(tài)檢測的問題,通過新提出的結(jié)構(gòu)化位姿表示方法(Structured Pose Representation)將多人姿態(tài)檢測問題從先前的兩階段方法濃縮為單階段檢測,大幅度提高了人體位姿檢測的效率和精度。
讓我們先來看看這種新方法的檢測結(jié)果,對于單張圖像可以有效檢測出其中包含的人體及其每個關(guān)節(jié)的位置信息。
甚至可以檢測面部關(guān)鍵點位置:
三維檢測也不再話下:
在保證精度和性能的同時,這種高效方法在速度上達到了將近20幀的速度,大幅超越先前算法。
結(jié)構(gòu)化位姿表示
這種方法的關(guān)鍵在于顏水成團隊提出了一種新的位姿表達方法SPR(structure pose representation)將人體實例的位置關(guān)節(jié)的位姿統(tǒng)一起來,簡化了人體檢測和關(guān)節(jié)定位的流程,從而大幅圖提升了多人位姿估計的處理效率。
這種新的表示方法將圖像中的人體和關(guān)節(jié)位姿通過結(jié)構(gòu)化和層次化的方式來呈現(xiàn):
要充分理解SPR這種新表達的優(yōu)勢,我們需要先回顧一下先前對于位姿檢測方法的流程。
多人位姿檢測的任務(wù)是在給定的圖像中估計出每一個人體實例的位置及其關(guān)節(jié)的位姿。
目前多人位姿估計將人體位置檢測和關(guān)節(jié)位姿檢測作為任務(wù)的兩個階段來進行,主要是策略主要有自底向上和自頂向下兩種方法。
自頂向下的方法可以簡單理解為先檢測人再分別檢測每個人的關(guān)節(jié)位姿。
這類方法首先利用人體檢測器來定位和分離圖像中每一個人體實例,隨后再利用單人位姿估計器來對每一個實例的關(guān)節(jié)位姿進行檢測和定位。
自底向上的方法則是一種先關(guān)節(jié)后人體的思路。這類方法首先利用關(guān)節(jié)估計器尋找出圖像中所有的關(guān)節(jié)位姿,而后估計出圖中的人體實例,并通過求解圖切分問題將對應(yīng)的關(guān)節(jié)賦予對應(yīng)的人。
無論是哪種方法,都需要進行兩次檢測,一次檢測人的位置,一次檢測關(guān)節(jié)的位置。兩個網(wǎng)絡(luò)就圍著同一張圖像需要處理兩次甚至更多次,這還不算數(shù)據(jù)交換和后處理帶來的延遲。
如果可以將兩個階段的檢測任務(wù)統(tǒng)一到一個框架里,一個網(wǎng)絡(luò)一次推理即可完成,那樣是不是就可以大大提高計算效率了?!
先前的方法之所以需要兩個階段,主要是由于關(guān)節(jié)位姿的表示需要基于人體實例的位置來進行。顏水成團隊從這個角度出發(fā),探索了新的關(guān)節(jié)位姿表達方式SPR。
想要單階段實現(xiàn)多人位姿估計,就需要一個統(tǒng)一人體位置和關(guān)節(jié)位置的表達。SPR提出了一個很具有啟發(fā)的觀點,它在常規(guī)的關(guān)節(jié)位置外引入了一個輔助關(guān)鍵位置——基準關(guān)節(jié),這個基準關(guān)節(jié)就代表了人體實例的位置。
這個獨特的關(guān)節(jié)表示成為了解決問題的關(guān)鍵所在。
每個人體關(guān)鍵就可以表示為基于這一基準關(guān)節(jié)的偏移。在這樣的表達下,檢測問題就被轉(zhuǎn)換為了預測每個人體對應(yīng)的基準關(guān)節(jié)以及各個關(guān)節(jié)相對于基準關(guān)節(jié)的偏移量,兩階段為題就可以通過統(tǒng)一的關(guān)節(jié)表達而簡化為單階段問題:
這就是需要進行估計的量,只需要估計出圖中每個人體基準關(guān)鍵的位置和每個關(guān)鍵的相對偏移就能實現(xiàn)多人位姿估計。需要指出的是,只需要將對應(yīng)關(guān)節(jié)的偏移加上基準位姿就可以轉(zhuǎn)換為先前的第i個人第j個關(guān)節(jié)的位姿表達:
這種方法看上去已經(jīng)很好地將人體位置和關(guān)節(jié)位置統(tǒng)一在了一起。但人是在運動的,有些關(guān)節(jié)離中心的基準關(guān)節(jié)偏移太大,直接從圖像中回歸出這些關(guān)節(jié)的偏移量難度較大誤差也大。怎么辦呢?
看看自己的手,從肩膀到手肘,從手肘到手腕,一級級相連。似乎手腕到手肘更近一些?
就是這個思路!基于人體的運動結(jié)構(gòu),將關(guān)節(jié)的位移分為了四個層級,將相對于基準關(guān)節(jié)的偏移轉(zhuǎn)換為了相對于上一級關(guān)節(jié)的偏移。其中基準關(guān)節(jié)也就是人體位置在第一層,包括脖子、肩膀、臀部等軀干關(guān)節(jié)被歸為第二層,頭、肘、膝蓋則在第三級上、最后腕和踝則在最后一級。
人體各個關(guān)節(jié)偏移被重新表示為了與相鄰層級上一關(guān)節(jié)的相對偏移(加上了波浪線的新位移)。
這樣,手腕到身體中心的偏移就被巧妙地分解為手到肘、肘到肩、肩到中心的短距離位移疊加,減小了偏移估計的難度同時也充分利用了軀干構(gòu)造的結(jié)構(gòu)信息。
快到飛起的SPM
有了這種新的統(tǒng)一的結(jié)構(gòu)化的表示,新方法也應(yīng)運而生。
利用這種統(tǒng)一的表示方法,單階段推理模型的任務(wù)就變得十分清晰了,從圖像中估計出每個人體實例的關(guān)節(jié)集合,包括了基準關(guān)節(jié)和各個關(guān)節(jié)相對基準關(guān)節(jié)的相對基準關(guān)節(jié)的偏移情況。
這一名為SPM的模型采用了Hourglass network作為主干,這一網(wǎng)絡(luò)模型由多個Hourglass模塊堆疊而成,每個模塊則利用了U-Net的結(jié)構(gòu)來進行特征抽取和解碼用于關(guān)節(jié)定位。為了充分復用低層級的空間信息來優(yōu)化高層語義信息,SPM加入了多個跳接層來實現(xiàn)跨層級的信息流動。
在原始Hourglass模型的基礎(chǔ)上,SPM不僅使用了置信度回歸分支來預測每個人體的基準位置、同時加入了偏移回歸分支來預測每個人體關(guān)節(jié)的偏移圖。通過這樣的方式SPM就能在一次前傳中獲得多人位姿的估計結(jié)果。
其損失函數(shù)也因此包含了基準關(guān)節(jié)損失和各個關(guān)節(jié)偏移預測損失的兩部分:
實驗結(jié)果
這一模型的有效性在包括MPII,PASCAL-Person-Part,MSCOCO以及CMU Panoptic等多個人體位姿數(shù)據(jù)集上進行了實驗。其中前三個為二維圖像數(shù)據(jù)集,最后一個為3D空間位姿標記的數(shù)據(jù)集。
研究人員首先在MPII數(shù)據(jù)集上對多種算法的性能進行了對比,結(jié)果顯示基于新表示方法下的SPM模型可以達到58ms的速度,比先前兩階段的方法中最快的自底向上方法提升了約五倍的速度,并實現(xiàn)了78.5%的mAP值,在效率和精度上都超過了先前的方法。
此外,研究人員還發(fā)現(xiàn)將SPR替換為層次SPR還可以進一步提高模型的mAP,特別是對于離身體中心較遠的腕和踝都得到了將近4%的mAP提升。結(jié)果清楚的表明關(guān)節(jié)的分層表示可以顯著提高多人位姿估計任務(wù)的性能。
這種方法還可以很方便的拓展到三維情況,在CMU Panoptic數(shù)據(jù)集中進行的實驗表明SPM對于位姿變化、遮擋、尺度和深度變化都很魯棒。
它改變了先前只能定性測評三維位姿數(shù)據(jù)的狀況,并在這一數(shù)據(jù)集上達到了77.8的3D-PCK。
顏水成團隊
這一單階段多人位姿檢測模型在精度和速度上都實現(xiàn)了非常大的突破,讓高速的多人位姿檢測成為可能,同時也為三維位姿檢測問題給出了可能的解決方案。
論文來自新加坡國立大學和依圖科技,這也是顏水成履新依圖之后發(fā)布首篇會議論文。
一作聶學成,是顏水成和馮佳時聯(lián)合指導的博士生,目前正在NUS進行計算機視覺方面的研究工作,并在頂會頂刊上發(fā)表了多篇優(yōu)秀論文。
二作張健鋒畢業(yè)于武漢大學,目前在馮佳時老師的指導下在NUS作為研究助理與聶學成緊密合作開展視覺方面的研究工作。
顏水成老師是視覺領(lǐng)域的優(yōu)秀科學家,作為NUS視覺團隊的帶頭人為學界貢獻了諸多研究成果,目前是依圖科技CTO。
馮佳時老師曾是顏水成老師的博士生,研究方向包括機器學習、深度學習、大規(guī)模機器學習及其在視覺、數(shù)據(jù)分析和人工智能方面的應(yīng)用,目前領(lǐng)導著NUS學習與視覺實驗室課題組的研究工作。
論文傳送門:
https://arxiv.org/pdf/1908.09220.pdf




