允中 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
還在為音視頻質量評估苦惱嗎?
視聽時代,音視頻應用越來越廣泛:直播、短視頻、視頻節(jié)目、音視頻通話……近期由于新冠疫情帶來的在線協(xié)同辦公、在線教育類產品的崛起,更帶來了線上音視頻需求的爆發(fā),用戶對音視頻質量訴求也愈加強烈。
有沒有高效又有“質保”的方法?
騰訊最新開源來了。
騰訊多媒體實驗室,近期設計的基于深度學習的全參考視頻質量評估算法DVQA,在Github上正式開源,該算法模型的性能,目前還在公開測試數據集上取得業(yè)界領先成績。
解決什么問題?
在整個視頻鏈路中,大部分模塊都可以精確度量,如采集、上傳、預處理、轉碼、分發(fā)等。然而未知的部分卻恰恰是最關鍵的部分,即用戶的視頻觀看體驗到底怎么樣。
目前行業(yè)內的視頻質量評估方法分為兩大類:客觀質量評估與主觀質量評估。
前者計算視頻的質量分數,又根據是否使用高清視頻做參考、源視頻是專業(yè)視頻還是用戶原創(chuàng)視頻等進一步細分。
后者主要依賴人眼觀看并打分,能夠直觀反映觀眾對視頻質量的感受。
然而,這些方法仍存在耗時費力、成本較高、主觀觀感存在偏差等難題。
而騰訊多媒體實驗室提出的視頻質量評估解決方案,首先結合業(yè)務需求,使用“在線主觀質量評測平臺”,來構建大規(guī)模主觀質量數據庫。
同時使用所收集的主觀數據來訓練基于深度學習的客觀質量評估算法。
最后把訓練好的質量評估算法部署到業(yè)務線中,閉環(huán)監(jiān)控可能存在的質量問題。
從以上三個角度出發(fā),DVQA能夠在兼顧不同業(yè)務、場景的前提下,滿足效率與精度兩大需求。
DVQA包含多個質量評估算法模型,本次開源的是針對PGC視頻的算法C3DVQA。
本項目使用Python開發(fā),深度學習模塊使用PyTorch。
代碼使用模塊化設計,方便集成較新的深度學習技術,靈活的自定義模型,訓練和測試新的數據集。
在算法設計上,C3DVQA所使用的網絡結構如下:
其輸入為損傷視頻和殘差視頻。網絡包含兩層二維卷積來逐幀提取空域特征。級聯后使用四層三維卷積層來學習時空聯合特征。
三維卷積輸出描述了視頻的時空掩蓋效應,再使用它來模擬人眼對視頻殘差的感知情況:掩蓋效應弱的地方,殘差更容易被感知;掩蓋效應強的地方,復雜的背景更能掩蓋畫面失真。
網絡最后是池化層和全連接層。池化層的輸入為殘差幀經掩蓋效應處理后的結果,它代表了人眼可感知殘差。全連接層學習整體感知質量和目標質量分數區(qū)間的非線性回歸關系。
效果如何?
在評測結果上,騰訊多媒體實驗室在LIVE和CSIQ兩個視頻質量數據集上對所提出算法的性能進行驗證。
并使用標準的PLCC和SROCC作為質量準則來比較不同算法的性能。
將所提出的C3DVQA與常用的全參考質量評估算法進行對比,包括PSNR,MOVIE,ST-MAD,VMAF和DeepVQA,結果如下:
目前該評估算法已在騰訊內外部多款產品中進行使用驗證,如騰訊會議就借助實驗室上百個符合ITU/3GPP/AVS等國外內標準的指標進行評判,閉環(huán)監(jiān)控全網的用戶體驗質量,從用戶真實體驗出發(fā),不斷優(yōu)化產品性能。
出品團隊
騰訊多媒體實驗室,騰訊旗下頂尖的音視頻通信和處理研發(fā)團隊,專注于實時音視頻通信、音視頻編解碼前沿算法研究、音視頻國際標準、計算機視覺圖像處理、端到端音視頻質量評測。在實時音視頻通信和處理技術、音視頻國際標準等領域積累了完整的解決方案和領先的技術水平。
最初名“騰訊音視頻實驗室”,2019年正式更名為“騰訊多媒體實驗室”。
目前實驗室掌舵者為劉杉博士,騰訊杰出科學家,也是騰訊T5——騰訊技術體系最高職級中的唯一一位女性。
劉杉本科畢業(yè)于清華大學電子工程系,碩士和博士畢業(yè)于美國南加州大學電機工程系,2017年正式加盟騰訊。
傳送門:
開源地址:
https://github.com/Tencent/DVQA
國內鏡像地址:
https://git.code.tencent.com/Tencent_Open_Source/DVQA
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節(jié),請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
?’?’ ? 追蹤AI技術和產品新動態(tài)




