NeurIPS 2020中國入選論文:新一代算法鑒黃師,中科院碩士一作
AI鑒黃師有了通用性,唐馬儒們,終于解放了。
賈浩楠 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
不知道那位不愿意透露姓名的唐馬儒先生,現在看太陽還是不是綠色的?
第一代網絡鑒黃師,犧牲小我,造福了千萬家「doge」。
撇開玩笑不談,維持健康良好的網絡環境,只靠人工鑒黃,根本不現實。
這也是近兩年AI在網絡安全應用的熱門方向。
今年的AI頂會NeurIPS 2020,阿里安全團隊一篇名為《啟發式領域適應》(Heuristic Domain Adaptation)的論文入選。
這項研究的重要之處,在于將遷移學習運用在網絡涉黃信息的鑒別,實現了同一模型在不同場景下的低成本訓練部署。
AI鑒黃師有了通用性,唐馬儒們,終于解放了。
從電商到直播:一套架構應對全場景
AI鑒黃不是新鮮事,2018年,微軟、谷歌、亞馬遜等等巨頭還搞過算法鑒黃大賽,谷歌摘得桂冠。
但是,以往的鑒黃算法,只針對特定場景。
即使同樣針對圖像的算法,在面對不同的應用案例,比如社交媒體或電商時,也需要重新收集數據進行訓練。
忽略某一特定場景下有針對性的訓練,直接套用其他現成算法,結果是十分糟糕的。
風險或違規樣本收集成本較高,業務存在對抗和變異等特點,使得深度學習模型無以為繼,因此研究探索基于小樣本和增量學習技術的模型訓練與迭代,變得非常重要。
現實的情況是,大部分算法面臨著少量訓練數據和廣泛應用場景的矛盾。
阿里安全的解決方案,是將經典的“啟發式搜索”思想,融入到領域適應問題中,來解決在數據不充分情況下的模型訓練問題,實現將人工智能從現有數據學習到的知識遷移到未知場景中。
比如,在鑒黃場景下,目前該研究成果技術可直接從電商場景遷移至直播場景中應用。
與電商場景不同,直播場景不僅有主播等人物,還常常有桌椅家具等繁雜的物品背景,這些差異會導致電商場景下的搜索識別技術遷移應用效果不佳。
通過將“啟發式搜索”思想融入,研究團隊構建了啟發式領域適用的基礎架構,并通過相似性、獨立性、終止點等角度進行約束,使算法模型在相同計算量下,達到最佳效果。
針對復雜任務和場景,遷移學習的魯棒性與可擴展性主要體現為如何更好地提取領域不變特征。
目前,這項成果主要用于內容安全識別,如直播或動漫人物及白描場景下是否涉黃等。
但阿里安全資深算法專家華棠認為,遷移學習的特性,使得這套原理框架可以移植到其他諸多領域,比如在線教育、文娛行業等等。
核心:HDAN
在以往識別分類任務中常采用的經典DAN以及DANN方法中,“直接對齊”會在高維空間產生“障礙物”,從而影響最終算法收斂效果;
HDAN(啟發式領域適應網絡),采取的技術方案借鑒于經典的啟發式搜索,強調在識別具體物體的過程中,額外對環境場景等無關因素進行建模。
在相對固定的環境與場景中,環境特征H(x)并不難以建模。估計的環境信息實際上相當于啟發式信息,用來指導用于商品識別的特征G(x)。
同時估計的環境信息數量還要加以控制,避免過大,影響物品類別信息的建模。
在具體的實現過程中,相似性方面,HDAN強調環境和商品特征應該有區分,但同時也關注容易混淆的特征。
所以相似性分析最終得到的是初始時相似度的約束,而不是全部訓練過程的約束。
在具體的三個領域適應場景中:無監督領域適應(UDA),半監督領域適應(SSDA)和多源域領域適應(MSDA),HDAN都取得了SOTA的結果。
據阿里安全方面介紹,目前這項算法現在已經應用到了阿里云的綠網安全產品中。
在9月底舉行的2020年人工智能開發者大會(AIIA2020),綠網內容識別技術通過中國信息通信研究院性能評估測試,還獲得了官方權威證書。
作者介紹
本文的一作,崔書豪,中科院計算所研三在讀,指導老師是王樹徽。
他的主要研究方向是深度領域適應學習與開放域學習技術。
崔書豪目前在阿里安全團隊實習。
6個月前,量子位介紹過崔書豪同學一作入選CVPR 2020的成果一行代碼提升遷移性能。
今年崔書豪以第一作者向CVPR 2020提交了兩篇論文,另一篇是Gradually Vanishing Bridge for Adversarial Domain Adaptation,也被接收。
- 中國汽車一哥加持,自動駕駛界「大疆」估值沖破百億2025-11-26
- 神盾金磚電池成功挑戰行業首個“整車+整包”帶電六大極端測試2025-09-02
- 對話吉利技術一號位:VLA大模型打底,沖刺全球最大機器人公司2025-09-02
- 全新嵐圖知音正式上市,20.29萬元起2025-08-28



