王者榮耀「絕悟」完全體上線:解禁全英雄,在線約你來戰
強化學習&監督學習
木易 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
騰訊AI Lab與王者榮耀聯合研發的策略協作型 AI「絕悟」,全英雄池解禁,升級成「完全體」了。
11月28日到30日,將限時開放三天公眾體驗。
這次的升級,帶來了新算法,除了突破了可用英雄限制,還優化了禁選英雄博弈策略。
而與此次升級相關的研究,也在近期被NeurIPS 2020和TNNLS分別收錄。
在這兩篇研究中,分別介紹了「絕悟」進行強化訓練和監督訓練具體細節。
那么,「完全體絕悟」是如何訓練出來的呢?
就讓我們順著這次的論文,好好來了解一下。
新的MOBA AI強化學習范式
這次更新帶來的最大亮點便是:全英雄池更新。但是AI來說,英雄數增多,意味著的是陣容組合數量將呈多項式增長。
這對于使用自對弈強化學習進行訓練的AI來說,不甚友好,也是必須面對的問題。
在NeurIPS 2020中,騰訊實驗室提出了一種基于深度強化學習的學習范式,來嘗試解決這個問題。
首先,基于Actor-Learner框架,建立一個分布式的RL架構,并使用離策略(off-policy)的方式產生訓練數據。
之后在進行強化學習中,采用了統一的Actor-Critic網絡結構來詮釋不同英雄的游戲機制以及動作。
另外,研究者還受到神經網絡工作中課程學習的啟發,在訓練設計了一套課程學習方法:先從小任務開始學,然后逐漸增加難度。
具體來講,就是先用固定陣容來訓練多個teacher模型,然后進行蒸餾,把所有teacher的知識蒸餾到一個模型中。
利用了student-driven的策略蒸餾方法,便可以將從簡單任務中學習到的知識轉移到復雜的任務中。
此外,對于完整的游戲來說,禁選英雄(BanPick,BP)也是其中重要的一環。
常見的BP方法有Minimax算法,不過受限于計算難度,只適用于小英雄池。因此,隨著可用英雄數量的增加,便會帶來新的問題。
而騰訊實驗室給出的方案是:基于蒙特卡洛樹搜索(MCTS)和神經網絡進行BP的方法。
在最后的測試中,這個AI展現出了驚人的勝率:
在對抗職業選手中,實現了95.2%的勝率(42局);而對抗高水平的玩家中,則實現了97.7%的勝率(642,047局)。
監督學習,讓AI達到人類高手水平
另外,便是監督學習了。在今年11月14日起開放的「絕悟」第1到19級,就有多個關卡由監督學習訓練而成。
而TNNLS中的論文,便詳細介紹了「絕悟」智能體,是如何進行監督學習的。
監督學習成功的關鍵之一,便是設計好特征和標簽,對于MOBA游戲,騰訊實驗室是這么設計的:
- 特征中,包括兩部分:矢量特征,代表游戲狀態;圖像特征,代表地圖信息。
- 標簽設計也分兩部分:意圖標簽,代表大局觀;行動標簽,表征微操策略。
大局觀對應的多視角意圖
研究人員設計了多視角意圖標簽,包括全局意圖和局部意圖標簽,以對大局觀進行建模。
整個地圖被劃分成24*24的區域塊,然后全局意圖標簽被定義為地圖上發生下一系列攻擊的編號區域。
局部小地圖被劃分為12*12的區域塊,局部意圖標簽是從兩次攻擊事件之間玩家的中途位置提取的,為學習大局觀提供了中間信息。
微操策略的層級動作設計
研究人員設計了分層的動作標簽,用以控制英雄的微操策略。
這其中包括兩層。第一層代表動作類型,比如移動、技能、回城等。第二層代表選定動作的參數,比如方向、位置、目標等。
多模態特征
同時使用了矢量特征和類圖像特征,它們分別表征的是游戲狀態和地圖信息。
其中矢量特征包括血量,技能冷卻,金幣,等級等及時序信息等。
類圖像特征包括局部類圖像特征和全局類圖像特征。
局部類圖像特征的范圍是英雄的局部小地圖,全局類圖像特征的范圍是全局地圖。
在設計好特征和標簽的基礎上,AI建模任務便被定義成了一個層級的多分類問題,之后通過神經網絡模型來解決。
模型簡單來看就是:全局和局部圖像特征經過卷積神經網絡處理,矢量特征通過全連接網絡處理,兩者連接到一起去預測全局和局部的宏觀意圖。
之后進一步的,嵌入大局觀的預測結果,和原有的隱層編碼連接在一起,經過輸出層輸出微操策略對應的標簽。
此外,在大局觀和微操策略間,使用了加權的多任務損失函數進行學習。
而在本研究中的最后測試中,結果也表明:在監督學習后,該AI系統在5V5模式中,能達到人類頂尖業余高手水平。
關于「絕悟」
「絕悟」,是由騰訊AI Lab與王者榮耀聯合研發的策略協作型 AI。名字寓意絕佳領悟力。
其技術研發始于2017年12月,并在2018年12月通過了頂尖業余水平測試。
從去年開始,「絕悟」開始被訓練使用英雄,今年1月AI可以職業水平的英雄達到20名,而4月達到了40名。
技術團隊一年內讓 AI 掌握的英雄數從1個增加到100+個,完全解禁英雄池。因此,此版本得名「絕悟完全體」。
不說了,我要打開王者榮耀去會會這個「完全體」了。
NeurIPS 論文:https://arxiv.org/abs/2011.12692
TNNLS 論文:https://arxiv.org/abs/2011.12582
—完—
- 我在信息學奧賽上,用Bug直接改了驗算數據,拿了滿分算作弊嘛?2020-12-10
- Kaggle八項大獎斬獲其6:用于篩選和分析文獻的paperai2020-12-14
- 生物學50年難題被DeepMind解決了,蛋白質版“阿法狗”預測結構準確性達92.42020-12-01
- BERT輕量化:最優參數子集Bort,大小僅為BERT-large16%2020-11-24




