星際蟲王IA退役2年搞AI,現在自嘆不如了
DI-star超越了IA,可挑戰世界級選手
金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
這年頭,直播講AI,真算不上什么新鮮事。
但要是連職業電競選手,都開播主講呢?
沒開玩笑,是真事。
這位講AI的主播,就是那個《星際爭霸2》的蟲王——IA。
然后,他講AI的畫風是這樣的:
但有一說一,講AI畢竟還是一件嚴謹的事兒。
IA的這波操作,怕不是在搞什么噱頭吧?
我們不妨一同來扒一扒。
職業電競玩家,為什么要做這么一件事?
其實,IA能夠開直播講AI,并不是沒有“資本”。
首先他本身就是理工科背景出身,畢業于華中科技大學。
而且早在2年前,IA就從電競圈,一個超大跨步邁進了AI圈——以游戲顧問的身份加入商湯集團X實驗室,而如今,他已經成為了一個全職的決策AI研究員。
時隔兩年,IA這一次在直播間的亮相,并不是簡單地陳述“自身歷練”過程。
而是直接搬出了一系列成果:
自己訓練出來的AI已經落地,可以挑戰《星際爭霸2》復雜的場景,更可以直接對戰頂級水平玩家了!
相關訓練平臺、針對星際2環境的訓練代碼已經開源了!
千億算力訓練出的職業級AI模型也可以免費訪問!這也是目前開源界能接觸到實力最強的星際2 AI模型!
至于為什么要搞這么一件事,IA闡述了自己的理由:
完成未竟之志 。
從IA在《星際爭霸2》的職業生涯來看,他的巔峰是中國的冠軍。
但很遺憾的是,IA并沒有實現問鼎世界冠軍的夢想。
而通過訓練AI智能體,讓它能夠越發地向自己的實力靠攏,打造另一個“AIIA”,甚至是能夠做到超越自己。
或許,這也是一種實現自我理想的方式。
不僅如此,在實現夢想之上,IA在更早的是時候也曾透露過他對電競AI的希冀:
我希望做到的是從AI模仿人類出發,再到人類去模仿它;我希望AI真正拓展人類的認知,拓寬人類的想象力。
從結果上來看,現如今IA確實離這樣的夢想更近了一步。
這時你會問了,之前不是經常有“AI在《星際爭霸2》中戰勝人類”的消息嗎?
確實不假。
但在IA看來,在《星際爭霸2》中AI并沒有完全戰勝人類:
目前還沒有AI,能夠在《星際爭霸2》中完勝人類最強的選手。
而想讓AI完勝人類,還有兩方面的問題亟待解決。
第一就是種族的問題。
從上面的天梯測試圖中不難看出,同樣的AI在玩蟲族時候的表現是最弱的;但蟲族在人類玩家手上,那可是強得一批。
原因在于蟲族是一個被動防守的種族,這就體現到了AI隨機應變能力方面的不足。
第二就是最優策略的問題。
從現在人和AI對戰的事實情況來看,只要人類跟AI過上幾招,很快就能找到它的“套路”,然后對其進行擊破。
因此,AI通過訓練找到的最優策略,很顯然并不是最優解。
既然問題和困難如此重重,IA訓練出來的AI又達到了怎樣的水平呢?
DI-star,了解一下。
這是專門為《星際爭霸2》開發的大規模游戲AI分布式訓練平臺。
目前,DI-star已經在蟲族上達到了宗師級別(Grandmaster)水平。
話不多說,來看下IA在直播間放出的結果。
例如在與臺灣省職業選手Rex的對戰過程中,DI-star靠精細的微操建立前期優勢。
而與前世界冠軍Scarlett的對戰中,DI-star能使用出女王前壓這樣的人類不常見戰術出奇制勝。
不難看出,DI-star已然在對戰過程中的決策層面上開始大放異彩。
那么接下來的一個問題就是:
DI-star是怎么煉成的?
IA在直播過程中,也沒有對這個問題做任何遮掩,而是直接將重要的步驟“拋”了出來。
從整體來看,主要分為兩個過程。
監督學習和強化學習。
首先,就是監督學習。
時間撥回到2020年年初,當DI-star項目正式開始啟動時,團隊總共也只有三四個人,而IA正式在這個時間以星際2游戲顧問的身份加入商湯。
體驗過星際2的玩家都知道,每一場對決都需要經歷“采集資源”、“生產單位”和“戰斗”的過程。
而三者之間又環環相扣,需得是有足夠的智謀,才能做到“運籌帷幄,決勝千里”。
起初,他們經歷了一個非常痛苦的解決bug過程,用團隊自己的話來描述,就是“幾乎訓練不出來任何哪怕有正常操作的AI”。
所以對于DI-star來說,先要做的就是需要去學習,反復觀摩人類的高質量對戰錄像。
為此,商湯X實驗室共用到了16萬場ZVZ(蟲族對蟲族)的錄像,版本跨度為4.8.2到4.9.3。
2020年7月,團隊的AI終于迎來了與人類的首勝,但對手也只是一位剛學習星際2的研究員。
但若僅僅是這般“蹣跚學步”,DI-star的分數也只是能達到3000多分,離戰勝人類頂級玩家的目標遙之甚遠。
因此,商湯X實驗室認為,關鍵的第二個過程就是強化學習。
在他們看來:
AI通過監督學習有了基礎學習能力之后,需要通過互相之間的大量對戰,提升自己的水平。
而在經過大約1億局的對戰后,到了2021年的6月份,DI-star第一次戰勝了IA自己。
在接下來的時間里,IA就帶著“AI版的自己”,邊訓練邊尋找各大人類國手玩家切磋較量。
于是,就這么一步一步,DI-star最終擁有了能夠挑戰世界級選手的實力。
整個過程下來,在看著DI-star一點一滴“成長”的過程中,團隊也有自己的經驗總結:
星際的整個狀態空間太大,AI在訓練過程中,有很多的局面都是沒經歷過的,在這些罕見局面就會出現不會應對的情況,所以在與AI對戰的過程中,只要你打的天馬行空、不按套路出牌就行了。
因此,也可以發現電競AI研究的難點和重點,一方面是增強AI的泛化能力,做到像人類一樣抽象地思考問題;另一方面是希望能夠超越人類的認知,做出比人類更優的決策。
但除此之外,這個過程中的兩個關鍵數據還需被放大關注——
“16萬場錄像”和“1億局對戰”。
單是從數字上就能體現出AI訓練所需要的資源和時間之大了。
但IA卻在直播說:
達到這樣的水平,DI-star相比其它模型,所需要的時間和資源反倒會更少。
而之所以能解鎖這樣的技能,是因為在DI-star之下,有一個十分強勁的“動力”系統,源源不斷地輸出能量——SenseCore AI大裝置。
它可以說是商湯引擎的底層架構了,可以類比為整個引擎夯實有力的地基。
具體而言,先從算力角度來看,商湯通過結合AI芯片以及AI傳感器,構建了亞洲最大的人工智能智算中心(AIDC)。
這個AIDC預計能夠產生每秒3.74百億億次浮點運算的總算力,相當于一天處理時長達到23600萬年!
除此之外,從平臺角度來看,AI大裝置打通了從數據處理、模型生產、模型訓練、高性能推理運算,以及模型部署等等各個環節。
而且不同于其它廠商采用開源工具,商湯這“一整套”都是自研的,具備更強的適配性,更利于模型的部署和應用。
至此,DI-star為何能夠快、準、狠地被“調教”出來,就有了清晰的眉目。
顯然,在商湯的眼里,決策智能是非常重要的。
至于原因,從商湯近幾年的發展歷程變化中,就可以得到清晰的答案。
決策智能——AI行業的下一代增長動力
過去幾年時間中,商湯在計算機視覺的感知層面做了大量的技術積累,賦能了諸如傳統安防、金融、內容鑒別與生產等諸多領域。通過感知能力,解析了大部分的圖片和視頻,一定程度上提高了行業的智能化和自動化程度。
但隨著感知的能力越來越強,信息的維度越來越高,這就為運營、控制、決策類的問題的提升帶來了更多的可能性,但是要求也越來越高。
例如自動駕駛行為控制、開放場景的資源運籌與調度、城市級交通的信號燈控制、車輛的調度和管理、封閉空間人流的優化、大規模活動時人力的調度等等。
而在這種情況,決策型AI便起到了關鍵作用。正如商湯智慧決策與游戲(ADG)事業部總經理兼高級研究總監劉宇曾提到的觀點:
無論從技術的發展,還是從市場和消費者的需求來講,AI不僅要“能聽懂看懂”這個世界,更要有自己的“決策能力和想法”。而在諸如游戲、資源調度、城市管理等部分開放決策類問題上AI已經超越了人,甚至專家的能力,需要決策型的AI提供相關輔助,從而走通最終的價值閉環。
事實上,決策型AI已經在互聯網行業中證明是具備顯著的商業價值,例如它能夠在數據積累成熟的銀行、零售等行業率先落地,完成職業增強或替代從而實現降本增效。
而商湯ADG事業部也在利用自身研發優勢,積極布局面向企業的通用決策任務SaaS平臺、智慧運營服務等產品。
由此可見,從傳統AI的感知智能,向更具挑戰和難度的決策智能躍遷,已然成為科研、產業等領域發展的一個大趨勢。
這也就不難理解商湯為何要發力于此了。
One More Thing
在這次的直播中,IA還為網友們送上了一波“福利”——DI-star項目已開源!
而且是個人PC、1060TI顯卡就能帶得動的那種哦。
不僅如此,DI-star所屬的決策智能平臺OpenDILab也對大家進行了開源。
感興趣的朋友們可以戳下方鏈接去試試了(有保姆級教程哦)~
DI-star開源地址:
https://github.com/opendilab/DI-star
- 共推空天領域智能化升級!趨境科技與金航數碼強強聯手2025-12-09
- Ilya剛預言完,世界首個原生多模態架構NEO就來了:視覺和語言徹底被焊死2025-12-06
- 看完最新國產AI寫的公眾號文章,我慌了!2025-12-08
- 給機器人打造動力底座,微悍動力發布三款高功率密度關節模組2025-12-08



