你玩《2048》能拿多少分？AI的最高分紀錄：401912

魚羊 2020-06-23 08:41:48 來源：量子位

光看動圖就酷到沒有人類朋友

魚羊發自凹非寺
量子位報道 | 公眾號 QbitAI

如果讓AI來玩《2048》這樣的游戲，那會是怎樣一種畫面？

現在，有人用強化學習方法實踐了起來。

于是，插上DQN的翅膀，AI從零起步，自己琢磨出了《2048》的玩法：

一起手，是不是就有內味了？

這操作，條理清晰到令人感到舒適。“1000，no；1024，yes”的強迫癥們不禁紛紛點贊，給這只AI貢獻了800+ reddit熱度。

用DQN玩《2048》

調教出這只會玩《2048》的AI的，是一位巴西老哥Felipe Marcelino。目前正在米納斯吉拉斯聯邦大學攻讀CS碩士。

首先，他采用OpenAI Gym構建了自定義強化學習環境。

其中包括兩種2048棋盤表示方式：

模型包含兩種類型的神經網絡：CNN和MLP（多層感知機）。

據Felipe介紹，與MLP相比，以CNN作為特征提取器的智能體表現得更好。

訓完之后，老哥測試了一下，在1000把游戲中，AI有100次達到了2048。

目前，這只用DQN訓練出的AI玩到2048就打住了。

不過，巴西老哥拋磚，又吸引了不少來獻玉的盆友。

比如，同樣采用強化學習方法，將時序差分學習和最大期望搜索相結合的2048控制器。

在10步/秒的策略下，它最高能湊出32768。

而在追求高分的路上，有一位來自日本的選手表現亮眼。

依靠7個卷積層的深度卷積網絡，這只在《2048》這個游戲中最高拿到了401912分。

正如一位網友所說：這正是一個足夠有趣，又不太復雜的強化學習案例。

如果你是剛剛開始學習強化學習，也不妨拿這個小項目練練手~

參考鏈接

《2048》相關開源項目：
https://github.com/FelipeMarcelino/2048-gym
https://github.com/aszczepanski/2048
https://github.com/thomasahle/mcts-2048/

相關論文：
https://www.jstage.jst.go.jp/article/ipsjjip/27/0/27_340/_pdf
http://arxiv.org/abs/1604.05085

— 完 —