DeepMind 製新人工智能 懂玩比圍棋更複雜棋類

最新刊於《科學》的研究指,由 DeepMind 製造的人工智能 (AI) DeepNash 已成功掌握另一種棋類遊戲的竅門,並可與人類專家一較高下。

研究針對的是「西洋陸軍棋 (Stratego) 」,該款棋與中國陸軍棋一樣都需要在相遇時揭開判斷大小,以奪得對方軍旗或消滅所有能動的棋子為勝利。不過,西洋陸軍棋棋子數量(雙方各 40 隻)、軍銜較多,以及棋盤設計較簡單沒有鐵路、行營,且有第 3 者擔任裁判判斷軍銜大小。因此,當中會出現不完美信息,令人長期以來認為機器極難掌握勝出的方法。

在是次報告刊出不久之前,已有另一團隊宣布有 AI 懂得玩另一種出現不完美信息的棋類「強權外交 (Diplomacy) 」,該戰棋的最多 7 名玩家必須扮演一戰歐洲置家,並在合作、吞併其他勢力和談判間作出決定。

密歇根大學安娜堡分校研究戰略推理和遊戲理論的電腦科學家 Michael Wellman 表示,近年 AI 征服了不同性質的遊戲功能,或者將其掌握到新的水平,其速度非常驚人。

能駕御複雜不完美信息遊戲

上述西洋陸軍棋的特性使其比國際象棋、圍棋或啤牌複雜得多,而這些遊戲早已被 AI 掌握。在西洋陸軍棋中,總共有 10535 種遊戲可能性,多過圍棋的 10360 種。在遊戲開始時的不完全信息方面,西洋陸軍棋有 1066 個可能的非公開位置 (private positions) 狀態,使只有 106 個此狀態的 2 人對玩德州啤牌相形見絀。

DeepNash 的名字是對美國數學家 John Nash 致敬,他提出的均衡理論(納殊均衡,Nash equilibrium)可以在兩個或以上玩家的非合作博弈 (Non-cooperative game) 中,被所有玩家遵循,沒有玩家會通過自己改變策略來獲益。

DeepNash 配合強化學習算法與深度神經網絡,以找出納殊均衡。強化學習會在遊戲每個狀態尋找最佳策略並指示動作。為了學習最佳策略,DeepNash 與自己進行了 55 億次對局。如果一方獲得獎勵,另一方就會受到懲罰,代表策略的神經網絡參數也會相應地進行調整。最終,DeepNash 的運算趨於一個近似納殊均衡。與 AlphaGo 等之前的博弈 AI 不同,DeepNash 不會搜索博弈樹來優化自身的運算。

在 4 月的兩週時間內, DeepNash 在網上遊戲平台 Gravon 上與人類西洋陸軍棋玩家對局。在 50 場比賽之後, DeepNash 在 2002 年以來的所有 Gravon 西洋陸軍棋玩家中排名第三。

Cicero 「懂」強權外交之術

總部位於紐約市的 Meta AI 研究員 Noam Brown 表示是次研究結果非常令人印象深刻,而 Brown 的團隊正正成功研發出可以玩強權外交的 AI 。

根據 125,261 場涉及人類玩家的網上強權外交玩局數據,Brown 的團隊訓練了人工智能 Cicero 。團隊再將這些數據與一些自我博弈數據相結合,令 Cicero 的戰略推理模塊 (SRM) 學會了以既定博弈狀態和累積的信息,來預測其他玩家的可能策略。團隊報告中指出,在 40 場網上對局中, Cicero 的平均得分是人類玩家的兩倍多,並且在玩過一場以上游戲的參與者中排名前 10% 。

Brown 認為,可以與人類互動並解釋次優甚至非理性人類行為的遊戲 AI ,可以為現實世界的應用鋪路。 他解釋:「如果製造自動駕駛汽車,你不會想假設路上的所有其他司機都是完全理性的,並且會做出最佳行為。」而 Cicero 是朝這個方向邁出的一大步。

來源:

Nature, DeepMind AI topples experts at complex game Stratego

報告:

Perolat, J., de Vylder, B., Hennes, D. & et al. (2022). Mastering the game of Stratego with model-free multiagent reinforcement learning. Science Vol. 378, Issue 6623, pp. 990-996. doi: 10.1126/science.add4679

Bakhtin, A., Brown, N., Dinan, E. & et al. (2022). Human-level play in the game of Diplomacy by combining language models with strategic reasoning. Science. doi: 10.1126/science.ade9097

文/AC

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *