微軟的麻將人工智慧真的那麼厲害?讓微軟來娓娓道來~(下) @ 布萊恩的創業小窩的部落格

微軟的麻將人工智慧真的那麼厲害?讓微軟來娓娓道來~(下)

現在繼續分享關於麻將的人工智慧給你!這篇要告訴你它們背後的發展秘密!

為何我們會想寫這篇文章?

讀者看到了這篇文章：AI人工智慧又贏了!微軟Suphx突破日本麻將最高紀錄,打敗人類頂尖玩家時，可能會立即聯想到 Google 開發的圍棋人工智慧 Alpha Go 於兩年前以近乎完美姿態打敗人類選手李世乭和柯潔的新聞。根據微軟所說：研發麻將 AI 人工智慧的技術門檻可說是比研發圍棋、德州撲克等棋牌、博弈類的遊戲難多了！是真的嗎？這篇取材自微軟亞洲研究院的新聞稿，解釋為何同樣是人工智慧，為何研發 AI 麻將技術門檻就是比 Alpha Go 等棋類 AI 高的還多！

「全新機制、教練先知、全面預測」對付麻將AI研發瓶頸

全新機制應對「巨大的狀態空間」

例如，為了應對「巨大的狀態空間」，研究團隊引入了全新的機制：對探索過程的多樣性，進行動態調控，讓 Suphx 可以比傳統算法更加充分地試探牌局狀態的多種可能。另一方面，一旦某一輪的底牌給定，其狀態子空間會大幅縮小；所以研究團隊讓Suphx 在推理階段根據本輪的牌局，來動態調整策略，對縮小了的狀態子空間進行更有針對性的探索，從而更好地根據本輪牌局的演進做出自適應的決策。

「先知教練技術」應對「非完美資訊」

其次，針對「非完美訊息」博弈的挑戰，Suphx 創新性地嘗試了先知教練技術來提升強化學習的效果。其基本思想是在自我博弈的訓練階段，利用一些不可見的隱藏訊息，來引導 AI人工智慧模型的訓練方向，使其學習路徑能更加清晰、更加接近完美資訊意義下的最佳路徑，從而讓 AI人工智慧模型能更加深入地理解可見信息，從中找到有效的決策依據。

「全盤預測技術」理解「復雜的獎勵機制」

另外，對於麻將復雜的牌面表達和計分機制，研究團隊還利用全盤預測技術搭建起每輪比賽和8輪過後的終盤結果之間的橋樑。這個預測器通過精巧的設計，可以理解每輪比賽對終盤的不同貢獻，從而將終盤的獎勵信號合理地分配回每一輪比賽之中，以便對自我博弈的過程進行更加直接而有效的指導，並使得Suphx可以學會一些具有大局觀的高級技巧。

得益於以上新技術和其他方面的創新，自今年 3 月進入天鳳平台以來，Suphx 在與人類玩家的對局中，學得非常快。目前，在平衡攻擊和防禦方面，Suphx 表現出了比許多頂尖人類玩家更明智的策略，能夠戰略性地完成短期損失與長期收益之間的權衡，並根據已有的模糊信息進行快速決策。

Suphx 一直在不斷學習與進步，研究團隊也一直在對 Suphx 背後核心算法的價值進行評估、重複回饋過程和反思，從而實現進一步的改進和提升。而劉鐵岩也表示「雖然 Suphx 根據麻將的獨特挑戰，進行了針對性的設計，也取得了不錯的戰績，但我們的創新從未停止。我們期待，在不久的將來，能發明出更新穎、更強大的AI人工智慧技術，使得Suphx 的能力有更大幅度的提升！縱觀歷史、遊戲AI人工智慧的進化，始終與AI 人工智慧研究進展相生相伴，很多關於人工智慧的研究都起源於研究如何構建能夠完成遊戲的智能體。我們希望通過對 Suphx 的研究來探索及擴展已有AI 人工智慧技術的邊界，不斷推動人工智慧領域的進步。」

相關閱讀推薦：

微軟的麻將人工智慧真的那麼厲害?讓微軟來娓娓道來~(上)

一起來玩google新的人工智慧辨識功能!看看你的圖片能不能考倒它!

到底是真是假?人工智慧做出的文章你敢信嗎?你也許就這麼信了!

不用擔心被裁員!報名Python課程揪安心

暑假快到了！與其讓兒子盲目拚學測，我寧可讓他先選擇人生方向~

程式語言Python界中最狂AI神童,到底有多神?(上)

達內課程先就業再付款- 中時電子報