初版論文 - HackMD

--- tags : XAI title : 初版論文 --- # Why We Need Explainable AI in RTS Games? : After AlphaStar Got Grandmaster Level in StarCraft II (中文版) 初版論文(2022/04/10) [論文內容修改與討論紀錄](https://hackmd.io/@Lrrrekp_SqqAB1DArhB9ng/Hy7C1wdMq) Next meeting : 4月15日(星期五) 下午 8:00 - 9:00 視訊通話連結：https://meet.google.com/cdo-mhod-xvq Next meeting : 討論XAI論文 4月 25日 (星期一) · 下午8:00 - 9:00 如何加入 Google Meet 會議視訊通話連結：https://meet.google.com/tcu-ispu-dhm --- ## 1.Introduction 自從 AlphaGo 在 2016 年擊敗人類圍棋冠軍 [[01]](#Reference-01) 以來，人工智能 (AI) 技術在這十年中展現了非凡的繁榮。人們逐漸將AI應用到越來越多的領域，尤其是遊戲AI。與 AlphaGo 相比，AlphaStar [[02]](#Reference-02) 是為星際爭霸 II 設計的，星際爭霸 II 是全球最受歡迎的 RTS（實時戰略）遊戲之一。不同於 AlphaGo 的計算複雜度，AlphaStar 需要考慮玩家之間的遊戲模式是同步的，玩家之間複雜的交互也成為重要的考慮因素。我們在 **Table 1** 中列出了兩種AI模型的不同特徵以供參考。 2019年，AlphaStar達到宗師級別，征服了星際爭霸2中99.8%的玩家。我們認為這是遊戲 AI 領域的一個新里程碑。 **Table 1** | Game AI | AlphaGo (2014) | AlphaStar (2019) | | -----------------| --------------- | ---------------- | | Game name | Go ![](https://i.imgur.com/y0covYy.jpg) | StarCraft II ![](https://i.imgur.com/Mp4RMGC.jpg)| | Game type | Board game (Asynchronous) | Real-Time Strategy (Synchronous)| | Information type | Perfectly Clear | Imperfect | | Players | Multiplayer | Multiplayer | | Action Space | 361 | ~10^26 | 儘管 AlaphaStar 的遊戲成績優異，它的決策過程與操作方式仍然飽受爭議。Ruo-Ze Liu 所著之 Rethinking of alphaStar[[11]](#Reference-11) 中描述 AlphaStar 在設計與人機對戰的過程中諸多不合理之處。作者質疑 AlphaStar 與玩家對戰時產生許多違背人類玩家思維的決策，而 AlphaStar在雙方陣營衝突中的零失誤操作極大幅地影響對局結果；該文章亦明確地指出 AlphaStar 的缺失與弊病，這些論點非常值得被提出來討論與研究。在RTS遊戲中，動作空間的數量、玩家的操作速度、不完善的信息、各種類型的單位以及實時交互都可能導致混亂局面。在這種複雜的交互下，動作空間太大，人類玩家無法有效探索整個策略。因此，僅使用人類玩家回放數據訓練的 RTS AI 模型在獨特的戰術下可能存在判斷問題；相比之下，通過 RL（強化學習）的自學習 AI 模型可以開發出更多樣化的策略。另一個關鍵的事實是，RTS 遊戲中的策略並不是唯一的獲勝因素，因此很難通過勝率來判斷新策略的質量。以星際爭霸II為例；遊戲的勝負取決於指揮操作、微觀管理、和戰略。在人機對抗中，AI在運動指揮和微觀管理上的零失敗，讓AI在EPM（Effective Actions Per Minute）方面擁有巨大優勢；另一方面，很多看似毫無意義的行動和政策，短期內未必能奏效。但從長期結構來看，這些影響可能起到舉足輕重的作用，人類玩家不易觀察到，導致認知不對稱。[[09]](#Reference-09)認為針對Real-Time Strategy Games的AI具有以下特性。也因為這些特性，使得RTS類型的遊戲適合被拿來作為AI訓練的平台之一。 1.玩家之間的行動是同步進行 2.策略空間比其他類型遊戲大很多 3.沒有最佳的作戰策略由於上述問題，我們認為未來RTS遊戲中的遊戲AI或許能夠通過加入可解釋的AI來減少人類玩家對AI決策的不信任以及其他衍生的擔憂。這份願景文件提出了一個可解釋的 RTS 遊戲 AI 研究領域，稱為實時戰略可解釋人工智能 (RTXAI)。我們期待這個新的研究領域能夠整合可解釋人工智能在 RTS 遊戲中的不同應用，深入討論可解釋 AI 在 RTS 遊戲中的潛在問題，並為未來專注於 RTS 遊戲中可解釋 AI 的一些新方向提供指導。在第二節中，我們首先討論了可解釋人工智能在遊戲行業中的必要性，並梳理了現有關於可解釋人工智能與 RTS 遊戲關係的研究。我們希望從現有的大量研究中勾勒出清晰的輪廓。在本文的第三部分，我們提出了一個名為實時戰略可解釋人工智能（RTXAI）的新研究領域，並討論了需要注意的潛在問題。在第四節中，我們找出了可以應用 RTXAI 的三個應用場景。 --- ## 2.Related Work 本節探討了“可解釋人工智能”在遊戲行業的必要性，並介紹了什麼樣的可解釋人工智能可以幫助不同的利益相關者更好地理解人工智能在遊戲中的運作。因此，我們試圖對現有復雜的研究勾勒出清晰的輪廓；並在第三節提出一個新的研究領域。 1. 可解釋AI在遊戲行業的必要性：據估計，到 2021 年，視頻遊戲行業的價值將達到 1787.3 億美元，比 2020 年增長 14.4% [[07]](#Reference-07)。隨著遊戲產業價值的急劇增長，甚至在近期屢創新高，公眾逐漸重視遊戲產業的發展，對遊戲相關的可解釋人工智能的需求也在迅速湧現。例如，軟體公司SenpAI [[08]](#Reference-08)推出了“可解釋的AI遊戲助手”，為當今流行的電子遊戲開發了遊戲教學助手，並為不同級別的玩家提供了相應的教程。遊戲開發者在設計遊戲時，不同的遊戲細節值得討論。這些細節包括遊戲平衡性、遊戲UI可讀性、遊戲調試以及遊戲AI對手的難度調整。近年來，許多開發者嘗試使用 AI 來自動化開發過程，減少重複性人力資源的浪費。然而，遊戲 AI 功能影響著許多利益相關者，包括遊戲開發者、遊戲美術設計師和對遊戲感興趣的玩家。因此，我們認為有必要讓利益相關者了解“人工智能在這個遊戲中是如何工作的？”及其複雜的決策過程。許多研究使用可解釋的 AI 來幫助各種利益相關者了解 AI 基礎知識。例如，有一項研究專注於通過檢查遊戲 UI 來檢測玩家作弊[[04]](#Reference-04)，一項關於幫助 UI/UX 設計人員理解新興技術的 XAI 研究[[05]](#Reference-05)，關於有目的的遊戲 (GWAP) 的研究可以幫助觀眾理解教育遊戲[[06]](#Reference-06)。遊戲中可解釋人工智能的研究逐漸豐富起來，越來越受到學者和研究人員的關注，就像拼湊出一個完整的拼圖遊戲一樣。我們認為，鑑於上述因素，現在是人們在遊戲領域應用可解釋 AI 的最佳時機。 2. XAI和XRL簡介： eXplainabl Artificial Intelligence(XAI) 是開發更透明的 AI 模型的研究領域，近年來該領域獲得了越來越多的關注。原因之一是隨著人工智能產業的快速發展，各種複雜而精準的人工智能模型層出不窮，對社會各個領域產生了巨大的影響；同時，這些 AI 模型也面臨一個棘手的問題：性能-透明度的權衡。換言之，AI 模型越複雜，讓人類用戶掌握概念就越困難，尤其是在使用強化學習 (RL) 等自學習 AI 模型時。試圖解釋 RL 模型的研究領域是可解釋強化學習 (XRL)。例如，大多數用於玩 RTS 遊戲的 AI 模型都屬於 RL，因此當開發人員試圖解釋 RTS 遊戲中的 AI 模型預測時，XRL 已成為必不可少的組成部分。 ==關於XAI在遊戲，[[16]](#Reference-16)提出一個針對「視覺設計」的深度學習框架，文中使用「模仿」作為概念，加上CNN等NN架構、學習人類在設計圖案的思路。此篇在XAI的基礎上實際提出一個方案：對於Game Designer要如何模仿人類思路的一個參考。[[19]](#Reference-19)爬梳了目前各種可以拿來作為解釋性的方法, 其中提到SHAP是最完整的方法，它為任何模型和任何類型的數據提供解釋，在全局和局部範圍內都這樣做。[[36]](#Reference-36)，有系統地透過可視化技術與生成即時對戰遊戲的log的技術，讓玩家更清楚對局狀況。== ==[[13]](#Reference-13)文章中介紹許多XRL方法，包含: Soft Decision ( SDT ) Trees[[21]](#Reference-21)，SDT 方法創建一個預設深度的二元分類樹，樹內的節點代表一個影響輸入數據分類的過濾器，透過從 DRL 策略中得到 SDT 過濾器層次結構，藉由分析樹結構來決定各類特徵對 DRL 模型的輸出影響。、Programmatically Interpretable Reinforcement Learning[[26]](#Reference-26)提出一種編程可解釋的強化學習框架，作為DRL的alternative。在DRL中，策略用神經網絡表示，可解釋性差，而在PIRL中，策略是用人類可讀的編程語言表示。這種方法使用了收到模仿學習啟發的Neurally Directed Program Search (NDPS)方法來搜索策略。局限在於作者只考慮符號輸入的環境，沒有考慮感知輸入的環境；並且只考慮確定性策略，沒有考慮隨機性策略。、[[]]()Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning技術發想來自觀察⼈類學習新技能的狀況，發現我們經常利⽤現有的技能並通過組合或組合更簡單的技能來建⽴新的能力。因此作者提出了⼀個分層策略網絡，可以將先前學習的技能與新技能⼀起重⽤，並作為新技能的⼦組件。技術上藉由發現技能之間的潛在關係。Toward Interpretable Deep Reinforcement Learning with Linear Model U-Trees 透過分類樹模型去模擬深度學習模型，並透過特徵分類解釋哦行決策的原因，是相關文章中首先將可解釋的模仿學習擴展到強化學習的⼯作，並提出一種新型的樹模型以模仿DRL模型，文章中亦展⽰如何通過分析存儲在樹結構中的知識來解釋 DRL 模型。[[21]]()提供一套可解釋性技術，使得看AI玩遊戲的觀眾可以知道遊戲環境和AI內部的互動。技術上透過帶有NN的Decision Tree model 去分析訓練好的RL model，了解RL nodel的決策取決於environment裡的哪些特徵。== 3. 遊戲AI與人類理解的關係由於可解釋的 AI 包括兩個不同的討論維度，即 AI 和社會科學（尤其是認知心理學），因此在深入研究可解釋的 AI 時，人類理解也是需要關注的關鍵因素。在這項研究 [[08]](#Reference-08) 中，作者邀請了 20 位具有不同專業知識的經驗豐富的遊戲玩家，在實驗中評估 Game AI 的技能水平、整體性能和人類相似性。結果表明，人類玩家對 Game AI 的排名評價與當前的 Game AI 比賽排名存在顯著差異。這種由認知不對稱引起的現象，恰恰是當今可解釋人工智能所關注的問題之一。當人們對 AI 的理解和實際表現出現分歧時，我們可能不得不重新考慮可解釋的 AI 是否可以幫助人類玩家彌合 AI 模型和人類認知之間的差距？ Tim Miller 在這篇論文 [[10]](#Reference-10) 中提到瞭如何評估一個好的解釋。一個可接受的解釋不僅具有對比性特徵，而且還受到許多社會因素的影響：即一個“好的解釋”必須準確地描述一個 AI 模型中的操作，並且需要符合不同人類用戶的認知。這些難以量化的複雜認知因素對於可解釋的人工智能至關重要。 [[31]](#Reference-31)介紹向⾮ AI 專家解釋 AI 系統的四個原則，包含：Be iterative, be sound, be complete, and do not overwhelm the user。且該實證結果表明，遵循這些原則的解釋有助於⾮ AI 專家的使用者建立 higher-fidelity mental models。 [[32]](#Reference-32)中討論⼈類如何在 RL 訓練過程中干預並教授模型相關知識，且發現將⽤⼾的策略與用戶的mental models的調整息息相關。[[33]]()和[[34]]()研究了對從⾮ AI 專家到 RL 專家的觀察，發現⼈類可以通過塑造訓練信號來幫助加快 RL 代理的學習過程，這些都是從人類的觀點出發，關注其如何幫助AI模型進行訓練的研究。 [[25]](#Reference-25)中討論 RL 模型應該如何對一般使用者進行解釋。論文中，全部進行 4 次實驗，共 124 名參與者，並透過 RTS 星海爭霸這個遊戲，測試使用者對各類 XRL 模型的解釋能力的理解程度，相對於前段研究，該研究關注機器如何通過評估解釋為⼈類提供所需的東西。四種可是化的解釋，包含saliency maps, decomposed reward bars, both, or neither。對於使用者而言理解上的差異，並闡述基於⽤⼾的解釋⽬標[[35]]()，各類型的解釋具有不同的優勢。⽤⼾對解釋的⽬標也是 case by case，需考慮當下情況。換言之，該研究指出實驗中不存在一種方式得成為所有使用者普遍偏好的解釋。 [[37]](#Reference-37)中討論，在設計 AI 時將人類的理解納入考量對模型的訓練也有正面的影響，尤其在 RL 通常會受到學習速度緩慢的影響。為了解決這個問題，設計⼈員以不同的⽅式將⼈類的 Domain Knowledge 應用於模型學習過程，從⽽在少量樣本中實現更好的泛化。這種⽅法的另⼀種解釋是讓模型更好地理解和預測人類在給定環境中會做什麼或得出什麼結論，並利⽤這種預測⾃行做出更好的決策（參見 Rosenfeld & Kraus，2018 年）。利⽤⼈類知識加速強化學習的最突出的⽅法可能是 FA[[38]]()。 FA ⽅法側重於降低與維護和操縱每個狀態-動作對的值相關的成本，就像通常的表格表⽰情況⼀樣。具體來說，使⽤ FA，設計⼈員需要以復雜的⽅式抽象狀態-動作空間，以便實驗假設的相似狀態或狀態-動作對將⼀起更新，⽽不相似的狀態或狀態-動作對則不會。這允許 RL 學習器快速概括其每個經驗，以便同時更新多個狀態或狀態-動作對的值。另⼀個相關的研究⽅向調查透過⾮ AI 專家的主觀意見來對模型進行與反饋[[24]]()或者示範[[39]]()[[40]]()。本節梳理了三個概念，並介紹了與 RTS 遊戲中可解釋 AI 相關的現有研究。在此之後，第三節提出了一個新的研究領域，稱為實時戰略可解釋人工智能（RTXAI）；該研究領域整合了未來RTS遊戲中可解釋AI必須關注和實現的研究目標。 --- ## 3.Real-Time strategy eXplainable Artificial Intelligence (RTXAI). RTS 遊戲的特性導致它應用於各種領域皆有一定程度的挑戰性，且這些特性也讓 XAI 在這個領域得以進行輔助，讓 AI prediction 的結果更可以被使用者所檢視與接受，舉例而言，如果想要在 RTS game 中應用 Win Prediction 的相關 AI 技術，可能因為 RTS 遊戲裡的決策空間過大，且訓練過程所使用的訓練資料在收集時也容易受到目前既定戰術與思維的影響，導致 AI 在進行 training 的過程中可能資料過於偏頗，進而影響 prediction 的效能，且這些問題可能導致在使用者運用此 AI 技術時不易被發現其中的偏差，尤其當兩隊對局時，一方運用的戰術不再訓練資料中或訓練資料過少時，such as 運用新概念或戰術進行遊戲，該隊伍勝率可能被明顯低估，而在這邊如果使用XAI技術，幫助使用者理解 AI 產出內容，幫助分析勝率的合理性。另一方面，[[27]]()如果在遊戲中，其中一方的隊伍有更高的勝率可以歸因於他們與另一隊的經濟差異，那麼經濟量將是預測勝率的重要特徵。此外，如果預測在短時間(例如數秒鐘)出現顯著變化，那麼可以透過觀察貢獻最大的特徵來解釋變化的原因。從研究人員與觀眾的角度來說，這些額外的解釋性是很有價值的，有助於大家理解實際發生的情況，尤其當人類的分析與模型不一致時，這些解釋資訊可以給出人類更多的思考方向。在 RTS 遊戲中，不同用途的 AI 模型設計也有困難程度的分別，其中，若模型是運用於 RTS 遊戲的競技中，大多使用 DRL 技術進行訓練，然而在 RTS 遊戲中，決策空間大，且多數 RTS 遊戲中，策略的好壞並不是決定勝利與否的唯一要素，許多遊戲也考驗玩家的操作技巧，但這也導致玩家訓練出來的 AI 決策優劣不易被確認，尤其 AI 模型在操作上可輕地達到人類無法比擬的零失誤操作，[[11]]()中討論到目前在 RTS 領域備受矚目的競技AI，AlphaStar ，就有許多無法與人類比擬的缺點，尤其 DRL訓練出來的 AI 模型雖然可以透過神經網路計算每種狀況下該採取的行為，但模型本身無法去分析它進行的行為背後的原因與邏輯，導致遊戲場上可能受到對手的戲耍，又或者對手得以透過某些戰術輕鬆擊倒 AI，論文中舉例，在職業比賽中選手透過使用可隱形的角色對付 AI 模型，這些角色無法被對手看見或攻擊，除非有 detector 去 detect 這些角色。但對局中，即使資源等狀況允許， AI 始終沒有去製造 detector 進行對應。對於人類而言，我們可以透過觀察與邏輯推理去得到一些遊戲的規則，且我們可以透過這些理解去學到一些有用的遊戲技巧，但 DRL 無法。甚至多數比賽中，我們可以輕易發現 DRL 訓練的模型只有單一策略。導致比賽變化性小而顯得無聊。但作者的種種質疑都是透過對局的觀察得到的，實際上模型內部的決策過程是無法被完全理解，即使是 AI 的設計者也是如此。換句話說，若模型在對局中被打敗，我們僅可透過觀察去猜測模型問題；若模型在對局中獲勝，我們也很難藉由勝利確定模型的策略成功與否，尤其當模型在對局中的行為不符合人類預期卻獲勝時更是如此，畢竟多數 RTS 遊戲中，策略並不是決定勝敗的唯一要素。本文針對 RTS 遊戲類型中 AI 應用所面臨的困境進行討論，並總結出一個想法 : 由於RTS遊戲的架構極為複雜，人類玩家很難透過 AI 在遊戲當中的行為來判斷它的訓練成效，以及輸出結果優異與否。畢竟，AI 輸出的結果背後，往往摻雜了包羅萬象的因素，再加上 AI 黑盒子的特性，它的輸出對於人類而言，是一個去脈絡化的結果，除了設計者難以針對模型判斷時的缺陷進行改善外，民眾也難以信任 AI 預測的結果。因此，為了建立人類對於 RTS 遊戲中 AI 模型的信任以及 AI 模型的預測合理性，首先模型本身需要變得透明，並藉由透明度進一步去驗證模型的效能，確認模型的決策是合理的；因此，本文認為在 RTS 遊戲當中加入可解釋AI的輔助非常重要，它可被視為使用者與AI決策背後複雜邏輯的surfactant。根據上面內容，本文提出了一個「針對RTS遊戲的可解釋AI研究領域」，稱為Real-Time strategy eXplainable Artificial Intelligence(RTXAI)。本文認為在 RTS 遊戲中，一個完整的 RTXAI 架構應重視四大要素，including 提供使用者相應程度的解釋、增進人類對於AI決策可信度、避免誤解 and 營造公平合理的遊戲環境。且這四大要素間的位階並不相同，一般而言，本文認為提供使用者相應程度的解釋尤其重要，是成就其他三要素的基石。因為解釋的目的是希望被使用者接受或信任，故在模型進行解釋時，必須考量到不同的對象間需要的解釋內容與深度是不相同的，且模型的解釋必須to the point且符合需求；例如，對一個 AI 的使用者而言，可能只須告知重點判斷依據即可，但對 AI 開發者而言，它可能需要被給予更詳細的內容，甚至到非常全面的訊息，以利於相關的技術研究。再滿足提供使用者相應程度的解釋後，本文認為接下來需要同時考慮增進人類對於AI決策可信度與避免誤解兩個要素，唯有當以上三個要素都滿足後，我們才能進一步探討第四要素:營造公平合理的遊戲環境。營造公平的遊戲環境除了上述對解釋的理解外，還應更進一步將遊戲特性、角色勝率與玩家類型差異...等等納入考量，進行相關 XAI 模型的開發。 :::success 在解釋的過程中，我們不一定對所有人採用一種類型的解釋，而是可以將兩種、甚至多種類型的解釋納入考量，針對不同使用者需求做出調整。(但具體怎麼做，可能要想一下；或者可以純提這個概念，但可能要在多做一些闡述。) ::: :::success 提供人類對於AI決策的可信度和避免誤解: -> 可解釋AI學者Tim Miller在其論文[10]當中提到了如何評價一個好的解釋，其中不僅包含了許多社會因素(Social Factors)，也有對比性(Contrastive)的問題，同一個問題在每個人的眼中都有不同的看法，對他們而言最好的解釋也不盡相同。提供人類對於AI決策的可信度主旨在於提出一個好的解釋，最大化所有人理解的總和(也就是最多人能夠接受的解釋)。但好的解釋要避免的問題在於對任何人而言，解釋的效果都要符合一個最低限度。(不要讓任何使用者產生誤解) ::: ### 1. 提供使用者相應程度的解釋 Tim Miller曾在論文提到[10]，People do not need to understand a complete causal chain to provide a sound explanation. This is evidently true: causes of physical events can refer back to events that occurred during the Big Bang, but nonetheless, most adults can explain to a child why a bouncing ball eventually stops.因此，本文認為好的解釋重點在於可以和使用者建立信任，為了達到這個程度目的，當 XA在進行解釋時，必須考慮到解釋的情境與對象，提供相應程度解釋的內容深度，且基本上很難讓所有 RTS 相關的 XAI 要求進行同樣的一套解釋。情境差異在於須考慮服務當下的狀況，如果這個 RTS 遊戲的 XAI 是用於賽前勝率預測、賽後分析或事後模型校正，它可能需要更為詳細的內容供使用者參考；但如果是用於遊戲過程中的即時勝率預測或人機對決時AI的即時戰略分析，該資訊對於使用者或觀眾只希望起到輔助作用，且在兩種情境下，觀眾觀賽重點仍是遊戲對局本身雙方的攻防與互動過程，而非全盤地理解勝率背後的原因與相關解釋，解釋僅是一個輔助使用者或觀眾更加理解情況的輔助工具，過於詳細的資料反而容易成為一種負擔。解釋的另外一個考慮面向在於解釋服務的對象，一個模型的好壞，很大一部份涉及該使用者的主觀感受與意見，所以解釋本身的意義在於滿足使用者的好奇心，且透過解釋可以連結原因結果之間的脈絡，讓大家有更好的理解與想像。為了達成目的，我們必須先理解使用者在運用 XAI 技術時可能的問題內容，並針對問題的重點進行解釋，透過合理的解釋去滿足對他們對模型內黑盒子的好奇心，一般而言，不同類型的使用者需要的解釋也不盡相同，以遊戲內的勝率預測為例，即時在即時預測勝率的當下，賽評與較為資深的玩家可能相對於一般觀眾會有更高程度的理解需求；賽後的回放分析而言，而若有職業選手或資深玩家希望針對該場比賽進行全盤分析與理解，這些人對於理解的需求或許更高，故不同使用者須考慮的解釋程度應該有所區別。最後一個部分是解釋的深度的探討，不同功能的 AI 與不同類型的使用者， ==本文章[[20]](#Reference-20)發表在IEEE CoG 本文旨在提出有效回放數據的方法，因為回放當中的data通常包含遊戲玩法的專家知識。其中一些使用監督式學習來模仿玩家策略模型，依賴使用特定策略、或其他標籤標註。然而，一般的回放通常不包含這些策略的標籤。本文中解決 RTS 遊戲中自動發現有意義的回放標記。通過遞歸神經網絡模型（如 LSTM）學習動作和重放嵌入來解決這個問題。然後可以對這些嵌入的回放進行分類，以通過使用集群(Cluster)來發現標籤。值得注意的地方，可以在Game Win Prediction的時候提到，有一些方法是可以自動標註Meaningful的Replay片段== ### 2. 避免誤解理由：當模型作出解釋時，如果解釋不當，可能導致使用者對模型的決策產生錯誤的想像，進而導致使用者做出違反個人利益的錯誤策略。目標：避免使用者對AI模型模型的解釋產生誤解，以至於做出錯的決策。誤解本質上有兩種類型，第一種是模型本身錯誤的解釋。第二種是對內容的解釋方式闡述不當，造成使用者產生錯誤的想像。為了解決上述問題，我們在解釋模型時須確保模型產出的解釋與模型行為一致，而解釋呈現給使用者時應確保解釋內容精準易懂，以免錯誤發生。但事實是，即使精準易懂的解釋也無法保證所有使用者不產生錯誤想像，故將解釋的內容限縮在這樣的規則上明顯對XA開發人員課以過大的責任與義務。因此，文章認為進行解釋時最低限度應該確保解釋存在它的貢獻，也就是說，解釋應該對使用者帶來正面的影響，即使解釋內容無法完全滿足使用者，至少整體上不應該導致使用者對真實模型理解更差，甚至更加不信任模型決策結果。 ![](https://i.imgur.com/qrCZH0q.png) ### 3. 增進人類對於AI決策可信度理由：每個人類的思維不盡相同，對解釋方法也有不同的偏好，因此我們認為好的解釋應該建立在不導致使用者產生誤解的狀況下，最大化整體使用者理解程度。目標：提供玩家合理的解釋(Recall AI Fairness) 達成使用者對於XAI、AI的信任論文：Tim Miller、在確保模型對於使用者正面的影響後，本文接下來將進一步討論如何最大化模型產生的效益。可解釋AI學者Tim Miller在其論文[[10]](#Reference-10)當中提到了如何評價一個好的解釋，其中不僅包含了許多社會因素(Social Factors)，也有對比性(Contrastive)的問題，同一個問題在每個人的眼中都有不同的看法。其中，每個人偏好的解釋方式也有所不同，此時如何定義一個general 好的解釋是非常困難的問題，本文認為好的解釋有兩種考慮方式，一種是關注社會的多數族群，最大化所有使用者對解釋的正面影響，這樣的做法是非常功利主義的，因為這樣的作法最終模型的解釋會非常傾向社會最主流的作法，可能對於不同偏好的使用者或社會少數族群產生影響，另一種則是最可能的讓大家的理解達到某一種程度的解釋，這樣的做法，同時考慮多數族群的認知需求，但也不因此忽略少數族群，與前一方式相比，更偏向社會平等與公平的原則，但對於使用者應該理解達到哪一種程度仍是難以定義的難題，倘若將程度定得過低，將導致模型解釋上成效不佳，但如果將該程度定義的非常高，該方法最終結果將與前述方法相同，因為要求模型盡可能讓大家的理解非常高與最大化所有使用者對解釋的正面影響概念或許相差不遠。此時，或許有其他不同的思維，或許考慮在一個系統內生產好的解釋時可以針對不同類別使用者採用不同的解釋，換言之，系統可能需考慮將兩種、甚至多種類型的解釋納入考量，針對不同使用者需求做出調整，也可以是一個有趣討論面相。 ==[[28]](#Reference-28)提出了一種方法，使 RL能夠根據狀態轉換和結果的預期後果來解釋其行為。首先，將狀態和動作定義為更易於人類用戶理解的描述。第二，開發了一個程序，使代理能夠獲得單個動作的後果以及整個策略。該方法計算源自用戶查詢的策略的結果與代理的學習策略之間的對比。第三，構建了生成解釋的格式。進行了一項試點調查研究，以探索用戶對不同解釋屬性的偏好 ![](https://i.imgur.com/oiFMsJ7.png)== ### 4. 營造公平合理的遊戲環境理由：為遊戲AI教程及比賽講評的說服力背書目標：提供玩家合理的解釋(Recall AI Fairness) ==[[22]](#Reference-22)本文章發表在IEEE CoG 直接是探討自動化的RTS Game Balance的文章，而且其Journal版本標題有加上XAI部分，是篇很好的參考文獻大多數解釋深度學習模型的可解釋性方法都涉及圖像分類並生成顯著性圖，突出不同圖像區域的影響。在許多情況下，這是通過利用流經網絡層的梯度信息來實現的，Grad-CAM就每年的引用而言，它是一個主要且最具影響力的例子。另一種創建顯著性圖的方法，也是使用相同度量時最有影響力的整體方法，是採用反捲積神經網絡。在解釋任何黑盒模型方面，LIME和SHAP方法是迄今為止在可視化特徵交互和特徵重要性的文獻方法中最全面和占主導地位的方法，而 Friedman 的 PDP，儘管年代久遠且不那麼複雜，但仍然是一種流行的選擇。LIME 和 SHAP 方法不僅與模型無關，而且已被證明適用於任何類型的數據。論文[[15]](#Reference-15)當中提到了玩家在學習遊戲時可能會有不同的學習曲線，我們認為在RTS遊戲當中，對於策略選擇不同的學習曲線可能是玩家的挑戰之一。而站在遊戲開發者的觀點，RTS遊戲開發商必須注重多人遊戲之間的平衡與耐玩性，特別是在策略空間極大的情況下。== 而這些不同於其他類型遊戲的特徵，也為不同的利益相關者(Stackholder)帶來了不同程度的挑戰或難題。以玩家為例，對於新手或初學者來說，極高的操作自由度也意味著玩家必須花費時間熟悉操作、了解不同策略選擇的影響。 --- ## 4.Conclusion 在本篇論文當中，我們提出了一個「針對RTS遊戲的可解釋AI研究領域」，我們稱之為Real-Time strategy eXplainable Artificial Intelligence(RTXAI)。在第二章節，我們回顧現有研究後，我們認為現階段關於RTS遊戲XAI的研究當中，有一些特點是鮮少被重視的。也因此，我們在第三章節提出了全新的研究領域、並重點強調了關於XAI研究所需要重視的不同面向。此篇願景論文歸納了現有研究的不足之處，期待未來的可解釋AI能夠在RTS遊戲領域更加發光發熱。 ## 5.Reference ### Reference 01 :::info [01 - Mastering the game of Go with deep neural networks and tree search](https://www.nature.com/articles/nature16961) ::: ### Reference 02 :::info [02 - Grandmaster level in StarCraft II using multi-agent reinforcement learning ](https://www.nature.com/articles/s41586-019-1724-z) ::: ### Reference 03 :::info [03 - Video Game Industry Statistics, Trends and Data In 2022](https://www.wepc.com/news/video-game-statistics/) ::: ### Reference 04 :::info [04 - SenpAI.GG](https://senpai.gg) ::: ### Reference 05 :::info [05 - XAI-Driven Explainable Multi-view Game Cheating Detection](https://ieee-cog.org/2020/papers/paper_57.pdf) ::: ### Reference 06 :::info [06 - Explainable AI For Designers : A Human-Centered Perspective on Mixed-Initiative Co-Creation](http://antoniosliapis.com/papers/explainable_ai_for_designers.pdf) ::: ### Reference 07 :::info [07 - Getting Playful with Explainable AI: Games with a Purpose to Improve Human Understanding of AI](https://www.researchgate.net/publication/340037829_Getting_Playful_with_Explainable_AI_Games_with_a_Purpose_to_Improve_Human_Understanding_of_AI) ::: ### Reference 08 :::info [08 - Evaluation of StarCraft Artificial Intelligence Competition Bots by Experienced Human Players](https://dl.acm.org/doi/10.1145/2851581.2892305) ::: ### Reference 09 :::info [09 - A Review of Real-Time Strategy Game AI](https://ojs.aaai.org//index.php/aimagazine/article/view/2478) ::: ### Reference 10 :::info [10 - Explanation in artificial intelligence Insights from the social sciences](https://www.researchgate.net/publication/317821828_Explanation_in_Artificial_Intelligence_Insights_from_the_Social_Sciences) ::: ### Reference 11 :::info [11 - Rethinking of AlphaStar](https://arxiv.org/abs/2108.03452) ::: ### Reference 12 :::info [12 - Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI](https://www.sciencedirect.com/science/article/pii/S1566253519308103) ::: ### Reference 13 :::info [13 - Explainable Reinforcement Learning: A Survey](https://link.springer.com/chapter/10.1007/978-3-030-57321-8_5) ::: ### Reference 14 :::info [14 - Explanation in artificial intelligence: Insights from the social sciences](https://www.sciencedirect.com/science/article/pii/S0004370218305988) ::: ### Reference 15 :::info [15 - Using Empirical Learning Curve Analysis to Inform Design in an Educational Game](https://dl.acm.org/doi/abs/10.1145/2793107.2793128) ::: ### Reference 16 :::info [16 - Learning to Design from Humans: Imitating Human Designers through Deep Learning ](https://www.researchgate.net/publication/334530159_Learning_To_Design_From_Humans_Imitating_Human_Designers_Through_Deep_Learning) ::: ### Reference 17 :::info [17 - DAX: Data-Driven Audience Experiences in Esports](https://dl.acm.org/doi/pdf/10.1145/3391614.3393659) ::: ### Reference 18 :::info [18 - Leveraging rationales to improve human task performance](https://dl.acm.org/doi/abs/10.1145/3377325.3377512) ::: ### Reference 19 :::info [19 - Explainable AI: A Review of Machine Learning Interpretability Methods](https://www.mdpi.com/1099-4300/23/1/18) ::: ### Reference 20 :::info [20 - Discovering Meaningful Labelings for RTS Game Replays via Replay Embeddings](https://ieeexplore.ieee.org/document/9231556) ::: ### Reference 21 :::info [21 - Distilling Deep Reinforcement Learning Policies in Soft Decision Trees](https://biblio.vub.ac.be/vubirfiles/46718934/IJCAI_2019_XAI_WS_paper.pdf) ::: ### Reference 22 :::info [22 - Toward Automated Game Balance: A Systematic Engineering Design Approach](https://www.researchgate.net/publication/355109124_Toward_Automated_Game_Balance_A_Systematic_Engineering_Design_Approach) ::: ### Reference 23 :::info [23 - Explainable Reinforcement Learning Through a Causal Lens](https://arxiv.org/abs/1905.10958) ::: ### Reference 24 :::info [24 - Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning]() ::: ### Reference 25 :::info [25 - Mental Models of Mere Mortals with Explanations of Reinforcement Learning](https://dl.acm.org/doi/10.1145/3366485) ::: ### Reference 26 :::info [26 - Programmatically Interpretable Reinforcement Learning](http://proceedings.mlr.press/v80/verma18a/verma18a.pdf) ::: ### Reference 27 :::info [27 - Wait, But Why? Assessing Behavior Explanation Strategies for Real-Time Strategy Games](https://dl.acm.org/doi/pdf/10.1145/3397481.3450699) ::: ### Reference 28 :::info [28 - Contrastive Explanations for Reinforcement Learning in terms of Expected Consequences](https://www.researchgate.net/publication/326570220_Contrastive_Explanations_for_Reinforcement_Learning_in_terms_of_Expected_Consequences) ::: ### Reference 29 :::info [29 - Mental Models of Mere Mortals with Explanations of Reinforcement Learning](https://dl.acm.org/doi/abs/10.1145/3366485) ::: ### Reference 30 :::info [30 - How the Experts Do It: Assessing and Explaining Agent Behaviors in Real-Time Strategy Games](https://dl.acm.org/doi/abs/10.1145/3173574.3174136) ::: ### Reference 31 :::info [31 - Principles of explanatory debugging to personalize interactive machine learning]() ::: ### Reference 32 :::info [32 - Metrics for Explainable AI: Challenges and Prospects](https://arxiv.org/abs/1812.04608) ::: ### Reference 33 :::info [33 - A need for speed: Adapting agent action speed to improve task learning from non-expert humans]() ::: ### Reference 34 :::info [34 - Leveraging human knowledge in tabular reinforcement learning: A study of human subjects]() ::: ### Reference 35 :::info [35 - Why these explanations? Selecting intelligibility types for explanation goals]() ::: ### Reference 36 :::info [36 - Generating Multimedia Narrative Reports for Game Logs]() ::: ### Reference 37 :::info [37 - leveraging-human-knowledge-in-tabular-reinforcement-learning-a-study-of-human-subjects]() ::: ### Reference 38 :::info [38 - Busoniu, L., Babuska, R., De Schutter, B. & Ernst, D. 2010. Reinforcement Learning and Dynamic Programming Using Function Approximators, 39. CRC Press.]() ::: ### Reference 39 :::info [39 - Peng, B., MacGlashan, J., Loftin, R., Littman, M. L., Roberts, D. L. & Taylor, M. E. 2016. A need for speed: adapting agent action speed to improve task learning from non-expert humans. In AAMAS, 957–965.]() ::: ### Reference 40 :::info [40 - Suay, H. B., Brys, T., Taylor, M. E. & Chernova, S. 2016. Learning from demonstration for shaping through inverse reinforcement learning. In AAMAS, 429–437.]() ::: ### 1.遊戲流程中所需要的XAI有哪些?(開發、遊戲中、遊戲直播) ### Reflecting on model through game RTS遊戲中，行動的選擇(numbers of action space)、操作的速度(operation speed of players)和其他遊戲特性(such as imperfect information, various types of units)...等許多的變數，在與遊戲即時互動性的交互影響下，將產生數量過於龐大的state space ，以至於人類無法有效果地探索整個策略空間；因此，機器得以發展出一些有別於人類以往思維模式的特殊策略。而令人苦惱的是，新策略的優劣往往不易判斷。許多RTS遊戲的策略優劣並不是遊戲唯一致勝因素。以StarCraft為例，該遊戲的勝敗同時取決於操作(mechanical part)與策略(intellectual part)方面的好壞。而人機對決時，AI在兵種操作與控血方面的零失誤特性為AI在操作(mechanical part)方面取得巨大的優勢；另一方面，許多看似無意義的操作與建築或許無法在短期發揮效果，但以長期布局的角度而言，可能有著舉足輕重的作用，而這些影響卻不易為人類所觀察。此問題可能透過在人機對戰的環節引入XAI技術得到解決。透過解析模型策略的邏輯脈絡，觀眾可以在對局後，更高機率正確地評估該策略的優劣，並進一步地對現有的AI模型或人類思維進行改進。 ### 2. Game Balance 遊戲內的平衡機制應該同時考慮角色強度與趣味性，經常是令人苦惱的問題，一般而言，遊戲角色的強度取決於他的上手難度、勝率、個人偏好、熱門程度與角色熟練度，如此多變量影響下，角色數值調整成為遊戲平衡的一大學問。現今亦有許多透過AI進行平衡性調整的案例，但AI與人類思考的方式仍然不同，實難想像兩者間的資訊能達到完美的複製與分享；例如，對人類而言，遊戲角色有難易度跟容錯率的問題，但AI卻可以做到人類難以達成的零失誤，而以AI對角色平衡性進行調整可能使角色玩法趨近單一而喪失趣味性，因此，僅靠AI遊戲平衡性調整可能不是那麼的恰當。此問題可能透過模型自我對局過程引入XAI技術得到解決。訓練不同操作性與反應力的模型模擬不同程度的玩家對局，並透過模型自我對局的反饋解釋來理解不同程度玩家的策略內容及勝率關係，讓開發者思考角色數值合理性。 ### 3. Game Tutorial 遊戲教學時，如果AI沒有多樣性，可能導致向XAI學習的玩家玩法都大同小異。如果玩家為了增強實力，一昧的背誦AI的建議以複製一個其打法，最後導致想要增強實力的玩家產生過大的遊戲壓力；而不願參考或背誦我AI打法的玩家則沒有遊戲體驗。此問題可能透過模型輸出建議的過程引入XAI技術得到解決。若遊戲中XAI決策的過程可以被知悉及可視化，那將其成為玩家遊戲中的良師益友，玩家可以透過與XAI的互動學習其策略，並理解其策略選擇的邏輯與角色單位互動的細節，進而促進玩家思考個人策略，增進遊戲體驗。 ### 4. Game Win Prediction 透過AI分析對戰局勢，並輸出勝率相關解釋，可以用於分析雙方勝敗。 ### 4. Game Debug 過去的遊戲debug通常藉由人力進行大規模的測試，不但曠日廢時，又花費須多金錢與人力；如果得透過解析 XAI 的決策或其迭代過程所呈現的趨勢，或許可以從中發現不應該出現於出現於遊戲的狀況或不被遊戲開發者所預想的遊戲玩法。這樣的Debug方式或許藉由一般RL所訓練的AI就能完成，但RL的訓練是一個曠日費時的過程，但透過XAI的技術，或許可以再AI模型訓練好前發現其策略轉變的趨勢及不合理性，從而省下RL訓練的時間。 This section sorts out three concepts and introduces existing research related to explainable AI in RTS games. After this, Section III proposes a new research area called Real-Time strategy eXplainable Artificial Intelligence(RTXAI); this research area integrates the research goals that must be paid attention to and achieved in the future explainable AI in RTS games. 2. An introduction to XAI and XRL: The eXplainabl Artificial Intelligence (XAI) is a research area for developing more transparent AI models, and this area has obtained more and more awareness in recent years. One of the reasons is that with the rapid development of the AI industry, various kinds of complicated and precise AI models improve one after another, which has a tremendous impact on all fields of society; at the same time, these AI models also face a tricky concern: performance-transparency trade-off. In other words, the more complex the AI model is, the more difficult it is to let human users grasp the concept, especially when using self-learning AI models such as Reinforcement Learning (RL). The research area that attempts to explain the RL model is eXplainable Reinforcement Learning (XRL). For instance, most AI models used to play RTS games belong to RL, so XRL has become an essential component when developers try to explain the AI model predictions in RTS games.