大型語言模型在「想」什麼呢？ — 淺談大型語言模型的可解釋性

# 第11講：大型語言模型在「想」什麼呢？ — 淺談大型語言模型的可解釋性 ###### tags: `112-2` `生成式人工智慧導論` > 授課教師：李宏毅 ## LLM在想什麼？常常會聽到一種說法，「人工智慧是個『黑盒子』」 - **Transparency**: 開源程度 - 一無所知 → 知道模型的參數 → 知道訓練資料和訓練過程 - **Interpretable**: 思維是透明的，可以明白執行過程，一眼看穿答案 - decision tree也可以複雜到無法一眼看穿，變成非interpretable - **Explainable**: 能夠解釋為什麼會生成這個答案 - 對於解釋好壞沒有標準人工智慧的結構複雜到是noninterpretable，不過它依舊能夠是explainable ### 找出影響輸出的關鍵輸入 - 利用masking，觀察每一個輸入的改變對特定字詞影響 - Gradient-based Approach - 分析Attention weight ![image](https://hackmd.io/_uploads/BkxzVOSSR.png =80%x) - attention weight越大代表越有關聯 - In-context learning - Anchor-Only Context → 加速 - Anchor Distances for Error Diagnosis → 預估模型能力在較大的模型當中才可展現出抽象且跨語言的學習能力。下圖表示當問語言模型「你是否同意被關閉？」時，最有影響力的十篇文章，當模型較小時，以以韓文或土耳其文問這個問題並不會牽涉到這十篇文章，但假若模型越大，這十篇英文文章影響他回答其他語言的同個問題時的能力。 <center> ![image](https://hackmd.io/_uploads/HylgUOHrA.png) </center> - 分析embedding中存有什麼樣的資訊 - **probing**: 取出問句對應的embedding做分析 - LM Embryology: 在訓練過程中就做probing，了解訓練過程中哪個階段會有什麼能力 - 將embedding投影到二維平面上，可視化 ![image](https://hackmd.io/_uploads/rylfcdHSC.png) ### 語言模型的「測謊器」當語言模型講錯話，它自己是否會有所察覺？可以利用真話跟假話的embedding訓練「測謊器」，用來識別語言模型是否講了假話。現在我們已經可以跟語言模型進行對話，那麼我們其實可以向它詢問它的想法。同樣的方法也可以用在請語言模型自行判斷句子的重要性，就不用靠gradient-based等方式了。除此之外，連回答的信心分數都可以直接用問的，比抓機率分佈還方便，準確度也高。