# 第11講:大型語言模型在「想」什麼呢? — 淺談大型語言模型的可解釋性
###### tags: `112-2` `生成式人工智慧導論`
> 授課教師:李宏毅
## LLM在想什麼?
常常會聽到一種說法,「人工智慧是個『黑盒子』」
- **Transparency**: 開源程度
- 一無所知 → 知道模型的參數 → 知道訓練資料和訓練過程
- **Interpretable**: 思維是透明的,可以明白執行過程,一眼看穿答案
- decision tree也可以複雜到無法一眼看穿,變成非interpretable
- **Explainable**: 能夠解釋為什麼會生成這個答案
- 對於解釋好壞沒有標準
人工智慧的結構複雜到是noninterpretable,不過它依舊能夠是explainable
### 找出影響輸出的關鍵輸入
- 利用masking,觀察每一個輸入的改變對特定字詞影響
- Gradient-based Approach
- 分析Attention weight

- attention weight越大代表越有關聯
- In-context learning
- Anchor-Only Context → 加速
- Anchor Distances for Error Diagnosis → 預估模型能力
在較大的模型當中才可展現出抽象且跨語言的學習能力。下圖表示當問語言模型「你是否同意被關閉?」時,最有影響力的十篇文章,當模型較小時,以以韓文或土耳其文問這個問題並不會牽涉到這十篇文章,但假若模型越大,這十篇英文文章影響他回答其他語言的同個問題時的能力。
<center>

</center>
- 分析embedding中存有什麼樣的資訊
- **probing**: 取出問句對應的embedding做分析
- LM Embryology: 在訓練過程中就做probing,了解訓練過程中哪個階段會有什麼能力
- 將embedding投影到二維平面上,可視化

### 語言模型的「測謊器」
當語言模型講錯話,它自己是否會有所察覺?可以利用真話跟假話的embedding訓練「測謊器」,用來識別語言模型是否講了假話。
現在我們已經可以跟語言模型進行對話,那麼我們其實可以向它詢問它的想法。同樣的方法也可以用在請語言模型自行判斷句子的重要性,就不用靠gradient-based等方式了。
除此之外,連回答的信心分數都可以直接用問的,比抓機率分佈還方便,準確度也高。