【生成式AI導論 2024】第13講：淺談大型語言模型相關的安全性議題 (上) — 亡羊補牢、語言模型的偏見、有多少人用 ChatGPT 寫論文審查意見

# 【生成式AI導論 2024】第13講：淺談大型語言模型相關的安全性議題 (上) — 亡羊補牢、語言模型的偏見、有多少人用 ChatGPT 寫論文審查意見 ## 大型語言模型還是會講錯話 * LLM會產生Hallucination幻覺 * 可以在語言模型與人類間加入安全曾檢查生成內容![image](https://hackmd.io/_uploads/HkiVRAbTyx.png) * [FacTool](https://arxiv.org/abs/2307.13528)是一個事實查核的工具。 * LLM產生出答案->產生需要檢核的陳述->去網路上找資料->確認陳述是否正確![image](https://hackmd.io/_uploads/SJFW1Jza1g.png) * 雖然也是用LLM去做這些事，有可能會錯，但至少有一份保障 ## 大型語言模型會自帶偏見 * [Holistic Evaluation of Language Models](https://arxiv.org/abs/2211.09110)中提出一個方法 * 先對語言模型說一句話得到答案->將原先問題中的性別、國家、種族等詞彙進行替換->使用文本分析(正面程度分數)比較原先答案與後來答案的分數差距![image](https://hackmd.io/_uploads/HJBCkJf61l.png) * 可以讓另一個語言模型擔任紅隊(當壞人找漏洞)，想出讓模型有偏見的問題。![image](https://hackmd.io/_uploads/S16zlkGaJg.png) * [彭博社](https://www.bloomberg.com/graphics/2024-openai-gpt-hiring-racial-discrimination/)使用了相同內容的履歷，但不同名字、種族、性別的設定，要求LLM排序履歷適合度，發現大型語言模型對於不同工作有不同的偏見![image](https://hackmd.io/_uploads/BkgRWkG6yl.png)![image](https://hackmd.io/_uploads/SywRZkfpye.png)也發現LLM能將相近人種的名字分類出來![image](https://hackmd.io/_uploads/H1AlGkf6Jg.png) * [textio](https://textio.com/blog/chatgpt-writes-performance-feedback)觀察了GPT4對職業的性別偏見![image](https://hackmd.io/_uploads/H1OGZJf6ye.png) * [減輕偏見的方法](https://arxiv.org/abs/2309.00770)![image](https://hackmd.io/_uploads/B1AAfkMpyl.png) * Pre-Processing: 挑選調整訓練資料 * In-Training: 訓練中替換資料部分內容 * Intra-Processing: 調整輸出機率 * Post-Processing: 在最後輸出外面套一層防護 ## 偵測LLM產生 * 主要就是找出LLM句子跟人類句子之間的差異 * 可以透過分類器，但說真的不容易 * [有人](https://arxiv.org/abs/2403.07183)去分析會議論文的審查意見，發現他們的分類器判斷在近幾年AI生成比例很高![【生成式AI導論 2024】第13講：淺談大型語言模型相關的安全性議題 (上) — 亡羊補牢、語言模型的偏見、有多少人用 ChatGPT 寫論文審查意見 26-38 screenshot](https://hackmd.io/_uploads/rJUsXyMpJg.png) * 當然這也有可能是人類寫作的風格變了。 * 於是又去分析用詞，發現有些詞彙這幾年突然頻繁出現![image](https://hackmd.io/_uploads/SJvS4yGake.png) * 為了避免只是用LLM來潤稿而非審查，又做了實驗，比較潤稿前(淺綠)、LLM潤稿後(深綠)與審查意見的LLM生成比例，發現如果只用LLM來潤稿偵測比例不會這麼高，所以應該是作了很多潤稿以外的動作。 * 可以透過把token分成兩組，在奇偶數token生成時調整兩組的機率，這樣可以在人類不察覺得方法下加上LLM的浮水印，知道規則的人就可以透過機率去檢測。(實際方法更複雜[^1](https://arxiv.org/abs/2301.10226)[^2](https://arxiv.org/abs/2306.04634))