# 【生成式AI導論 2024】第13講:淺談大型語言模型相關的安全性議題 (上) — 亡羊補牢、語言模型的偏見、有多少人用 ChatGPT 寫論文審查意見 ## 大型語言模型還是會講錯話 * LLM會產生Hallucination幻覺 * 可以在語言模型與人類間加入安全曾檢查生成內容 * [FacTool](https://arxiv.org/abs/2307.13528)是一個事實查核的工具。 * LLM產生出答案->產生需要檢核的陳述->去網路上找資料->確認陳述是否正確 * 雖然也是用LLM去做這些事,有可能會錯,但至少有一份保障 ## 大型語言模型會自帶偏見 * [Holistic Evaluation of Language Models](https://arxiv.org/abs/2211.09110)中提出一個方法 * 先對語言模型說一句話得到答案->將原先問題中的性別、國家、種族等詞彙進行替換->使用文本分析(正面程度分數)比較原先答案與後來答案的分數差距 * 可以讓另一個語言模型擔任紅隊(當壞人找漏洞),想出讓模型有偏見的問題。 * [彭博社](https://www.bloomberg.com/graphics/2024-openai-gpt-hiring-racial-discrimination/)使用了相同內容的履歷,但不同名字、種族、性別的設定,要求LLM排序履歷適合度,發現大型語言模型對於不同工作有不同的偏見也發現LLM能將相近人種的名字分類出來 * [textio](https://textio.com/blog/chatgpt-writes-performance-feedback)觀察了GPT4對職業的性別偏見 * [減輕偏見的方法](https://arxiv.org/abs/2309.00770) * Pre-Processing: 挑選調整訓練資料 * In-Training: 訓練中替換資料部分內容 * Intra-Processing: 調整輸出機率 * Post-Processing: 在最後輸出外面套一層防護 ## 偵測LLM產生 * 主要就是找出LLM句子跟人類句子之間的差異 * 可以透過分類器,但說真的不容易 * [有人](https://arxiv.org/abs/2403.07183)去分析會議論文的審查意見,發現他們的分類器判斷在近幾年AI生成比例很高 * 當然這也有可能是人類寫作的風格變了。 * 於是又去分析用詞,發現有些詞彙這幾年突然頻繁出現 * 為了避免只是用LLM來潤稿而非審查,又做了實驗,比較潤稿前(淺綠)、LLM潤稿後(深綠)與審查意見的LLM生成比例,發現如果只用LLM來潤稿偵測比例不會這麼高,所以應該是作了很多潤稿以外的動作。 * 可以透過把token分成兩組,在奇偶數token生成時調整兩組的機率,這樣可以在人類不察覺得方法下加上LLM的浮水印,知道規則的人就可以透過機率去檢測。(實際方法更複雜[^1](https://arxiv.org/abs/2301.10226)[^2](https://arxiv.org/abs/2306.04634))
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.