【生成式AI導論 2024】第6講：大型語言模型修練史 — 第一階段: 自我學習，累積實力

# 【生成式AI導論 2024】第6講：大型語言模型修練史 — 第一階段: 自我學習，累積實力 * 前面在講Training的知識，大致講到資料、參數跟超參數![image](https://hackmd.io/_uploads/HJzgrX6jkx.png) * 大致可以分為三個訓練階段:![image](https://hackmd.io/_uploads/SJwm2u6syg.png) 1. Pre-train，產出一個Foundation Model，有基礎對話能力 2. Instruction Fine-tuning，做Alignment，了解怎樣回答對話是正確的。 3. RLHF，一樣是做Alignment，去調整對話，成為人類想要的形狀。 ## 需要多少文字才會學會接龍? * 要正確學會文字接龍需要學習語言知識與世界知識。 * 要學會語言知識不用太多資料，但是要學會世界知識30B的資料都不夠，因為世界知識是複雜且有很多層次的![image](https://hackmd.io/_uploads/rJ37Pmasyl.png) * 最常用的資料就是網頁資料，從網頁上爬大量的資料來整理後訓練 * 爬下來的資料還是要做資料清理: 1. 過濾有害內容(色情、暴力) 2. 去除text extraction(HTML tag等) 3. 分類資料品質(利用GPT-3等模型分類，高品質的資料在訓練時會被用比較多次) 4. 去除重複資料 5. Test-set Filtering(為了實驗的嚴謹性) * GPT3就是透過這樣的訓練流程，但是控制不住輸出，常常答非所問，有嘗試去接龍但是接出來的答案牛頭不對馬嘴。 * 主要問題是"沒有人教他要回答問題"，所以可能會根據你的問題出一張卷子![image](https://hackmd.io/_uploads/BJBtom6iyl.png) * 雖然訓練出來的模型沒有辦法回答出正確答案，但是有了基本的"對話"能力，稱為**Foundation Model**。