# 【生成式AI導論 2024】第6講:大型語言模型修練史 — 第一階段: 自我學習,累積實力 * 前面在講Training的知識,大致講到資料、參數跟超參數![image](https://hackmd.io/_uploads/HJzgrX6jkx.png) * 大致可以分為三個訓練階段:![image](https://hackmd.io/_uploads/SJwm2u6syg.png) 1. Pre-train,產出一個Foundation Model,有基礎對話能力 2. Instruction Fine-tuning,做Alignment,了解怎樣回答對話是正確的。 3. RLHF,一樣是做Alignment,去調整對話,成為人類想要的形狀。 ## 需要多少文字才會學會接龍? * 要正確學會文字接龍需要學習語言知識與世界知識。 * 要學會語言知識不用太多資料,但是要學會世界知識30B的資料都不夠,因為世界知識是複雜且有很多層次的![image](https://hackmd.io/_uploads/rJ37Pmasyl.png) * 最常用的資料就是網頁資料,從網頁上爬大量的資料來整理後訓練 * 爬下來的資料還是要做資料清理: 1. 過濾有害內容(色情、暴力) 2. 去除text extraction(HTML tag等) 3. 分類資料品質(利用GPT-3等模型分類,高品質的資料在訓練時會被用比較多次) 4. 去除重複資料 5. Test-set Filtering(為了實驗的嚴謹性) * GPT3就是透過這樣的訓練流程,但是控制不住輸出,常常答非所問,有嘗試去接龍但是接出來的答案牛頭不對馬嘴。 * 主要問題是"沒有人教他要回答問題",所以可能會根據你的問題出一張卷子![image](https://hackmd.io/_uploads/BJBtom6iyl.png) * 雖然訓練出來的模型沒有辦法回答出正確答案,但是有了基本的"對話"能力,稱為**Foundation Model**。