80分鐘快速了解大型語言模型(第六組共編)

# 80分鐘快速了解大型語言模型(第六組共編) <iframe width="560" height="315" src="https://www.youtube.com/embed/wG8-IUtqu-s?si=w1npipxGW1SVpi0B&start=2584" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" allowfullscreen></iframe> :::success [李宏毅課程簡報](https://drive.google.com/file/d/1QxQz3cjJPjwE4PfO5eXtnj736jAZPK1P/view) ::: --- ## 基礎知識 GPT（Generative Pre-trained Transformer）是由OpenAI開發的先進自然語言處理技術。它基於Transformer架構，通過自注意力機制有效處理文本數據。GPT首先在大量文本上進行預訓練，學習語言模式，然後可針對特定任務進行微調。這種模型擅長生成流暢、有語境的文本，適用於各種語言任務，包括文本生成、問答、摘要、翻譯等。隨著版本更新（如GPT-3），模型規模和性能不斷提升，被廣泛應用於商業和學術領域，對人工智能產生重要影響。 :::info 語言模型就只是在玩文字接龍而已 ::: ### 利用預訓練模型來訓練 ![image](https://hackmd.io/_uploads/SkbEvQSD6.png) 我們把來在網路上抓取資料(自監督式學習)的GPT稱做**基石模型**，利用這樣的基石模型來做微調可以省下大量的資料並產生良好的任務執行。 **督導式學習的重要性** ([InstructGPT](https://arxiv.org/abs/2203.02155)) > 天資再好的學生，沒有老師好好的引導，也打不贏一個天資不好但有老師好好教導的學生 ### 如何讓機器變得聰明-RLHF(Reinforcement Learning from Human Feedback) 有了剛剛FineTune 的架構，加上我們人類給他正確的回饋，就能讓模型越來越像真實的人類，稱作RLHF。 ![image](https://hackmd.io/_uploads/rJYLwQrw6.png) **基本概念**: 提高比較好答案的機率、降低不好答案的機率。簡單來說就是模型模仿人類想要的答案，換言之就是人類的老師必須要有一定的認知水準(好的老師)，這個過程被稱作**Alignment**。 :::spoiler 什麼是Alignment? 在大型語言模型的訓練過程中，"Alignment"（對齊）是一個關鍵概念，它指的是使模型的行為與人類的價值觀和期望保持一致。這個概念在開發像 ChatGPT 這樣的高級 AI 系統時尤為重要，因為它們需要理解和適應廣泛且多樣的人類語境和需求。 **Alignment 關注的主要方面** - 價值觀和道德原則：確保模型的回應和行為反映出普遍接受的道德和倫理標準。 - 安全性和可靠性：保證模型不會產生有害、誤導性或不恰當的輸出。 - 用戶意圖的理解：讓模型能夠準確地理解並適應用戶的意圖和上下文。 - 文化和語境適應性：使模型能夠適應不同的文化背景和語境，並尊重多樣性。 **達成 Alignment 的方法** 1. 數據集和標記：使用多元化和包容性的數據集，並確保數據標記過程考慮了道德和文化多樣性。 2. 持續監督和反饋：通過人類的監督和持續的反饋循環來調整和完善模型。 3. 公平性和偏見測試：定期進行模型的公平性和偏見評估，以確保其輸出不會不公正地歧視某些群體。 4. 透明性和解釋性：提高模型的透明度，使其決策過程更容易被理解和審查。 5. 政策和法規遵循：遵守相關的數據保護和隱私法規，並確保模型符合法律和社會標準。 ::: ![image](https://hackmd.io/_uploads/rkdX_XBDT.png) ## 如何快速上手ChatGPT ### Tip 1: 把需求講清楚描述問題不僅只是描述物件而已，可以有明確量化的要求，或是特定任務的情境。例如：請用英文幫忙擴寫以下段落 -> 請用英文幫忙擴寫以下段落到300字以上。明確把需求講清楚越能獲得正確回答。 ### Tip 2: 提供資訊給ChatGPT ### Tip 3: 提供範例 ### Tip 4: 鼓勵ChatGPT想一想論文 [Large Language Models are Zero-Shot Reasoners](https://arxiv.org/abs/2205.11916) 以計算的題目為例子，如果叫GPT 單純給答案很有可能會給錯誤的結果。若能給他想一想，給出計算過程會有更高的機率獲得正確答案。 ![image](https://hackmd.io/_uploads/SysZmErDa.png) :::success Prompt: Let's think step by step ::: ### Tip 5: 用AI來找出神奇咒語論文 [Large Language Models as Optimizers](https://arxiv.org/abs/2309.03409) 用語言模型找出另外一個語言模型 ![image](https://hackmd.io/_uploads/rJWTmVBD6.png) :::success Prompt: Let's think step by step ::: ### Tip 6: 上傳檔案 ### Tip 7: ChatGPT 可以使用工具 ### Tip 8: 拆解任務如何寫出一篇長篇的文章呢？把你要的寫出文章的步驟及架構匡列出來，並分別進行chatGPT問答。針對故事跑偏的部分進行rewrite ![Screenshot 2023-12-24 at 12.45.07](https://hackmd.io/_uploads/By0uDNSDT.png) ### Tip 9: 自主進行規劃那能不能讓AI來協助規劃呢？是可以的 ![image](https://hackmd.io/_uploads/HJgYZO4Hwa.png) ### Tip 10: ChatGPT 其實是會反省的若對ChatGPT給的資訊有疑慮，可以再請ChatGPT進行查核。 :::success Prompt: 請檢查上述資訊是否正確 ::: ## 參考文獻 [InstructGPT](https://arxiv.org/abs/2203.02155) [Constitutional AI: Harmlessness from AI Feedback](https://arxiv.org/abs/2212.08073) ## 推薦文章 [RLHF: 一種引導小孩正確成長的思維方法和技術](https://blog.infuseai.io/reinforcement-learning-with-human-feedback-rlhf-48a7646e083a)