[Youtube] [LLM] [freeCodeCamp.org] Introduction to Generative AI Community Course

# 課程概述 * 直播錄製後整合為單一影片的大型基礎生成式 AI 課程 * 聚焦文字與影像生成模型與實務框架 * 由三位講師授課；本場次為社群實作型系列 # 時程與形式 * 連續約兩週，必要時延長 * 時間預計每日 3:00–5:00（以實際公告為準） * 先理論後實作，逐步開發多種應用 # 平台與資源 * 提供免費 Dashboard 註冊使用 * 課程影片、投影片、作業、測驗集中於 Dashboard * 直播錄影亦會上傳至 Inon YouTube 頻道 # 師資與背景 ![messageImage_1757842752323](https://hackmd.io/_uploads/ByYI6bNjle.jpg) * 主講：Sun/Savita（Aon 三年，資料科學、ML/DL、CV、NLP、MLOps） * 另有共同講師協同授課 * 講師 LinkedIn 可查詳細經歷 # 報名與費用 * 完全免費 * 透過連結註冊 Dashboard 後即可存取課程資源 # 課綱與學習路線 ![image](https://hackmd.io/_uploads/ByVsa-Vsle.png) * 生成式 AI 緒論：定義、動機、應用範疇 * LLM 概觀：發展脈絡、典型與最新模型 * OpenAI 服務：模型族系、版本概念、Python API 走讀 * LangChain：核心元件（Chains、Agents、Memory）與實作 * 比較與定位：OpenAI API 與 LangChain 的差異與搭配 # 進階主題 * 向量資料庫：Embeddings 產生、儲存與檢索流程 * RAG 思路：檢索強化生成的系統設計重點 * 開源模型：Llama 系列、Falcon、BLOOM 等的使用情境 * LlamaIndex：文件索引與查詢管線 * 其他前沿：Diffusion 等近期生成式模型 # 專案與實作 * 以 OpenAI + LangChain 打造端到端應用 * 加入向量資料庫與開源模型的進階專案 * 最終以 MLOps 思維部署成品 # 作業與測驗 * 每階段提供作業與小測驗強化練習 * 課後上傳教學影片與題目至 Dashboard # 先修需求 * 基礎 Python（控制流程、資料結構、例外處理、基礎資料庫概念） * 具備 ML/DL 基礎更佳（不著重傳統 NN/RNN/CNN 細節） * 會示範 Transfer Learning／Fine-tuning 概念與實作 # 教學方式 * 以現場即時編碼為主，不使用預寫程式碼展示 * 所需教材（PPT、資料）將置於資源區供下載 # 課程當前階段與目標 * 本場為「生成式 AI／LLM 導論」，明日起轉入實作 * 目標：建立概念基礎，銜接後續 OpenAI API 與應用開發 # 即將進行的實作內容 * 申請與使用 OpenAI API Key * Chat Completions 與 Functions 等 API 使用 * Token 概念與用量估算 * Prompt 模板與常見寫法 # 今日導論主題 * 生成式 AI 的用途與真實場景 * 大型語言模型（LLM）發展簡史 * 生成式 AI 與 LLM 的關係、邊界與定位 # 平台與課綱更新 * 課綱、影片、作業、測驗將同步於 Dashboard 與 YouTube * 開課時間固定，直播後上傳錄影與教材 # 學員背景與互動 * 參與者程度不一：部分有基礎、部分從零開始 * 之後以示範＋黑板講解交錯進行，並提供練習作業 # 生成式 AI 與 LLM 常見產品 * ChatGPT（OpenAI）、Google Bard、Meta Llama 系列為代表性應用 * 需區分「模型」與「應用產品」的差異 # 生成式 AI ≠ 單一應用 * ChatGPT 等僅為應用層，底層方法論與訓練流程才是重點 * 課程聚焦方法、框架與實作，不僅是使用工具 # 深度學習基礎脈絡（導入 LLM 前置） ![messageImage_1757843175469](https://hackmd.io/_uploads/S16xyf4olx.jpg) * ANN：結構化資料的分類／回歸；輸入層、隱藏層、輸出層 * CNN：影像／網格資料；卷積、池化、展平、全連接 * RNN：序列資料；時間步迭代與「回饋迴路（feedback loop）」 * 強化學習：Agent、環境、狀態、回饋 * GAN：生成對抗網路，屬於生成式模型家族 # 從 RNN 到 Transformer 的過渡（簡述） * RNN/LSTM/GRU：處理序列但長程依賴受限 * Seq2Seq 與 Attention：以注意力緩解資訊瓶頸 * Self-Attention 與 Transformer：以自注意力取代遞迴，成為現代 LLM 基石 * Transfer Learning／Fine-Tuning：由大規模預訓練到下游任務調整 # 課程走向與承諾 * 先講清概念再做實作專題，逐步累積 * 實作以即時現場編碼為主，不用預寫程式碼展示 # 先修需求（最低門檻） * 基礎 Python：流程控制、資料結構、例外處理、基本資料存取 * 具備 ML/DL 基礎更佳（不深講傳統 NN/RNN/CNN 細節） --- # 生成式 AI 概念 ![image](https://hackmd.io/_uploads/Byx1T1fEsle.png) * 生成式 AI 會根據訓練資料產生新的資料 * 可生成影像、文字、音訊、影片等非結構化資料 * 分為兩大類：生成式影像模型、生成式語言模型 * LLM（大型語言模型）屬於生成式語言模型 # GAN（生成對抗網路） ![image](https://hackmd.io/_uploads/HkuwxGVogl.png) * 由生成器（Generator）與判別器（Discriminator）兩個神經網路組成 * 生成器產生合成資料，判別器判斷真實資料與合成資料 * 2018–2019 年間常用於影像生成，但計算資源需求高 * 有多種變體，屬於生成式 AI 的一部分 # LLM（大型語言模型） * 基於 Transformer 架構發展而成 * 主要用於文字生成、理解與對話 * 近期模型功能強大，也能進行影像生成 * 範例：ChatGPT、Google Bard、Meta LLaMA # 生成式模型的任務 * 影像轉影像（Image-to-Image） * 文字轉文字（Text-to-Text） * 影像轉文字（Image-to-Text，如影像描述） * 文字轉影像（Text-to-Image，如 DALL·E） # Prompt 與輸入輸出 * 輸入稱為「Input Prompt」 * 輸出稱為「Output Prompt」 * Prompt 工程對於提升模型效果非常重要 * 有零樣本（Zero-shot）、少樣本（Few-shot）等不同提示方式 # 生成式 AI 與深度學習的關係 ![image](https://hackmd.io/_uploads/r1IJZf4sll.png) * AI 是最大範疇 * 機器學習是 AI 的子集 * 深度學習是機器學習的子集 * 生成式 AI 是深度學習的子集 # 歷史與演進脈絡 ![messageImage_1757853399234](https://hackmd.io/_uploads/SywkwENogg.jpg) * GAN 曾是生成影像的主要技術 * RNN、LSTM 等用於早期文字生成與影像描述 * Transformer 問世後，推動 LLM 與生成式 AI 快速發展 * 現代 LLM 已能處理多模態任務（文字、影像等） --- # RNN 基本概念 ![messageImage_1757853314102](https://hackmd.io/_uploads/Skeb5L4Vsee.jpg) * 一種可處理序列資料的神經網路，具有回饋迴路 * 只能擷取短期依賴，長句或長序列效果不佳 * 隱藏狀態隨時間步傳遞，易出現梯度消失/爆炸 # LSTM 核心觀念 * 在 RNN 基礎上加入「細胞狀態」以保留長期依賴 * 由遺忘門、輸入門、輸出門三個門控制資訊流 * 同時處理短期與長期記憶，較能應付長句 # GRU 核心觀念 * 2014 年提出，受 LSTM 啟發但更精簡 * 無獨立細胞狀態，僅用隱藏狀態承載記憶 * 以重設門、更新門兩個門取代 LSTM 三門 # 序列到序列映射（Seq Tasks） ![messageImage_1757853215025](https://hackmd.io/_uploads/HJxVLEEseg.jpg) * 一對一、一道多、多對一、多對多等映射型態 * 多對一常見於情感分析 * 一對多常見於影像描述 * 多對多常見於機器翻譯 # 傳統 RNN/LSTM/GRU 的限制 * 早期多對多設定常受固定長度輸入/輸出限制 * 長句時上下文難以完整保留，表現下降 * 訓練與推論對齊問題複雜 # 2014 年 Seq2Seq（編碼器—解碼器） ![messageImage_1757853447272](https://hackmd.io/_uploads/HkDMv44jex.jpg) * 以編碼器將可變長度輸入壓縮為「語境向量（context vector）」 * 解碼器根據語境向量逐步產生可變長度輸出 * 編碼器/解碼器常用 RNN、LSTM 或 GRU 實作 * 單一語境向量對超長序列仍有資訊瓶頸 # Attention 機制 * 為解決語境向量瓶頸，引入「對齊/注意力」選擇性關注輸入不同部分 * 解碼每一步都可根據注意力權重動態聚合編碼器隱藏狀態 * 明顯改善長句翻譯與序列建模效能 * 奠定後續更強序列模型與 Transformer 的基礎 # Attention 概念 ![messageImage_1757854944144](https://hackmd.io/_uploads/HJfbaV4oxx.jpg) * Attention 機制透過比對輸入與輸出序列的關聯，解碼器可動態存取編碼器所有隱藏狀態 * 能更好處理長句，避免資訊只壓縮在單一語境向量中 * 核心目的是找出輸入詞與輸出詞之間的對應關係 --- # Transformer 出現（2017 年論文 *Attention is All You Need*） ![image](https://hackmd.io/_uploads/ByFt6NViex.png) * Google 提出的突破性研究，捨棄 RNN/LSTM/GRU 結構 * 完全依靠 Attention 機制，提出「多頭注意力（Multi-Head Attention）」 * 架構分為編碼器（Encoder）與解碼器（Decoder）兩部分 * 編碼器流程：輸入 → 嵌入層（Embedding） → 位置編碼（Positional Encoding） → 多頭注意力 → 前饋神經網路（Feed Forward NN） * 解碼器流程：輸入 → 輸出嵌入層 → 多頭注意力 → 前饋神經網路 → Softmax 輸出 # Transformer 的優勢 * 支援輸入並行處理，不依賴時間步序列，訓練與推理更快 * 多頭注意力能捕捉詞與詞之間多層次的關聯 * 能處理長距離依賴問題，比 RNN/LSTM 更強 # 與 LLM 的關聯 * Transformer 架構成為後續大型語言模型（LLM）的基礎 * ChatGPT、BERT、GPT 系列等模型皆以 Transformer 為核心 * 為現代 NLP 與生成式 AI 的重要轉折點 # 區分生成式與判別式模型 ![image](https://hackmd.io/_uploads/SknjpE4ole.png) * 判別式模型：傳統監督式學習，根據輸入直接分類或預測，如 RNN、Naive Bayes、傳統分類器 * 生成式模型：學習資料分布並能生成新資料，應用於影像、文字、語音等生成任務 # 生成式模型的訓練流程（以 LLM 為例） * 第一步：無監督學習（大量語料的自我學習，建模語言分布） * 第二步：監督式微調（利用標註資料強化特定任務能力） * 第三步：強化學習（例如 ChatGPT 使用 RLHF，讓回覆更符合人類偏好） # 本質差異 ![image](https://hackmd.io/_uploads/r1qRT4Viee.png) * 判別式模型：輸入 → 分類/回歸輸出，僅針對已知任務 * 生成式模型：輸入 → 生成全新資料或序列，能創造內容而不僅是辨識 --- # LLM 定義與核心概念 ![image](https://hackmd.io/_uploads/HkWkAN4jeg.png) ![image](https://hackmd.io/_uploads/BJilC4Nilg.png) * LLM（大型語言模型）是在巨量語料上訓練的深度學習模型，能生成與理解語言 * 可產生文字與（結合多模態時）影像等內容，本質是生成式模型 # 為何稱為「大型」 ![image](https://hackmd.io/_uploads/By--AN4sge.png) * 模型參數規模與網路結構複雜度高 * 以海量資料訓練，依賴大規模計算資源與資料集 # 能力與常見任務 ![image](https://hackmd.io/_uploads/ryxz0N4sel.png) * 文字生成、對話、摘要、翻譯、程式碼生成 * 問答、分類、拼寫/語法校正、語音文字化（結合專用模組時） # 基礎架構：Transformer ![image](https://hackmd.io/_uploads/SJBz0NEogg.png) * 以注意力機制為核心，拋棄 RNN/LSTM/GRU * 具編碼器（Encoder）與解碼器（Decoder）結構，可並行處理序列 # 里程碑模型（概述） ![image](https://hackmd.io/_uploads/Hkxm0N4ilg.png) * BERT、GPT 系列（1/2/3/3.5/4）、XLM、T5、Megatron、M2M 等 * 皆以 Transformer 為基底，依任務調整訓練目標與架構 # Transformer 使用方式分類 ![image](https://hackmd.io/_uploads/ryW8CNNilx.png) * Encoder-only：BERT、RoBERTa、XLM、ALBERT、ELECTRA、DeBERTa * Decoder-only：GPT 系列、GPT-Neo 等 * Encoder–Decoder：T5、BART、M2M-100、BIG-BIRD 等 # 封閉/商用模型（舉例） * OpenAI：GPT-4、GPT-3.5、DALL·E、Whisper、Embeddings、Moderation 等 * 依使用量（token）計費 # 開源模型（舉例） * BLOOM、LLaMA 2、PaLM 家族相關開源變體、Falcon、StableLM 等 * 生態持續更新，社群提供多語料與權重 # 訓練流程（以 LLM 為例） * 無監督預訓練：自回歸/遮罩語言建模學習語言分佈 * 監督式微調：用標註資料對齊特定任務 * 強化學習：如 RLHF 讓回覆更貼近人類偏好 # Prompt 基本觀念 * 輸入為 Input Prompt，輸出為 Output Prompt * 常見型式含零樣本與少樣本提示 # 與電腦視覺任務的區別 * LLM 著重語言相關任務 * 視覺任務（偵測、分割、追蹤、OCR、分類）常用專門的 CV 架構與遷移學習 # NLP 的遷移學習與 ULMFiT * ULMFiT 展示語言模型微調可遷移至下游文本分類等任務 * Transformer 與遷移學習結合推動 LLM 興起，強化泛化與可微調性 # 生態與資源（提及） * Hugging Face Model Hub 提供多種開源模型與使用說明 * AI21 Labs（Jurassic-2 等）作為商用替代方案，提供額度與文件 # Terminology * Generative AI（生成式人工智慧）：能自動產生文本、圖像或音訊等資料的 AI 技術 * LLM（大型語言模型）：具備數十億參數，能理解並生成自然語言的深度學習模型 * Community Session（社群課程）：公開、互動式的線上教學形式 * Curriculum（課程大綱）：學習內容的完整規劃與主題安排 * Python Basics（Python 基礎）：if/else、迴圈、資料結構、例外處理等基礎語法 * Dashboard（課程儀表板）：集中管理課程影片、作業與資源的平台 * Assignments（作業）：練習概念應用的任務 * Quizzes（小測驗）：檢測課堂理解度的短測驗 * Theory Sessions（理論課程）：講解概念與原理的部分 * Practical Implementation（實作）：即時撰寫與展示程式碼的部分 * OpenAI API：OpenAI 提供的程式接口，用於存取 GPT 等模型 * LangChain：一個協助建構 LLM 應用的框架，支援記憶、代理與鏈式組合 * Memory（記憶模組）：在 LangChain 中保存上下文的功能 * Chain（鏈式模組）：將多個任務組合成序列化工作流程 * Agent（代理）：能自主決定如何執行任務的 LangChain 元件 * End-to-End Application（端到端應用）：從輸入到輸出的完整實際應用 * Vector Database（向量資料庫）：儲存與檢索嵌入向量的資料庫 * Embedding（嵌入表示）：將文字轉換成高維度數值向量 * Retrieval（檢索）：從向量資料庫中找到與查詢最相關的向量 * Llama（開源 LLM）：Meta 發布的開源大型語言模型系列 * Llama Index（Llama 索引）：用於組織與檢索外部知識的框架 * Falcon：阿布達比開源的大型語言模型 * BLOOM：由 BigScience 計畫訓練的多語言大型語言模型 * NLP Tasks（自然語言處理任務）：如摘要、翻譯、問答、情感分析等 * Transfer Learning（遷移學習）：將已有模型知識應用於新任務 * Fine-tuning（微調）：根據特定任務調整模型權重 * MLOps：機器學習的 DevOps，負責模型部署與維運 * Deployment（部署）：將模型應用上線並提供服務 * Recent Trends（最新趨勢）：如擴散模型、多模態生成等新技術 * Diffusion Model（擴散模型）：用於影像生成的機率模型 * Subword Tokenization（子詞分詞）：將文字拆解為子詞單元以控制詞彙量 * Pre-training（預訓練）：在大規模語料上進行初步學習 * Supervised Fine-tuning（監督式微調）：用標記數據對模型進行特定任務調整 * Evaluation Metrics（評估指標）：用於衡量模型效能的標準（如 Loss、BLEU、ROUGE） * Hyperparameters（超參數）：如學習率、批次大小、上下文長度等設定 * Overfitting（過擬合）：模型在訓練集表現好，但泛化能力差 * Regularization（正則化）：避免過擬合的技巧，如 Dropout * Checkpoints（檢查點）：儲存訓練進度與模型狀態的檔案 * Distributed Training（分散式訓練）：使用多 GPU 或多節點進行加速訓練 * Human Feedback（人類反饋）：用於微調模型以符合人類偏好 * RLHF（人類回饋強化學習）：利用獎勵模型與強化學習方法對齊 LLM * Start Token（起始符號）：標記生成序列的開始 * End Token（結束符號）：標記生成序列的結束 * Auto-regressive Generation（自迴歸生成）：逐步生成下一個 token 的方式 * Causal Mask（因果遮罩）：防止未來 token 洩漏訊息的遮罩 * Prompt Engineering（提示工程）：設計輸入以誘導模型產生預期輸出 * Alignment（對齊）：讓模型輸出符合人類價值與需求 * Open-source Models（開源模型）：可自由使用與修改的 LLM * Scalability（可擴展性）：模型在規模放大後的效能與效率 * Sample Efficiency（樣本效率）：模型利用有限數據進行有效學習的能力 * Generative AI（生成式人工智慧）：透過深度學習模型自動生成文本、影像、音訊等內容的技術 * Large Language Model（大型語言模型, LLM）：以大規模語料預訓練，能理解並生成自然語言的深度學習模型 * ChatGPT：OpenAI 推出的對話式應用，基於解碼器型 Transformer * Google Bard：Google 發布的生成式 AI 對話模型 * Meta LLaMA 2：Meta 開源的大型語言模型系列 * MidJourney：基於擴散模型的影像生成應用 * DALL·E：OpenAI 推出的文字到影像生成模型 * Deep Learning（深度學習）：多層神經網路架構，用於自動特徵學習與表示 * Artificial Neural Network（人工神經網路, ANN）：最基本的神經網路，由輸入層、隱藏層與輸出層組成 * Input Layer（輸入層）：接收數據特徵的神經網路第一層 * Hidden Layer（隱藏層）：輸入與輸出之間的中間層，學習抽象特徵 * Output Layer（輸出層）：負責輸出模型最終結果 * Convolutional Neural Network（卷積神經網路, CNN）：專門處理影像與網格數據的神經網路 * Convolution（卷積運算）：提取局部特徵的核心操作 * Pooling（池化層）：降低維度並保留重要特徵的操作 * Flatten Layer（展平層）：將高維特徵圖展平成一維向量 * Fully Connected Layer（全連接層）：將特徵映射到最終輸出 * Recurrent Neural Network（遞迴神經網路, RNN）：處理序列數據的神經網路 * Feedback Loop（反饋迴圈）：將前一時刻的輸出傳回隱藏層，用於時間序列建模 * Sequence Data（序列資料）：如文字、語音、時間序列等有順序的數據 * LSTM（長短期記憶網路）：解決 RNN 長期依賴問題的改進版本 * GRU（門控遞迴單元）：相較 LSTM 結構更簡化的 RNN 改進模型 * Seq2Seq（序列到序列模型）：常用於翻譯的編碼器-解碼器架構 * Encoder（編碼器）：將輸入序列壓縮為上下文向量的網路 * Decoder（解碼器）：將上下文向量展開為輸出序列的網路 * Attention（注意力機制）：計算輸入不同部分的重要性權重 * Self-Attention（自注意力）：序列中的每個位置與其他位置互相計算關聯度 * Transformer：基於自注意力的神經網路架構，取代傳統 RNN/CNN * Residual Connection（殘差連接）：透過捷徑加法避免深層網路梯度消失 * Layer Normalization（層正規化）：在每個 token 向量內進行標準化 * Transfer Learning（遷移學習）：將預訓練模型應用於新任務 * Fine-tuning（微調）：基於特定數據集調整模型權重 * Generative Adversarial Network（生成對抗網路, GAN）：由生成器與判別器對抗訓練的生成模型 * Generator（生成器）：產生合成數據的網路 * Discriminator（判別器）：判斷數據真假性的網路 * Reinforcement Learning（強化學習）：透過獎勵信號引導代理學習最佳策略 * Agent（代理）：在強化學習中與環境互動的實體 * Environment（環境）：代理操作與接收回饋的系統 * State（狀態）：描述環境當前情況的變數 * Reward（獎勵）：代理行為帶來的回饋分數 * Token（標記）：LLM 的最小處理單元，可為字、子詞或符號 * Tokenization（斷詞）：將文字拆解為模型可處理的標記序列 * Prompt（提示）：輸入給模型的指令或問題 * Prompt Template（提示模板）：格式化提示以控制輸出效果 * Auto-regressive Model（自迴歸模型）：逐步生成下一個 token 的模型 * Causal Mask（因果遮罩）：防止序列模型讀取未來資訊的遮罩機制 * Use Cases（應用場景）：實際落地的生成式 AI 應用，例如客服、翻譯、內容生成 * Domains（應用領域）：教育、醫療、金融、電商等垂直產業 * Practical Session（實作課程）：教授如何實際撰寫程式碼與 API 使用 * Chat Completion API：OpenAI API，用於多輪對話生成 * Function Calling API：讓模型能結合外部函數執行任務的 API * API Key（應用程式金鑰）：存取雲端 AI 模型的認證憑證 * Dashboard（課程儀表板）：提供學習影片、資源與作業的線上平台 * Recorded Session（錄播課程）：上課後可回放的影片資源 * Assignments & Quizzes（作業與小測驗）：課程練習與自我檢測工具 * 人工智慧（AI）：模擬人類智慧以進行推理、學習與決策的電腦系統。 * 機器學習（ML）：AI 的子領域，透過資料訓練模型以自動改進預測或分類。 * 深度學習（DL）：機器學習的子集，利用多層神經網路處理複雜模式與特徵。 * 神經網路（NN）：模擬人腦神經元的數學模型，由節點與連結構成。 * 人工神經網路（ANN）：最基本的神經網路結構，包括輸入層、隱藏層與輸出層。 * 卷積神經網路（CNN）：專門處理影像與視覺資料的深度學習模型。 * 循環神經網路（RNN）：適合處理序列資料如語音或文字的神經網路。 * 長短期記憶網路（LSTM）：RNN 的變體，能處理長序列的依存關係。 * 門控循環單元（GRU）：RNN 的改良型，結構較簡單但性能優秀。 * 強化學習（RL）：透過獎勵與懲罰機制學習最佳決策的學習方法。 * 生成式人工智慧（Generative AI）：能基於訓練樣本產生新資料的 AI。 * 判別式模型（Discriminative AI）：專注於區分不同類別的模型。 * 生成對抗網路（GAN）：由生成器與判別器組成，用於生成合成資料。 * 生成器（Generator）：GAN 中負責產生合成資料的神經網路。 * 判別器（Discriminator）：GAN 中負責判斷資料真偽的神經網路。 * 合成資料（Synthetic Data）：由模型生成而非真實收集的資料。 * 潛在空間（Latent Space）：數據在模型內部抽象表示的特徵空間。 * 自編碼器（Autoencoder）：透過壓縮與解壓縮重建資料的神經網路。 * 變分自編碼器（VAE）：生成模型的一種，能建構潛在變數分佈。 * 擴散模型（Diffusion Model）：逐步將噪音轉換成影像的生成模型。 * 大型語言模型（LLM）：基於海量文本訓練的生成式語言模型。 * Transformer：以注意力機制為核心的深度學習架構。 * 注意力機制（Attention Mechanism）：動態關注序列中重要部分的方法。 * 自注意力（Self-Attention）：序列內元素彼此關注並加權的重要技術。 * 多頭注意力（Multi-Head Attention）：同時在多個子空間計算注意力。 * 編碼器（Encoder）：處理輸入序列並抽取特徵的神經網路模組。 * 解碼器（Decoder）：根據特徵生成輸出序列的神經網路模組。 * 預訓練（Pretraining）：在大規模資料上先行訓練模型的過程。 * 微調（Fine-Tuning）：將預訓練模型調整以適應特定任務。 * 提示詞（Prompt）：輸入給生成模型的文本指令或問題。 * 提示工程（Prompt Engineering）：設計與優化提示詞以改善輸出品質。 * 零樣本學習（Zero-Shot Learning）：模型能處理未見過任務的能力。 * 少樣本學習（Few-Shot Learning）：透過少量範例快速學習任務。 * 文本生成（Text Generation）：由模型自動產生自然語言文字。 * 影像生成（Image Generation）：利用 AI 模型產生新圖片。 * 文生圖（Text-to-Image）：將文字描述轉換為圖片的技術。 * 圖生圖（Image-to-Image）：將輸入影像轉換成另一影像的技術。 * 圖生文（Image-to-Text）：從圖片生成文字描述，如影像標註。 * 文生文（Text-to-Text）：輸入文字並輸出文字的生成任務。 * 模型參數（Model Parameters）：模型內可學習的權重與偏置。 * 遷移學習（Transfer Learning）：將一任務訓練所得知識應用到另一任務。 * 語義嵌入（Semantic Embedding）：將資料轉換為向量表示以捕捉語義。 * 損失函數（Loss Function）：衡量模型輸出與目標差異的函數。 * 交叉熵損失（Cross-Entropy Loss）：常用於分類問題的損失函數。 * 反向傳播（Backpropagation）：計算梯度並更新權重的學習方法。 * 隨機梯度下降（SGD）：利用樣本隨機更新參數的最佳化方法。 * Adam 優化器（Adam Optimizer）：結合動量與自適應學習率的優化算法。 * 過擬合（Overfitting）：模型對訓練資料過度擬合導致泛化差。 * 正則化（Regularization）：防止過擬合的技術，如 L1、L2。 * Dropout：隨機丟棄神經元以減少過擬合的技巧。 * 訓練資料集（Training Dataset）：用來訓練模型的資料集合。 * 測試資料集（Test Dataset）：用來評估模型泛化能力的資料集合。 * 驗證資料集（Validation Dataset）：用於調參與避免過擬合的資料集合。 * 循環神經網路（RNN）：透過隱藏狀態在時間步之間傳遞資訊，用於處理序列資料的神經網路。 * 時間步（Time Step）：序列中每一個依序處理的離散位置，模型在此更新隱藏狀態。 * 隱藏狀態（Hidden State）：RNN 在每個時間步對過去資訊的壓縮表示，用以影響後續輸出。 * 反向傳播穿越時間（BPTT）：將序列展開後對整段時間的誤差做反向傳播以更新權重的方法。 * 梯度消失（Vanishing Gradient）：深層或長序列訓練時梯度趨近零，導致長期依存難以學到的問題。 * 梯度爆炸（Exploding Gradient）：梯度在序列反向傳播中急遽放大，使訓練不穩定的現象。 * 截斷 BPTT（Truncated BPTT）：僅對固定長度的時間窗口做反向傳播以降低計算與穩定訓練。 * 雙向 RNN（Bidirectional RNN）：同時從前向與後向處理序列，結合雙向資訊以提升表現。 * 長短期記憶（LSTM）：引入細胞狀態與閘控以保留長期依存、緩解梯度消失的 RNN 變體。 * 細胞狀態（Cell State）：LSTM 中長期記憶的主通道，可在時間步間近乎不衰減地傳遞資訊。 * 輸入閘（Input Gate）：控制新資訊寫入細胞狀態的程度。 * 遺忘閘（Forget Gate）：決定細胞狀態中哪些舊資訊要被保留或遺忘。 * 輸出閘（Output Gate）：調節從細胞狀態輸出到隱藏狀態的資訊量。 * 閘控機制（Gating Mechanism）：以可學習的門控函數動態選擇資訊流動的結構設計。 * Peephole 連接（Peephole Connections）：讓各閘直接觀測細胞狀態以改進 LSTM 決策。 * 堆疊 LSTM（Stacked LSTM）：多層 LSTM 疊加以學習更高階的時間特徵。 * 門控循環單元（GRU）：以更新閘與重置閘簡化 LSTM 結構並維持長期記憶能力。 * 更新閘（Update Gate）：控制保留舊隱藏狀態與引入新資訊的比例。 * 重置閘（Reset Gate）：決定在產生候選隱藏狀態時要忽略多少過去資訊。 * 候選隱藏狀態（Candidate Hidden State）：在 GRU 中由當前輸入與重置後的舊狀態計算的暫時表示。 * 計算效率（Computational Efficiency）：模型在相同硬體與時間下可處理的資料量與訓練速度評估。 * 序列到序列（Seq2Seq）：藉編碼器壓縮輸入序列，解碼器生成輸出序列的框架。 * 編碼器（Encoder）：將可變長輸入序列轉換為固定或動態的中間表示。 * 解碼器（Decoder）：根據中間表示與已生成的歷史輸出，逐步產生目標序列。 * 上下文向量（Context Vector）：由編碼器產生、總結輸入資訊供解碼器使用的表示。 * 變長序列（Variable-Length Sequences）：輸入與輸出長度不固定的序列資料形式。 * 注意力機制（Attention）：在解碼時對輸入不同位置分配權重以擷取關鍵資訊的方法。 * 加性注意力（Bahdanau Attention）：以前饋網路計算對齊分數的注意力形式。 * 乘性注意力（Luong Attention）：以點積或縮放點積計算對齊分數的高效注意力。 * 對齊分數（Alignment Score）：衡量當前解碼狀態與各編碼步之相關性的標量值。 * 注意力權重（Attention Weights）：對齊分數經 softmax 正規化後的機率分佈。 * 注意力遮罩（Attention Mask）：用來忽略填充或非法位置，避免權重落在無效步上的掩碼。 * 覆蓋機制（Coverage Mechanism）：累積歷史注意力以減少重覆對齊與遺漏問題。 * 複製／指標生成器（Pointer-Generator）：結合複製來源字詞與生成新字詞以處理 OOV 的解碼技術。 * 師生強制（Teacher Forcing）：訓練解碼器時以真實前一詞作為輸入以加速收斂的技巧。 * 曝露偏差（Exposure Bias）：訓練與推論時輸入分佈不一致導致表現下降的問題。 * 排序搜尋（Beam Search）：在解碼時維持多條候選路徑以近似全域最佳序列。 * 貪婪解碼（Greedy Decoding）：每步選取機率最高的詞，計算簡單但易陷局部最佳。 * 長度正則化（Length Normalization）：在 Beam Search 中調整分數以避免偏好過短序列。 * 批次填充（Padding）：將序列補至相同長度以利向量化與批次運算。 * 序列遮罩（Sequence Masking）：標註有效位置以在損失與注意力計算時忽略填充。 * 分桶（Bucketing）：依序列長度分組，減少填充並提升訓練效率。 * 變分 Dropout（Variational Dropout）：在序列維持相同隨機遮蓋樣本以穩定 RNN 訓練。 * 梯度裁剪（Gradient Clipping）：對梯度幅度設上限以防止梯度爆炸。 * 層正規化（Layer Normalization）：對單一樣本的神經元做正規化以穩定序列模型。 * 交叉熵序列損失（Sequence Cross-Entropy）：對逐步預測的平均交叉熵，用於序列訓練。 * 困惑度（Perplexity）：語言模型評估指標，反映預測不確定性，越低越好。 * BLEU 分數（BLEU Score）：機器翻譯評估指標，衡量生成序列與參考譯文的 n-gram 相似度。 * 子詞分解（BPE/Subword）：將詞拆為子詞單位以減少 OOV 並兼顧詞彙泛化。 * 超參數調校（Hyperparameter Tuning）：調整學習率、層數、隱藏維度等以最佳化模型表現。 * 注意力機制（Attention Mechanism）：在解碼時為輸入序列的每個位置分配不同權重以捕捉關鍵資訊。 * 注意力分數（Attention Score）：衡量輸入單詞與當前解碼狀態之相關性的值。 * 注意力矩陣（Attention Matrix）：由所有輸入位置與輸出位置對齊分數組成的矩陣。 * 多頭注意力（Multi-Head Attention）：並行執行多組注意力計算，讓模型從不同子空間學習關聯。 * 自注意力（Self-Attention）：序列內每個元素與自身序列中所有其他元素建立關聯。 * 位置編碼（Positional Encoding）：將單詞在序列中的位置資訊加入嵌入向量中。 * 殘差連接（Residual Connection）：將輸入直接加到輸出以緩解梯度消失並加速訓練。 * 層正規化（Layer Normalization）：在序列模型中標準化每層的輸出以穩定訓練。 * 前饋神經網路（Feed Forward Neural Network）：在 Transformer 中的逐位置非線性轉換。 * Transformer：基於注意力的深度學習架構，捨棄 RNN/LSTM，以平行處理序列為特色。 * 編碼器堆疊（Encoder Stack）：由多層注意力與前饋網路組成，將輸入轉為高維表示。 * 解碼器堆疊（Decoder Stack）：由多層注意力與前饋網路組成，逐步生成輸出序列。 * 遮罩注意力（Masked Attention）：在訓練自回歸模型時阻止模型窺視未來輸入。 * Softmax 正規化：將注意力分數轉換為概率分佈的函數。 * Transformer Base 模型：2017 年《Attention Is All You Need》論文提出的基礎架構。 * Transformer Big 模型：Transformer 論文中較大參數量的變體，性能更佳。 * 平行化處理（Parallelization）：同時處理序列中所有元素，大幅提升訓練速度。 * 位置不變性（Permutation Invariance）：注意力不依賴序列順序，因此需要位置編碼。 * Seq2Seq with Attention：編碼器—解碼器結合注意力以克服固定向量瓶頸的架構。 * 語言建模（Language Modeling）：根據上下文預測下一個單詞的任務。 * 上下文向量（Context Vector）：由注意力加權輸入隱藏狀態得到的中間表示。 * 機器翻譯（Machine Translation）：將一種語言的句子轉換為另一種語言的任務。 * 神經機器翻譯（NMT）：基於深度學習與注意力的自動翻譯技術。 * 長程依賴（Long-Term Dependency）：序列中相隔很遠元素間的關聯。 * 自回歸生成（Autoregressive Generation）：逐步生成輸出序列，每一步依賴先前的輸出。 * 預訓練語言模型（Pretrained Language Model）：在大規模語料上學習通用語言模式的模型。 * 大型語言模型（LLM）：以 Transformer 為基礎訓練的超大規模語言模型。 * 無監督學習（Unsupervised Learning）：不依賴標籤資料，自動尋找資料結構的學習方式。 * 監督式微調（Supervised Fine-Tuning）：在標註資料上調整預訓練模型以完成特定任務。 * 強化學習（Reinforcement Learning）：透過獎勵信號引導模型學習的方式。 * 人類回饋強化學習（RLHF）：以人類評價結果作為獎勵信號優化生成模型。 * 生成式模型（Generative Model）：學習資料分佈並生成新樣本的模型。 * 判別式模型（Discriminative Model）：直接學習輸入與輸出之間的邊界，用於分類或迴歸。 * 生成式對抗網路（GAN）：透過生成器與判別器對抗訓練的生成模型。 * 自回歸 Transformer（Autoregressive Transformer）：僅使用解碼器進行序列生成的架構。 * 編碼器-解碼器 Transformer（Encoder-Decoder Transformer）：同時使用編碼器與解碼器的架構。 * BERT：雙向 Transformer 編碼器，專注於理解與語境表示。 * GPT：僅基於 Transformer 解碼器的自回歸大型語言模型系列。 * 序列遮罩（Sequence Masking）：忽略填充位置避免影響注意力與損失計算。 * 多任務學習（Multi-Task Learning）：一個模型同時處理多種任務以提升泛化能力。 * 微調策略（Fine-Tuning Strategy）：調整模型參數或部分凍結層以適應新任務的方法。 * 模型可擴展性（Model Scalability）：隨著參數數量增加模型性能提升的能力。 * 記憶體效率（Memory Efficiency）：模型在 GPU/TPU 訓練時的記憶體消耗程度。 * 注意力複雜度（Attention Complexity）：標準注意力計算隨序列長度平方級增長的問題。 * 稀疏注意力（Sparse Attention）：僅計算部分位置間的關聯以降低計算成本。 * 線性注意力（Linear Attention）：將注意力計算簡化為線性複雜度的方法。 * 樣本效率（Sample Efficiency）：模型在有限訓練資料下學習的能力。 * 泛化能力（Generalization Ability）：模型在未見資料上維持良好表現的能力。 * 分詞（Tokenization）：將文本切分為子詞或詞元以供模型處理。 * 詞嵌入（Word Embedding）：將詞元映射為稠密向量表示以捕捉語義關聯。 * 次詞單元（Subword Unit）：小於單詞的語言單位，用於平衡詞彙覆蓋與泛化。 * 預測分佈（Prediction Distribution）：模型在 softmax 後對各候選詞的概率輸出。 * 大型語言模型（LLM）：在巨量語料上訓練，能執行生成與理解任務的深度學習模型。 * 模型規模（Model Scale）：指參數數量與訓練資料量的大小，決定模型的能力與效能。 * 巨量資料（Big Data）：LLM 訓練所需的大規模文本或多模態數據集。 * Transformer：LLM 的核心基礎架構，使用自注意力與並行處理序列。 * 編碼器模型（Encoder-Only Models）：如 BERT，專注於理解與表示輸入文本。 * 解碼器模型（Decoder-Only Models）：如 GPT 系列，專注於自回歸文本生成。 * 編碼器-解碼器模型（Encoder-Decoder Models）：如 T5、BART，處理輸入到輸出的轉換任務。 * BERT（Bidirectional Encoder Representations from Transformers）：雙向 Transformer 編碼器，用於語境理解。 * RoBERTa：BERT 的改良版，透過更大規模資料與更長訓練提升性能。 * ALBERT：參數共享與因式分解嵌入以減少計算與記憶體消耗的 BERT 變體。 * ELECTRA：使用「替換標記檢測」訓練方式，比傳統 MLM 更高效的模型。 * GPT（Generative Pre-trained Transformer）：僅用解碼器的自回歸生成模型系列。 * GPT-2：具備數十億參數，展示 LLM 強大文本生成能力。 * GPT-3：擁有 1750 億參數，開啟少樣本學習與多任務應用的時代。 * GPT-3.5：GPT-3 的增強版本，用於 ChatGPT 等應用。 * GPT-4：具備更高準確度、穩定性與跨領域能力的最新 GPT 模型。 * T5（Text-to-Text Transfer Transformer）：將所有任務轉換為文字到文字的形式。 * BART：結合自回歸與自編碼特性的編碼器-解碼器模型。 * XLM：跨語言預訓練模型，支持多語言處理。 * M2M-100：Facebook 開發的多語言翻譯模型，支持百種語言。 * Megatron：NVIDIA 開發的超大規模 Transformer 訓練框架與模型。 * Bloom：開源多語言 LLM，支持 46 種語言與 13 種程式語言。 * LLaMA（Large Language Model Meta AI）：Meta 開發的高效能開源 LLM。 * PaLM（Pathways Language Model）：Google 開發的超大型 LLM。 * Falcon：高效能開源解碼器模型，具備強大推理能力。 * StableLM：Stability AI 推出的開源語言模型系列。 * Jurassic-2：AI21 Labs 開發的 LLM，支援文本生成與問答。 * Chatbot：基於 LLM 的對話系統，用於交互式應用。 * 文本生成（Text Generation）：LLM 自動生成文章、故事或對話。 * 摘要生成（Summarization）：將長篇文章濃縮為重點的任務。 * 機器翻譯（Machine Translation）：跨語言轉換的應用場景。 * 程式碼生成（Code Generation）：輸入自然語言或程式描述，自動產生程式碼。 * 問答系統（Question Answering）：基於文本輸入回答問題的應用。 * 文本分類（Text Classification）：將輸入文本分配至預定義類別。 * 情感分析（Sentiment Analysis）：判斷文本情緒傾向，如正面或負面。 * 自動拼寫檢測（Spelling Correction）：基於 LLM 的錯別字修正。 * 語音識別（Speech Recognition）：將語音轉換為文字，常結合 LLM 作後處理。 * 模型微調（Model Fine-Tuning）：將通用 LLM 調整以適應特定任務。 * 指令微調（Instruction Tuning）：透過人類指令範例訓練模型遵循自然語言指令。 * 少樣本學習（Few-Shot Learning）：僅需少量範例即可適應新任務。 * 零樣本學習（Zero-Shot Learning）：無需範例即可解決新任務。 * 人類回饋強化學習（RLHF）：透過人類偏好標註引導 LLM 優化生成品質。 * 提示設計（Prompt Design）：設計最佳輸入提示以提升模型表現。 * 輸入提示（Input Prompt）：輸入給模型的指令或問題。 * 輸出提示（Output Prompt）：模型根據輸入生成的文本回應。 * Token：LLM 運算的最小單位，可能是詞、子詞或符號。 * Token 成本（Token Cost）：LLM 商業服務中依據處理 Token 數量收費。 * Hugging Face Hub：開源模型分享平台，提供 LLM 與其他模型下載與測試。 * API Key：存取 LLM 雲端服務所需的身份驗證金鑰。 * 推理（Inference）：使用已訓練模型在新輸入上生成或預測結果的過程。 * 泛化能力（Generalization Ability）：模型在未見資料上的適應與表現能力。