# 課程概述 * 直播錄製後整合為單一影片的大型基礎生成式 AI 課程 * 聚焦文字與影像生成模型與實務框架 * 由三位講師授課;本場次為社群實作型系列 # 時程與形式 * 連續約兩週,必要時延長 * 時間預計每日 3:00–5:00(以實際公告為準) * 先理論後實作,逐步開發多種應用 # 平台與資源 * 提供免費 Dashboard 註冊使用 * 課程影片、投影片、作業、測驗集中於 Dashboard * 直播錄影亦會上傳至 Inon YouTube 頻道 # 師資與背景 ![messageImage_1757842752323](https://hackmd.io/_uploads/ByYI6bNjle.jpg) * 主講:Sun/Savita(Aon 三年,資料科學、ML/DL、CV、NLP、MLOps) * 另有共同講師協同授課 * 講師 LinkedIn 可查詳細經歷 # 報名與費用 * 完全免費 * 透過連結註冊 Dashboard 後即可存取課程資源 # 課綱與學習路線 ![image](https://hackmd.io/_uploads/ByVsa-Vsle.png) * 生成式 AI 緒論:定義、動機、應用範疇 * LLM 概觀:發展脈絡、典型與最新模型 * OpenAI 服務:模型族系、版本概念、Python API 走讀 * LangChain:核心元件(Chains、Agents、Memory)與實作 * 比較與定位:OpenAI API 與 LangChain 的差異與搭配 # 進階主題 * 向量資料庫:Embeddings 產生、儲存與檢索流程 * RAG 思路:檢索強化生成的系統設計重點 * 開源模型:Llama 系列、Falcon、BLOOM 等的使用情境 * LlamaIndex:文件索引與查詢管線 * 其他前沿:Diffusion 等近期生成式模型 # 專案與實作 * 以 OpenAI + LangChain 打造端到端應用 * 加入向量資料庫與開源模型的進階專案 * 最終以 MLOps 思維部署成品 # 作業與測驗 * 每階段提供作業與小測驗強化練習 * 課後上傳教學影片與題目至 Dashboard # 先修需求 * 基礎 Python(控制流程、資料結構、例外處理、基礎資料庫概念) * 具備 ML/DL 基礎更佳(不著重傳統 NN/RNN/CNN 細節) * 會示範 Transfer Learning/Fine-tuning 概念與實作 # 教學方式 * 以現場即時編碼為主,不使用預寫程式碼展示 * 所需教材(PPT、資料)將置於資源區供下載 # 課程當前階段與目標 * 本場為「生成式 AI/LLM 導論」,明日起轉入實作 * 目標:建立概念基礎,銜接後續 OpenAI API 與應用開發 # 即將進行的實作內容 * 申請與使用 OpenAI API Key * Chat Completions 與 Functions 等 API 使用 * Token 概念與用量估算 * Prompt 模板與常見寫法 # 今日導論主題 * 生成式 AI 的用途與真實場景 * 大型語言模型(LLM)發展簡史 * 生成式 AI 與 LLM 的關係、邊界與定位 # 平台與課綱更新 * 課綱、影片、作業、測驗將同步於 Dashboard 與 YouTube * 開課時間固定,直播後上傳錄影與教材 # 學員背景與互動 * 參與者程度不一:部分有基礎、部分從零開始 * 之後以示範+黑板講解交錯進行,並提供練習作業 # 生成式 AI 與 LLM 常見產品 * ChatGPT(OpenAI)、Google Bard、Meta Llama 系列為代表性應用 * 需區分「模型」與「應用產品」的差異 # 生成式 AI ≠ 單一應用 * ChatGPT 等僅為應用層,底層方法論與訓練流程才是重點 * 課程聚焦方法、框架與實作,不僅是使用工具 # 深度學習基礎脈絡(導入 LLM 前置) ![messageImage_1757843175469](https://hackmd.io/_uploads/S16xyf4olx.jpg) * ANN:結構化資料的分類/回歸;輸入層、隱藏層、輸出層 * CNN:影像/網格資料;卷積、池化、展平、全連接 * RNN:序列資料;時間步迭代與「回饋迴路(feedback loop)」 * 強化學習:Agent、環境、狀態、回饋 * GAN:生成對抗網路,屬於生成式模型家族 # 從 RNN 到 Transformer 的過渡(簡述) * RNN/LSTM/GRU:處理序列但長程依賴受限 * Seq2Seq 與 Attention:以注意力緩解資訊瓶頸 * Self-Attention 與 Transformer:以自注意力取代遞迴,成為現代 LLM 基石 * Transfer Learning/Fine-Tuning:由大規模預訓練到下游任務調整 # 課程走向與承諾 * 先講清概念再做實作專題,逐步累積 * 實作以即時現場編碼為主,不用預寫程式碼展示 # 先修需求(最低門檻) * 基礎 Python:流程控制、資料結構、例外處理、基本資料存取 * 具備 ML/DL 基礎更佳(不深講傳統 NN/RNN/CNN 細節) --- # 生成式 AI 概念 ![image](https://hackmd.io/_uploads/Byx1T1fEsle.png) * 生成式 AI 會根據訓練資料產生新的資料 * 可生成影像、文字、音訊、影片等非結構化資料 * 分為兩大類:生成式影像模型、生成式語言模型 * LLM(大型語言模型)屬於生成式語言模型 # GAN(生成對抗網路) ![image](https://hackmd.io/_uploads/HkuwxGVogl.png) * 由生成器(Generator)與判別器(Discriminator)兩個神經網路組成 * 生成器產生合成資料,判別器判斷真實資料與合成資料 * 2018–2019 年間常用於影像生成,但計算資源需求高 * 有多種變體,屬於生成式 AI 的一部分 # LLM(大型語言模型) * 基於 Transformer 架構發展而成 * 主要用於文字生成、理解與對話 * 近期模型功能強大,也能進行影像生成 * 範例:ChatGPT、Google Bard、Meta LLaMA # 生成式模型的任務 * 影像轉影像(Image-to-Image) * 文字轉文字(Text-to-Text) * 影像轉文字(Image-to-Text,如影像描述) * 文字轉影像(Text-to-Image,如 DALL·E) # Prompt 與輸入輸出 * 輸入稱為「Input Prompt」 * 輸出稱為「Output Prompt」 * Prompt 工程對於提升模型效果非常重要 * 有零樣本(Zero-shot)、少樣本(Few-shot)等不同提示方式 # 生成式 AI 與深度學習的關係 ![image](https://hackmd.io/_uploads/r1IJZf4sll.png) * AI 是最大範疇 * 機器學習是 AI 的子集 * 深度學習是機器學習的子集 * 生成式 AI 是深度學習的子集 # 歷史與演進脈絡 ![messageImage_1757853399234](https://hackmd.io/_uploads/SywkwENogg.jpg) * GAN 曾是生成影像的主要技術 * RNN、LSTM 等用於早期文字生成與影像描述 * Transformer 問世後,推動 LLM 與生成式 AI 快速發展 * 現代 LLM 已能處理多模態任務(文字、影像等) --- # RNN 基本概念 ![messageImage_1757853314102](https://hackmd.io/_uploads/Skeb5L4Vsee.jpg) * 一種可處理序列資料的神經網路,具有回饋迴路 * 只能擷取短期依賴,長句或長序列效果不佳 * 隱藏狀態隨時間步傳遞,易出現梯度消失/爆炸 # LSTM 核心觀念 * 在 RNN 基礎上加入「細胞狀態」以保留長期依賴 * 由遺忘門、輸入門、輸出門三個門控制資訊流 * 同時處理短期與長期記憶,較能應付長句 # GRU 核心觀念 * 2014 年提出,受 LSTM 啟發但更精簡 * 無獨立細胞狀態,僅用隱藏狀態承載記憶 * 以重設門、更新門兩個門取代 LSTM 三門 # 序列到序列映射(Seq Tasks) ![messageImage_1757853215025](https://hackmd.io/_uploads/HJxVLEEseg.jpg) * 一對一、一道多、多對一、多對多等映射型態 * 多對一常見於情感分析 * 一對多常見於影像描述 * 多對多常見於機器翻譯 # 傳統 RNN/LSTM/GRU 的限制 * 早期多對多設定常受固定長度輸入/輸出限制 * 長句時上下文難以完整保留,表現下降 * 訓練與推論對齊問題複雜 # 2014 年 Seq2Seq(編碼器—解碼器) ![messageImage_1757853447272](https://hackmd.io/_uploads/HkDMv44jex.jpg) * 以編碼器將可變長度輸入壓縮為「語境向量(context vector)」 * 解碼器根據語境向量逐步產生可變長度輸出 * 編碼器/解碼器常用 RNN、LSTM 或 GRU 實作 * 單一語境向量對超長序列仍有資訊瓶頸 # Attention 機制 * 為解決語境向量瓶頸,引入「對齊/注意力」選擇性關注輸入不同部分 * 解碼每一步都可根據注意力權重動態聚合編碼器隱藏狀態 * 明顯改善長句翻譯與序列建模效能 * 奠定後續更強序列模型與 Transformer 的基礎 # Attention 概念 ![messageImage_1757854944144](https://hackmd.io/_uploads/HJfbaV4oxx.jpg) * Attention 機制透過比對輸入與輸出序列的關聯,解碼器可動態存取編碼器所有隱藏狀態 * 能更好處理長句,避免資訊只壓縮在單一語境向量中 * 核心目的是找出輸入詞與輸出詞之間的對應關係 --- # Transformer 出現(2017 年論文 *Attention is All You Need*) ![image](https://hackmd.io/_uploads/ByFt6NViex.png) * Google 提出的突破性研究,捨棄 RNN/LSTM/GRU 結構 * 完全依靠 Attention 機制,提出「多頭注意力(Multi-Head Attention)」 * 架構分為編碼器(Encoder)與解碼器(Decoder)兩部分 * 編碼器流程:輸入 → 嵌入層(Embedding) → 位置編碼(Positional Encoding) → 多頭注意力 → 前饋神經網路(Feed Forward NN) * 解碼器流程:輸入 → 輸出嵌入層 → 多頭注意力 → 前饋神經網路 → Softmax 輸出 # Transformer 的優勢 * 支援輸入並行處理,不依賴時間步序列,訓練與推理更快 * 多頭注意力能捕捉詞與詞之間多層次的關聯 * 能處理長距離依賴問題,比 RNN/LSTM 更強 # 與 LLM 的關聯 * Transformer 架構成為後續大型語言模型(LLM)的基礎 * ChatGPT、BERT、GPT 系列等模型皆以 Transformer 為核心 * 為現代 NLP 與生成式 AI 的重要轉折點 # 區分生成式與判別式模型 ![image](https://hackmd.io/_uploads/SknjpE4ole.png) * 判別式模型:傳統監督式學習,根據輸入直接分類或預測,如 RNN、Naive Bayes、傳統分類器 * 生成式模型:學習資料分布並能生成新資料,應用於影像、文字、語音等生成任務 # 生成式模型的訓練流程(以 LLM 為例) * 第一步:無監督學習(大量語料的自我學習,建模語言分布) * 第二步:監督式微調(利用標註資料強化特定任務能力) * 第三步:強化學習(例如 ChatGPT 使用 RLHF,讓回覆更符合人類偏好) # 本質差異 ![image](https://hackmd.io/_uploads/r1qRT4Viee.png) * 判別式模型:輸入 → 分類/回歸輸出,僅針對已知任務 * 生成式模型:輸入 → 生成全新資料或序列,能創造內容而不僅是辨識 --- # LLM 定義與核心概念 ![image](https://hackmd.io/_uploads/HkWkAN4jeg.png) ![image](https://hackmd.io/_uploads/BJilC4Nilg.png) * LLM(大型語言模型)是在巨量語料上訓練的深度學習模型,能生成與理解語言 * 可產生文字與(結合多模態時)影像等內容,本質是生成式模型 # 為何稱為「大型」 ![image](https://hackmd.io/_uploads/By--AN4sge.png) * 模型參數規模與網路結構複雜度高 * 以海量資料訓練,依賴大規模計算資源與資料集 # 能力與常見任務 ![image](https://hackmd.io/_uploads/ryxz0N4sel.png) * 文字生成、對話、摘要、翻譯、程式碼生成 * 問答、分類、拼寫/語法校正、語音文字化(結合專用模組時) # 基礎架構:Transformer ![image](https://hackmd.io/_uploads/SJBz0NEogg.png) * 以注意力機制為核心,拋棄 RNN/LSTM/GRU * 具編碼器(Encoder)與解碼器(Decoder)結構,可並行處理序列 # 里程碑模型(概述) ![image](https://hackmd.io/_uploads/Hkxm0N4ilg.png) * BERT、GPT 系列(1/2/3/3.5/4)、XLM、T5、Megatron、M2M 等 * 皆以 Transformer 為基底,依任務調整訓練目標與架構 # Transformer 使用方式分類 ![image](https://hackmd.io/_uploads/ryW8CNNilx.png) * Encoder-only:BERT、RoBERTa、XLM、ALBERT、ELECTRA、DeBERTa * Decoder-only:GPT 系列、GPT-Neo 等 * Encoder–Decoder:T5、BART、M2M-100、BIG-BIRD 等 # 封閉/商用模型(舉例) * OpenAI:GPT-4、GPT-3.5、DALL·E、Whisper、Embeddings、Moderation 等 * 依使用量(token)計費 # 開源模型(舉例) * BLOOM、LLaMA 2、PaLM 家族相關開源變體、Falcon、StableLM 等 * 生態持續更新,社群提供多語料與權重 # 訓練流程(以 LLM 為例) * 無監督預訓練:自回歸/遮罩語言建模學習語言分佈 * 監督式微調:用標註資料對齊特定任務 * 強化學習:如 RLHF 讓回覆更貼近人類偏好 # Prompt 基本觀念 * 輸入為 Input Prompt,輸出為 Output Prompt * 常見型式含零樣本與少樣本提示 # 與電腦視覺任務的區別 * LLM 著重語言相關任務 * 視覺任務(偵測、分割、追蹤、OCR、分類)常用專門的 CV 架構與遷移學習 # NLP 的遷移學習與 ULMFiT * ULMFiT 展示語言模型微調可遷移至下游文本分類等任務 * Transformer 與遷移學習結合推動 LLM 興起,強化泛化與可微調性 # 生態與資源(提及) * Hugging Face Model Hub 提供多種開源模型與使用說明 * AI21 Labs(Jurassic-2 等)作為商用替代方案,提供額度與文件 # Terminology * Generative AI(生成式人工智慧):能自動產生文本、圖像或音訊等資料的 AI 技術 * LLM(大型語言模型):具備數十億參數,能理解並生成自然語言的深度學習模型 * Community Session(社群課程):公開、互動式的線上教學形式 * Curriculum(課程大綱):學習內容的完整規劃與主題安排 * Python Basics(Python 基礎):if/else、迴圈、資料結構、例外處理等基礎語法 * Dashboard(課程儀表板):集中管理課程影片、作業與資源的平台 * Assignments(作業):練習概念應用的任務 * Quizzes(小測驗):檢測課堂理解度的短測驗 * Theory Sessions(理論課程):講解概念與原理的部分 * Practical Implementation(實作):即時撰寫與展示程式碼的部分 * OpenAI API:OpenAI 提供的程式接口,用於存取 GPT 等模型 * LangChain:一個協助建構 LLM 應用的框架,支援記憶、代理與鏈式組合 * Memory(記憶模組):在 LangChain 中保存上下文的功能 * Chain(鏈式模組):將多個任務組合成序列化工作流程 * Agent(代理):能自主決定如何執行任務的 LangChain 元件 * End-to-End Application(端到端應用):從輸入到輸出的完整實際應用 * Vector Database(向量資料庫):儲存與檢索嵌入向量的資料庫 * Embedding(嵌入表示):將文字轉換成高維度數值向量 * Retrieval(檢索):從向量資料庫中找到與查詢最相關的向量 * Llama(開源 LLM):Meta 發布的開源大型語言模型系列 * Llama Index(Llama 索引):用於組織與檢索外部知識的框架 * Falcon:阿布達比開源的大型語言模型 * BLOOM:由 BigScience 計畫訓練的多語言大型語言模型 * NLP Tasks(自然語言處理任務):如摘要、翻譯、問答、情感分析等 * Transfer Learning(遷移學習):將已有模型知識應用於新任務 * Fine-tuning(微調):根據特定任務調整模型權重 * MLOps:機器學習的 DevOps,負責模型部署與維運 * Deployment(部署):將模型應用上線並提供服務 * Recent Trends(最新趨勢):如擴散模型、多模態生成等新技術 * Diffusion Model(擴散模型):用於影像生成的機率模型 * Subword Tokenization(子詞分詞):將文字拆解為子詞單元以控制詞彙量 * Pre-training(預訓練):在大規模語料上進行初步學習 * Supervised Fine-tuning(監督式微調):用標記數據對模型進行特定任務調整 * Evaluation Metrics(評估指標):用於衡量模型效能的標準(如 Loss、BLEU、ROUGE) * Hyperparameters(超參數):如學習率、批次大小、上下文長度等設定 * Overfitting(過擬合):模型在訓練集表現好,但泛化能力差 * Regularization(正則化):避免過擬合的技巧,如 Dropout * Checkpoints(檢查點):儲存訓練進度與模型狀態的檔案 * Distributed Training(分散式訓練):使用多 GPU 或多節點進行加速訓練 * Human Feedback(人類反饋):用於微調模型以符合人類偏好 * RLHF(人類回饋強化學習):利用獎勵模型與強化學習方法對齊 LLM * Start Token(起始符號):標記生成序列的開始 * End Token(結束符號):標記生成序列的結束 * Auto-regressive Generation(自迴歸生成):逐步生成下一個 token 的方式 * Causal Mask(因果遮罩):防止未來 token 洩漏訊息的遮罩 * Prompt Engineering(提示工程):設計輸入以誘導模型產生預期輸出 * Alignment(對齊):讓模型輸出符合人類價值與需求 * Open-source Models(開源模型):可自由使用與修改的 LLM * Scalability(可擴展性):模型在規模放大後的效能與效率 * Sample Efficiency(樣本效率):模型利用有限數據進行有效學習的能力 * Generative AI(生成式人工智慧):透過深度學習模型自動生成文本、影像、音訊等內容的技術 * Large Language Model(大型語言模型, LLM):以大規模語料預訓練,能理解並生成自然語言的深度學習模型 * ChatGPT:OpenAI 推出的對話式應用,基於解碼器型 Transformer * Google Bard:Google 發布的生成式 AI 對話模型 * Meta LLaMA 2:Meta 開源的大型語言模型系列 * MidJourney:基於擴散模型的影像生成應用 * DALL·E:OpenAI 推出的文字到影像生成模型 * Deep Learning(深度學習):多層神經網路架構,用於自動特徵學習與表示 * Artificial Neural Network(人工神經網路, ANN):最基本的神經網路,由輸入層、隱藏層與輸出層組成 * Input Layer(輸入層):接收數據特徵的神經網路第一層 * Hidden Layer(隱藏層):輸入與輸出之間的中間層,學習抽象特徵 * Output Layer(輸出層):負責輸出模型最終結果 * Convolutional Neural Network(卷積神經網路, CNN):專門處理影像與網格數據的神經網路 * Convolution(卷積運算):提取局部特徵的核心操作 * Pooling(池化層):降低維度並保留重要特徵的操作 * Flatten Layer(展平層):將高維特徵圖展平成一維向量 * Fully Connected Layer(全連接層):將特徵映射到最終輸出 * Recurrent Neural Network(遞迴神經網路, RNN):處理序列數據的神經網路 * Feedback Loop(反饋迴圈):將前一時刻的輸出傳回隱藏層,用於時間序列建模 * Sequence Data(序列資料):如文字、語音、時間序列等有順序的數據 * LSTM(長短期記憶網路):解決 RNN 長期依賴問題的改進版本 * GRU(門控遞迴單元):相較 LSTM 結構更簡化的 RNN 改進模型 * Seq2Seq(序列到序列模型):常用於翻譯的編碼器-解碼器架構 * Encoder(編碼器):將輸入序列壓縮為上下文向量的網路 * Decoder(解碼器):將上下文向量展開為輸出序列的網路 * Attention(注意力機制):計算輸入不同部分的重要性權重 * Self-Attention(自注意力):序列中的每個位置與其他位置互相計算關聯度 * Transformer:基於自注意力的神經網路架構,取代傳統 RNN/CNN * Residual Connection(殘差連接):透過捷徑加法避免深層網路梯度消失 * Layer Normalization(層正規化):在每個 token 向量內進行標準化 * Transfer Learning(遷移學習):將預訓練模型應用於新任務 * Fine-tuning(微調):基於特定數據集調整模型權重 * Generative Adversarial Network(生成對抗網路, GAN):由生成器與判別器對抗訓練的生成模型 * Generator(生成器):產生合成數據的網路 * Discriminator(判別器):判斷數據真假性的網路 * Reinforcement Learning(強化學習):透過獎勵信號引導代理學習最佳策略 * Agent(代理):在強化學習中與環境互動的實體 * Environment(環境):代理操作與接收回饋的系統 * State(狀態):描述環境當前情況的變數 * Reward(獎勵):代理行為帶來的回饋分數 * Token(標記):LLM 的最小處理單元,可為字、子詞或符號 * Tokenization(斷詞):將文字拆解為模型可處理的標記序列 * Prompt(提示):輸入給模型的指令或問題 * Prompt Template(提示模板):格式化提示以控制輸出效果 * Auto-regressive Model(自迴歸模型):逐步生成下一個 token 的模型 * Causal Mask(因果遮罩):防止序列模型讀取未來資訊的遮罩機制 * Use Cases(應用場景):實際落地的生成式 AI 應用,例如客服、翻譯、內容生成 * Domains(應用領域):教育、醫療、金融、電商等垂直產業 * Practical Session(實作課程):教授如何實際撰寫程式碼與 API 使用 * Chat Completion API:OpenAI API,用於多輪對話生成 * Function Calling API:讓模型能結合外部函數執行任務的 API * API Key(應用程式金鑰):存取雲端 AI 模型的認證憑證 * Dashboard(課程儀表板):提供學習影片、資源與作業的線上平台 * Recorded Session(錄播課程):上課後可回放的影片資源 * Assignments & Quizzes(作業與小測驗):課程練習與自我檢測工具 * 人工智慧(AI):模擬人類智慧以進行推理、學習與決策的電腦系統。 * 機器學習(ML):AI 的子領域,透過資料訓練模型以自動改進預測或分類。 * 深度學習(DL):機器學習的子集,利用多層神經網路處理複雜模式與特徵。 * 神經網路(NN):模擬人腦神經元的數學模型,由節點與連結構成。 * 人工神經網路(ANN):最基本的神經網路結構,包括輸入層、隱藏層與輸出層。 * 卷積神經網路(CNN):專門處理影像與視覺資料的深度學習模型。 * 循環神經網路(RNN):適合處理序列資料如語音或文字的神經網路。 * 長短期記憶網路(LSTM):RNN 的變體,能處理長序列的依存關係。 * 門控循環單元(GRU):RNN 的改良型,結構較簡單但性能優秀。 * 強化學習(RL):透過獎勵與懲罰機制學習最佳決策的學習方法。 * 生成式人工智慧(Generative AI):能基於訓練樣本產生新資料的 AI。 * 判別式模型(Discriminative AI):專注於區分不同類別的模型。 * 生成對抗網路(GAN):由生成器與判別器組成,用於生成合成資料。 * 生成器(Generator):GAN 中負責產生合成資料的神經網路。 * 判別器(Discriminator):GAN 中負責判斷資料真偽的神經網路。 * 合成資料(Synthetic Data):由模型生成而非真實收集的資料。 * 潛在空間(Latent Space):數據在模型內部抽象表示的特徵空間。 * 自編碼器(Autoencoder):透過壓縮與解壓縮重建資料的神經網路。 * 變分自編碼器(VAE):生成模型的一種,能建構潛在變數分佈。 * 擴散模型(Diffusion Model):逐步將噪音轉換成影像的生成模型。 * 大型語言模型(LLM):基於海量文本訓練的生成式語言模型。 * Transformer:以注意力機制為核心的深度學習架構。 * 注意力機制(Attention Mechanism):動態關注序列中重要部分的方法。 * 自注意力(Self-Attention):序列內元素彼此關注並加權的重要技術。 * 多頭注意力(Multi-Head Attention):同時在多個子空間計算注意力。 * 編碼器(Encoder):處理輸入序列並抽取特徵的神經網路模組。 * 解碼器(Decoder):根據特徵生成輸出序列的神經網路模組。 * 預訓練(Pretraining):在大規模資料上先行訓練模型的過程。 * 微調(Fine-Tuning):將預訓練模型調整以適應特定任務。 * 提示詞(Prompt):輸入給生成模型的文本指令或問題。 * 提示工程(Prompt Engineering):設計與優化提示詞以改善輸出品質。 * 零樣本學習(Zero-Shot Learning):模型能處理未見過任務的能力。 * 少樣本學習(Few-Shot Learning):透過少量範例快速學習任務。 * 文本生成(Text Generation):由模型自動產生自然語言文字。 * 影像生成(Image Generation):利用 AI 模型產生新圖片。 * 文生圖(Text-to-Image):將文字描述轉換為圖片的技術。 * 圖生圖(Image-to-Image):將輸入影像轉換成另一影像的技術。 * 圖生文(Image-to-Text):從圖片生成文字描述,如影像標註。 * 文生文(Text-to-Text):輸入文字並輸出文字的生成任務。 * 模型參數(Model Parameters):模型內可學習的權重與偏置。 * 遷移學習(Transfer Learning):將一任務訓練所得知識應用到另一任務。 * 語義嵌入(Semantic Embedding):將資料轉換為向量表示以捕捉語義。 * 損失函數(Loss Function):衡量模型輸出與目標差異的函數。 * 交叉熵損失(Cross-Entropy Loss):常用於分類問題的損失函數。 * 反向傳播(Backpropagation):計算梯度並更新權重的學習方法。 * 隨機梯度下降(SGD):利用樣本隨機更新參數的最佳化方法。 * Adam 優化器(Adam Optimizer):結合動量與自適應學習率的優化算法。 * 過擬合(Overfitting):模型對訓練資料過度擬合導致泛化差。 * 正則化(Regularization):防止過擬合的技術,如 L1、L2。 * Dropout:隨機丟棄神經元以減少過擬合的技巧。 * 訓練資料集(Training Dataset):用來訓練模型的資料集合。 * 測試資料集(Test Dataset):用來評估模型泛化能力的資料集合。 * 驗證資料集(Validation Dataset):用於調參與避免過擬合的資料集合。 * 循環神經網路(RNN):透過隱藏狀態在時間步之間傳遞資訊,用於處理序列資料的神經網路。 * 時間步(Time Step):序列中每一個依序處理的離散位置,模型在此更新隱藏狀態。 * 隱藏狀態(Hidden State):RNN 在每個時間步對過去資訊的壓縮表示,用以影響後續輸出。 * 反向傳播穿越時間(BPTT):將序列展開後對整段時間的誤差做反向傳播以更新權重的方法。 * 梯度消失(Vanishing Gradient):深層或長序列訓練時梯度趨近零,導致長期依存難以學到的問題。 * 梯度爆炸(Exploding Gradient):梯度在序列反向傳播中急遽放大,使訓練不穩定的現象。 * 截斷 BPTT(Truncated BPTT):僅對固定長度的時間窗口做反向傳播以降低計算與穩定訓練。 * 雙向 RNN(Bidirectional RNN):同時從前向與後向處理序列,結合雙向資訊以提升表現。 * 長短期記憶(LSTM):引入細胞狀態與閘控以保留長期依存、緩解梯度消失的 RNN 變體。 * 細胞狀態(Cell State):LSTM 中長期記憶的主通道,可在時間步間近乎不衰減地傳遞資訊。 * 輸入閘(Input Gate):控制新資訊寫入細胞狀態的程度。 * 遺忘閘(Forget Gate):決定細胞狀態中哪些舊資訊要被保留或遺忘。 * 輸出閘(Output Gate):調節從細胞狀態輸出到隱藏狀態的資訊量。 * 閘控機制(Gating Mechanism):以可學習的門控函數動態選擇資訊流動的結構設計。 * Peephole 連接(Peephole Connections):讓各閘直接觀測細胞狀態以改進 LSTM 決策。 * 堆疊 LSTM(Stacked LSTM):多層 LSTM 疊加以學習更高階的時間特徵。 * 門控循環單元(GRU):以更新閘與重置閘簡化 LSTM 結構並維持長期記憶能力。 * 更新閘(Update Gate):控制保留舊隱藏狀態與引入新資訊的比例。 * 重置閘(Reset Gate):決定在產生候選隱藏狀態時要忽略多少過去資訊。 * 候選隱藏狀態(Candidate Hidden State):在 GRU 中由當前輸入與重置後的舊狀態計算的暫時表示。 * 計算效率(Computational Efficiency):模型在相同硬體與時間下可處理的資料量與訓練速度評估。 * 序列到序列(Seq2Seq):藉編碼器壓縮輸入序列,解碼器生成輸出序列的框架。 * 編碼器(Encoder):將可變長輸入序列轉換為固定或動態的中間表示。 * 解碼器(Decoder):根據中間表示與已生成的歷史輸出,逐步產生目標序列。 * 上下文向量(Context Vector):由編碼器產生、總結輸入資訊供解碼器使用的表示。 * 變長序列(Variable-Length Sequences):輸入與輸出長度不固定的序列資料形式。 * 注意力機制(Attention):在解碼時對輸入不同位置分配權重以擷取關鍵資訊的方法。 * 加性注意力(Bahdanau Attention):以前饋網路計算對齊分數的注意力形式。 * 乘性注意力(Luong Attention):以點積或縮放點積計算對齊分數的高效注意力。 * 對齊分數(Alignment Score):衡量當前解碼狀態與各編碼步之相關性的標量值。 * 注意力權重(Attention Weights):對齊分數經 softmax 正規化後的機率分佈。 * 注意力遮罩(Attention Mask):用來忽略填充或非法位置,避免權重落在無效步上的掩碼。 * 覆蓋機制(Coverage Mechanism):累積歷史注意力以減少重覆對齊與遺漏問題。 * 複製/指標生成器(Pointer-Generator):結合複製來源字詞與生成新字詞以處理 OOV 的解碼技術。 * 師生強制(Teacher Forcing):訓練解碼器時以真實前一詞作為輸入以加速收斂的技巧。 * 曝露偏差(Exposure Bias):訓練與推論時輸入分佈不一致導致表現下降的問題。 * 排序搜尋(Beam Search):在解碼時維持多條候選路徑以近似全域最佳序列。 * 貪婪解碼(Greedy Decoding):每步選取機率最高的詞,計算簡單但易陷局部最佳。 * 長度正則化(Length Normalization):在 Beam Search 中調整分數以避免偏好過短序列。 * 批次填充(Padding):將序列補至相同長度以利向量化與批次運算。 * 序列遮罩(Sequence Masking):標註有效位置以在損失與注意力計算時忽略填充。 * 分桶(Bucketing):依序列長度分組,減少填充並提升訓練效率。 * 變分 Dropout(Variational Dropout):在序列維持相同隨機遮蓋樣本以穩定 RNN 訓練。 * 梯度裁剪(Gradient Clipping):對梯度幅度設上限以防止梯度爆炸。 * 層正規化(Layer Normalization):對單一樣本的神經元做正規化以穩定序列模型。 * 交叉熵序列損失(Sequence Cross-Entropy):對逐步預測的平均交叉熵,用於序列訓練。 * 困惑度(Perplexity):語言模型評估指標,反映預測不確定性,越低越好。 * BLEU 分數(BLEU Score):機器翻譯評估指標,衡量生成序列與參考譯文的 n-gram 相似度。 * 子詞分解(BPE/Subword):將詞拆為子詞單位以減少 OOV 並兼顧詞彙泛化。 * 超參數調校(Hyperparameter Tuning):調整學習率、層數、隱藏維度等以最佳化模型表現。 * 注意力機制(Attention Mechanism):在解碼時為輸入序列的每個位置分配不同權重以捕捉關鍵資訊。 * 注意力分數(Attention Score):衡量輸入單詞與當前解碼狀態之相關性的值。 * 注意力矩陣(Attention Matrix):由所有輸入位置與輸出位置對齊分數組成的矩陣。 * 多頭注意力(Multi-Head Attention):並行執行多組注意力計算,讓模型從不同子空間學習關聯。 * 自注意力(Self-Attention):序列內每個元素與自身序列中所有其他元素建立關聯。 * 位置編碼(Positional Encoding):將單詞在序列中的位置資訊加入嵌入向量中。 * 殘差連接(Residual Connection):將輸入直接加到輸出以緩解梯度消失並加速訓練。 * 層正規化(Layer Normalization):在序列模型中標準化每層的輸出以穩定訓練。 * 前饋神經網路(Feed Forward Neural Network):在 Transformer 中的逐位置非線性轉換。 * Transformer:基於注意力的深度學習架構,捨棄 RNN/LSTM,以平行處理序列為特色。 * 編碼器堆疊(Encoder Stack):由多層注意力與前饋網路組成,將輸入轉為高維表示。 * 解碼器堆疊(Decoder Stack):由多層注意力與前饋網路組成,逐步生成輸出序列。 * 遮罩注意力(Masked Attention):在訓練自回歸模型時阻止模型窺視未來輸入。 * Softmax 正規化:將注意力分數轉換為概率分佈的函數。 * Transformer Base 模型:2017 年《Attention Is All You Need》論文提出的基礎架構。 * Transformer Big 模型:Transformer 論文中較大參數量的變體,性能更佳。 * 平行化處理(Parallelization):同時處理序列中所有元素,大幅提升訓練速度。 * 位置不變性(Permutation Invariance):注意力不依賴序列順序,因此需要位置編碼。 * Seq2Seq with Attention:編碼器—解碼器結合注意力以克服固定向量瓶頸的架構。 * 語言建模(Language Modeling):根據上下文預測下一個單詞的任務。 * 上下文向量(Context Vector):由注意力加權輸入隱藏狀態得到的中間表示。 * 機器翻譯(Machine Translation):將一種語言的句子轉換為另一種語言的任務。 * 神經機器翻譯(NMT):基於深度學習與注意力的自動翻譯技術。 * 長程依賴(Long-Term Dependency):序列中相隔很遠元素間的關聯。 * 自回歸生成(Autoregressive Generation):逐步生成輸出序列,每一步依賴先前的輸出。 * 預訓練語言模型(Pretrained Language Model):在大規模語料上學習通用語言模式的模型。 * 大型語言模型(LLM):以 Transformer 為基礎訓練的超大規模語言模型。 * 無監督學習(Unsupervised Learning):不依賴標籤資料,自動尋找資料結構的學習方式。 * 監督式微調(Supervised Fine-Tuning):在標註資料上調整預訓練模型以完成特定任務。 * 強化學習(Reinforcement Learning):透過獎勵信號引導模型學習的方式。 * 人類回饋強化學習(RLHF):以人類評價結果作為獎勵信號優化生成模型。 * 生成式模型(Generative Model):學習資料分佈並生成新樣本的模型。 * 判別式模型(Discriminative Model):直接學習輸入與輸出之間的邊界,用於分類或迴歸。 * 生成式對抗網路(GAN):透過生成器與判別器對抗訓練的生成模型。 * 自回歸 Transformer(Autoregressive Transformer):僅使用解碼器進行序列生成的架構。 * 編碼器-解碼器 Transformer(Encoder-Decoder Transformer):同時使用編碼器與解碼器的架構。 * BERT:雙向 Transformer 編碼器,專注於理解與語境表示。 * GPT:僅基於 Transformer 解碼器的自回歸大型語言模型系列。 * 序列遮罩(Sequence Masking):忽略填充位置避免影響注意力與損失計算。 * 多任務學習(Multi-Task Learning):一個模型同時處理多種任務以提升泛化能力。 * 微調策略(Fine-Tuning Strategy):調整模型參數或部分凍結層以適應新任務的方法。 * 模型可擴展性(Model Scalability):隨著參數數量增加模型性能提升的能力。 * 記憶體效率(Memory Efficiency):模型在 GPU/TPU 訓練時的記憶體消耗程度。 * 注意力複雜度(Attention Complexity):標準注意力計算隨序列長度平方級增長的問題。 * 稀疏注意力(Sparse Attention):僅計算部分位置間的關聯以降低計算成本。 * 線性注意力(Linear Attention):將注意力計算簡化為線性複雜度的方法。 * 樣本效率(Sample Efficiency):模型在有限訓練資料下學習的能力。 * 泛化能力(Generalization Ability):模型在未見資料上維持良好表現的能力。 * 分詞(Tokenization):將文本切分為子詞或詞元以供模型處理。 * 詞嵌入(Word Embedding):將詞元映射為稠密向量表示以捕捉語義關聯。 * 次詞單元(Subword Unit):小於單詞的語言單位,用於平衡詞彙覆蓋與泛化。 * 預測分佈(Prediction Distribution):模型在 softmax 後對各候選詞的概率輸出。 * 大型語言模型(LLM):在巨量語料上訓練,能執行生成與理解任務的深度學習模型。 * 模型規模(Model Scale):指參數數量與訓練資料量的大小,決定模型的能力與效能。 * 巨量資料(Big Data):LLM 訓練所需的大規模文本或多模態數據集。 * Transformer:LLM 的核心基礎架構,使用自注意力與並行處理序列。 * 編碼器模型(Encoder-Only Models):如 BERT,專注於理解與表示輸入文本。 * 解碼器模型(Decoder-Only Models):如 GPT 系列,專注於自回歸文本生成。 * 編碼器-解碼器模型(Encoder-Decoder Models):如 T5、BART,處理輸入到輸出的轉換任務。 * BERT(Bidirectional Encoder Representations from Transformers):雙向 Transformer 編碼器,用於語境理解。 * RoBERTa:BERT 的改良版,透過更大規模資料與更長訓練提升性能。 * ALBERT:參數共享與因式分解嵌入以減少計算與記憶體消耗的 BERT 變體。 * ELECTRA:使用「替換標記檢測」訓練方式,比傳統 MLM 更高效的模型。 * GPT(Generative Pre-trained Transformer):僅用解碼器的自回歸生成模型系列。 * GPT-2:具備數十億參數,展示 LLM 強大文本生成能力。 * GPT-3:擁有 1750 億參數,開啟少樣本學習與多任務應用的時代。 * GPT-3.5:GPT-3 的增強版本,用於 ChatGPT 等應用。 * GPT-4:具備更高準確度、穩定性與跨領域能力的最新 GPT 模型。 * T5(Text-to-Text Transfer Transformer):將所有任務轉換為文字到文字的形式。 * BART:結合自回歸與自編碼特性的編碼器-解碼器模型。 * XLM:跨語言預訓練模型,支持多語言處理。 * M2M-100:Facebook 開發的多語言翻譯模型,支持百種語言。 * Megatron:NVIDIA 開發的超大規模 Transformer 訓練框架與模型。 * Bloom:開源多語言 LLM,支持 46 種語言與 13 種程式語言。 * LLaMA(Large Language Model Meta AI):Meta 開發的高效能開源 LLM。 * PaLM(Pathways Language Model):Google 開發的超大型 LLM。 * Falcon:高效能開源解碼器模型,具備強大推理能力。 * StableLM:Stability AI 推出的開源語言模型系列。 * Jurassic-2:AI21 Labs 開發的 LLM,支援文本生成與問答。 * Chatbot:基於 LLM 的對話系統,用於交互式應用。 * 文本生成(Text Generation):LLM 自動生成文章、故事或對話。 * 摘要生成(Summarization):將長篇文章濃縮為重點的任務。 * 機器翻譯(Machine Translation):跨語言轉換的應用場景。 * 程式碼生成(Code Generation):輸入自然語言或程式描述,自動產生程式碼。 * 問答系統(Question Answering):基於文本輸入回答問題的應用。 * 文本分類(Text Classification):將輸入文本分配至預定義類別。 * 情感分析(Sentiment Analysis):判斷文本情緒傾向,如正面或負面。 * 自動拼寫檢測(Spelling Correction):基於 LLM 的錯別字修正。 * 語音識別(Speech Recognition):將語音轉換為文字,常結合 LLM 作後處理。 * 模型微調(Model Fine-Tuning):將通用 LLM 調整以適應特定任務。 * 指令微調(Instruction Tuning):透過人類指令範例訓練模型遵循自然語言指令。 * 少樣本學習(Few-Shot Learning):僅需少量範例即可適應新任務。 * 零樣本學習(Zero-Shot Learning):無需範例即可解決新任務。 * 人類回饋強化學習(RLHF):透過人類偏好標註引導 LLM 優化生成品質。 * 提示設計(Prompt Design):設計最佳輸入提示以提升模型表現。 * 輸入提示(Input Prompt):輸入給模型的指令或問題。 * 輸出提示(Output Prompt):模型根據輸入生成的文本回應。 * Token:LLM 運算的最小單位,可能是詞、子詞或符號。 * Token 成本(Token Cost):LLM 商業服務中依據處理 Token 數量收費。 * Hugging Face Hub:開源模型分享平台,提供 LLM 與其他模型下載與測試。 * API Key:存取 LLM 雲端服務所需的身份驗證金鑰。 * 推理(Inference):使用已訓練模型在新輸入上生成或預測結果的過程。 * 泛化能力(Generalization Ability):模型在未見資料上的適應與表現能力。