AWS Certified AI Practitioner learning - Day 3

# AWS Certified AI Practitioner learning - Day 3 第三天：機器學習基礎與 SageMaker ### 核心機器學習概念機器學習類型： #### 監督式學習 (Supervised Learning)：定義：使用已標記 (labeled) 的數據集來訓練模型。數據集中的每個輸入都有一個對應的已知輸出（標籤）。模型的目標是從這些標記數據中學習映射，以便對新的、未見過的數據進行預測。應用場景： * 分類 (Classification)：預測離散類別（例如：判斷電子郵件是否為垃圾郵件、圖片中的物件類別）。 * 迴歸 (Regression)：預測連續數值（例如：預測房價、銷售額、股票價格）。 > 與 Q&A 相關：當問題提及需要從已知結果中學習或預測特定類別/數值時，通常是監督式學習。 #### 非監督式學習 (Unsupervised Learning)：定義：使用未標記 (unlabeled) 的數據集。模型的目標是從數據中發現隱藏的模式、結構或關係，而無需預先知道任何輸出標籤。應用場景： * 聚類 (Clustering)：將相似的數據點分組（例如：客戶分群、新聞文章主題聚類）。 * 降維 (Dimensionality Reduction)：減少數據的維度以簡化分析或視覺化（例如：PCA）。 * 關聯規則學習 (Association Rule Learning)：發現數據項之間的關係（例如：購物籃分析）。 > 與 Q&A 相關：當問題提及從大量未組織數據中尋找模式、分組或簡化數據時，通常是非監督式學習。 #### 強化學習 (Reinforcement Learning)：定義：透過代理 (agent) 在環境 (environment) 中採取行動 (actions)，根據獎勵 (rewards) 或懲罰 (penalties) 來學習最佳策略，以最大化長期累積獎勵。應用場景：遊戲 AI (例如：AlphaGo)、機器人控制、推薦系統中的動態優化、自動駕駛決策。 > 與 Q&A 相關：當問題涉及決策制定、透過試錯學習、或在動態環境中優化行為時，通常是強化學習。 #### 基於人類反饋的強化學習 (Reinforcement Learning from Human Feedback, RLHF)：定義：強化學習的一種特殊形式，其中模型的獎勵信號來自於人類的評估或偏好，而非預先定義的函數。這對於訓練能夠產生符合人類偏好和價值觀的生成式 AI 模型尤為重要。應用場景：調整大型語言模型的行為以使其輸出更有幫助、更無害。 ### 機器學習管道階段 (ML Pipeline Stages)：這是從原始數據到部署模型的完整流程。 #### 資料預處理 (Data Pre-processing)：目的：清理和準備原始數據，使其適合機器學習模型。活動：處理缺失值、處理異常值、數據格式轉換、數據標準化/正規化。 #### 特徵工程 (Feature Engineering)：目的：從原始數據中選擇、轉換或創建新的特徵，以提高模型的效能。這是機器學習中最具藝術性也最關鍵的階段之一。活動：創建組合特徵、One-Hot 編碼類別特徵、文本特徵化（例如：TF-IDF、詞嵌入）。 #### 探索性資料分析 (Exploratory Data Analysis, EDA)：目的：透過可視化和統計方法來理解數據的特性、模式、異常和關係。活動：計算統計摘要、繪製數據分佈圖、識別相關性。 #### 模型訓練 (Model Training)：目的：使用準備好的數據來訓練機器學習演算法，使其學習數據中的模式。活動：選擇模型演算法、執行訓練迭代（epoch）、使用訓練數據來調整模型權重。 #### 推論 (Inference)：目的：使用訓練好的模型對新的、未見過的數據進行預測或決策。活動：將輸入數據傳遞給已部署的模型，模型返回預測結果。推論可以實時（低延遲）或批次（高吞吐量）進行。 #### 超參數調整 (Hyperparameter Tuning)：目的：優化模型的超參數（在訓練開始前設定的參數，如學習率、批次大小、隱藏層數量等），以達到最佳的模型效能。活動：執行多個訓練任務，每個任務使用不同的超參數組合，然後選擇表現最佳的組合。 ### Amazon SageMaker 的核心組件與功能 Amazon SageMaker 是一個功能強大的端到端機器學習平台，涵蓋了 ML 工作流程的所有階段。 #### Amazon SageMaker 無伺服器推論 (Serverless Inference)：功能：一種推論選項，允許您在不管理任何底層基礎設施（伺服器）的情況下部署機器學習模型。優勢：針對間歇性或不可預測的流量模式，它能夠自動擴展和縮減運算資源，並在沒有請求時縮減到零，從而顯著降低成本。您只需為實際推論期間消耗的資源付費。適用場景：流量波動大、有長期閒置時間的應用程式。 > 與 Q&A 相關：考試中常考其成本效益和無需管理伺服器的特性 #### Amazon SageMaker Clarify (可解釋性與偏差偵測)：功能：提供工具來分析機器學習模型中的潛在偏差（在數據集和模型層面），並增強模型的透明度與可解釋性。優勢：幫助資料科學家理解模型預測的「為什麼」，例如哪些特徵對模型的決策影響最大。這對於負責任 AI 和滿足合規性要求至關重要。適用場景：金融貸款審批、醫療診斷等需要高透明度和公平性的模型。 > 與 Q&A 相關：經常與「負責任 AI」、「偏見檢測」、「可解釋性報告」等關鍵字綁定。 #### Amazon SageMaker Data Wrangler：功能：一個視覺化介面，用於快速簡化和自動化資料準備與特徵工程的過程。它允許資料科學家和工程師在無程式碼或低程式碼的環境下匯入、清理、轉換和組合數據。優勢：加速資料準備過程，減少手動編碼和除錯的時間。適用場景：需要處理和清理複雜、多源數據的機器學習專案。 > 與 Q&A 相關：問題中若提及「簡化資料準備」、「無程式碼資料轉換」等。 #### Amazon SageMaker Canvas：功能：一個為業務分析師和公民資料科學家設計的無程式碼機器學習平台。它允許用戶透過拖放介面建置機器學習模型、進行預測分析，而無需編寫任何程式碼或具備機器學習背景知識。優勢：民主化機器學習，讓非技術用戶也能從數據中獲得預測見解。適用場景：商業預測、客戶流失預測、銷售預測等，由業務部門直接操作。 > 與 Q&A 相關：問題中若提及「沒有編碼或 ML 算法知識的用戶」、「可視化界面構建模型」等。 #### Amazon SageMaker Feature Store：功能：一個專用的儲存庫，用於儲存、發現和共享機器學習模型的特徵，確保這些特徵在訓練和推論之間的一致性。優勢：提高了特徵的重用性、消除了訓練/推論偏差，並加速了新模型和特徵的開發。適用場景：多團隊協作、頻繁更新特徵的機器學習專案。 >與 Q&A 相關：問題中若提及「跨團隊共享和管理模型開發的變數」、「確保訓練和推論特徵一致性」。 ### 大型語言模型 (LLM) 概念 #### 符號 (Tokens)：定義：生成式 AI 模型（特別是 LLM）操作的基本單位。一個符號可以是一個單詞、一個子詞、一個字符或一個標點符號。LLM 將輸入文本分解為符號，並生成符號作為輸出。重要性： LLM 的輸入和輸出長度通常以符號數來衡量。模型的成本和處理能力往往與其能處理的符號數量直接相關。 #### 嵌入 (Embeddings)：定義：將真實世界對象和概念（如單詞、短語、圖片、影片）轉換為 AI 和自然語言處理 (NLP) 模型能夠理解和操作的數值表示。這些數值向量捕捉了物件之間的語義關係。重要性：讓模型能夠理解詞語的「意義」和它們之間的關係（例如，「國王」的嵌入與「女王」相似，與「蘋果」相距甚遠）。廣泛用於語義搜尋、推薦系統、情感分析等。 #### 上下文窗口 (Context Window)：定義：指大型語言模型在單次調用中能夠處理的最大符號數量（包括輸入提示和生成的輸出）。重要性：模型的上下文窗口大小決定了它能夠記住和利用多少先前的對話或給定資訊來生成回應。較大的上下文窗口意味著模型可以處理更長的文件、對話或提示，但通常也伴隨著更高的計算成本。 ### 服務重點：Amazon EC2 實例類型 (特別是 Trn 系列，用於 LLM 訓練效率) #### Amazon EC2 實例類型： Amazon EC2 提供了多種實例類型，每種都針對不同的工作負載進行了優化。對於機器學習和深度學習任務，尤其需要強大的 GPU 或專用加速器。 C 系列：計算優化實例，適合高性能計算和批次處理。 G 系列： GPU 實例，適合圖形處理和機器學習推論。 P 系列：高性能 GPU 實例，專為深度學習訓練和高性能計算設計。 Trn 系列 (例如：Trn1, Trn1n)：目的：這是 Amazon 專為高效訓練深度學習模型，特別是大型語言模型 (LLM) 而設計的實例類型。它們使用 AWS 自研的 Trainium 晶片，提供極高的效能和能源效率。優勢：相較於通用 GPU 實例，Trn 系列在訓練大型模型時通常能提供更低的成本和更高的能源效率，從而減少訓練過程的環境影響。 > 與 Q&A 相關：問題中若提及「訓練 LLM 且關注環境影響最小/成本效率最高」時，Trn 系列往往是正確答案。 ### Focus areas AWS AI 服務的精確區分與進階功能: 在區分 AWS AI 服務（如 Agents for Amazon Bedrock 與 Amazon Bedrock 搭配知識庫）及其進階功能（如 SageMaker Ground Truth 的主動學習）方面，您還有提升空間。理解這些服務的具體用途和技術細節將有助於選擇最適合的解決方案。機器學習生命週期的階段識別: 您在識別機器學習生命週期中的特定階段（例如，將混淆矩陣視為模型評估而非訓練）時出現了混淆。清晰地掌握每個階段的內容和目的對於 AI/ML 專案的成功至關重要。 AI 模型問題的根本原因與解決方案: 您在識別 AI 模型問題（如 GAN 生成圖像多樣性不足的根本原因——訓練數據中的抽樣偏見）時未能完全命中要害。深入理解數據偏見、模型欠擬合/過擬合等概念對於診斷和解決 AI 模型問題非常重要。生成式 AI 護欄的應用時機: 您對生成式 AI 護欄（如 Amazon Bedrock Guardrails）在機器學習生命週期中發揮作用的階段存在誤解。護欄主要在模型推論階段提供保護，以防止有害內容的生成。 #### 錯題 ``` 一家公司需要使用 Amazon SageMaker Ground Truth 為一個自動駕駛項目標註大量的道路影像。為了在保證標註品質的同時盡可能地降低成本，他們希望利用模型先自動標註有高信心的影像，只將模型感到「不確定」的困難影像交給人工標註員。 Ground Truth 中實現這個功能的技術稱為什麼？ A. 主動學習 (Active Learning) 主動學習正是這種由模型「主動」識別最需要人工標註的數據點，以最高效率提升模型性能的技術，是 Ground Truth 自動化數據標註的核心功能。 ```