# AWS Certified AI Practitioner learning - Day 1
AIF-C01 學習講義 - 第一週:基礎與核心服務
## Day1:AWS AI/ML 概論與考試結構
學習目標:
了解 AIF-C01 考試的構成要素,包括領域、權重和題型。
透過有策略地分析練習題,不僅回答問題,更要掌握 AWS 服務的應用情境和核心概念。
全面理解 AWS 提供的各項 AI/ML 服務,並能識別其在不同問題中的適用性。
#### 識別並全面了解 AWS AI/ML 服務
> 核心 AI/ML 平台: Amazon Bedrock, Amazon SageMaker (及其各項功能,如 Serverless Inference, JumpStart, Ground Truth Plus, Clarify, Feature Store, Model Cards, Model Monitor, SageMaker Studio, Data Wrangler, Canvas)
>
> 特定 AI 服務: Amazon Rekognition (圖像與影片分析), Amazon Textract (文件分析), Amazon Comprehend (自然語言處理 - 情感分析、實體識別), Amazon Lex (聊天機器人), Amazon Polly (文字轉語音), Amazon Transcribe (語音轉文字), Amazon Personalize (個人化推薦)
>
> 其他相關服務: AWS KMS (加密), Amazon OpenSearch Service (搜尋與分析,包括向量搜尋), Amazon Q (商業智慧與開發者助手,如 in QuickSight, Developer), Amazon S3 (儲存), AWS CloudTrail (日誌與監控), Amazon API Gateway (API 管理), AWS Batch (批次處理), AWS Glue (ETL 服務), AWS PrivateLink (VPC 連接), AWS Audit Manager (稽核), AWS Artifact (合規報告), AWS Trusted Advisor (最佳實踐建議), Amazon Fraud Detector (詐欺偵測), Amazon Macie (資料敏感性發現)
>
> 關鍵概念: 學習與該服務相關的任何特殊術語(例如,對於 Bedrock 了解 FMs, Fine-tuning, Knowledge Bases, Agents, Guardrails;對於 SageMaker 了解 Notebook Instances, Training Jobs, Endpoints, Pipelines 等)。
---
### **AWS AI/ML 相關服務**
1. **Amazon Bedrock**:
* 用來訓練自定義模型並防止模型生成機密資料的推論結果。
* 其「護欄功能 (Guardrails)」可以確保生成的內容和主題適合兒童,並進行內容過濾以防止模型在回應中包含患者個人資訊或違反政策,並可設定警報。
* 可以建立互動應用程式,根據經典故事生成適合兒童的故事。
* 運行基礎模型 (FM),並確保只有授權使用者可以調用模型。
* 大型語言模型 (LLM) 可用於開發聊天界面(如產品手冊的聊天界面)。
* LLM 可用於內容創作、情緒分析、意圖檢測。
* 其「知識庫 (Knowledge base)」功能可以用來上傳 PDF 文件並提供上下文,或結合公司私有資料來補充模型性能。
* 可啟用調用日誌功能以監控模型輸入和輸出資料。
* 支援在 VPC 中建立 AI 應用,並透過 AWS PrivateLink 滿足法規要求而不允許訪問網際網路流量。
* 在定制基礎模型後,可上傳新的資料集進行模型驗證。
* 推論成本受消耗的符號數量影響。
* 可供內部使用,並透過人工工作團隊和自定義提示資料集評估模型以符合員工偏好風格。
* 代理功能 (Agents for Amazon Bedrock) 可以自動化重複性任務並編排複雜工作流程,也能結合 LLM 和知識庫提供企業資料的答案。
* 可透過微調 (fine-tuning) 基礎模型以提高準確性,方法是提供包含提示字段和完成字段的標記數據。
* 可以安全地使用 LLM,方式是設計清晰具體的提示,並配置最低權限的 IAM 角色和策略。
* Amazon Titan 是 Amazon Bedrock 上的一個強大的基礎模型 (FM)。
* 是一個託管服務,提供對預訓練基礎模型的訪問,適合沒有大量技術專業知識或基礎設施需求的企業。
2. **Amazon OpenSearch Service**:
* 能夠建立向量資料庫應用,具備可擴展的索引管理和最近鄰居搜尋能力。
* 支援向量型儲存和搜尋。
* 也支持處理向量資料並執行相似性搜尋。
3. **Amazon Q (in Amazon QuickSight / Developer / Business)**:
* **Amazon Q in Amazon QuickSight**: 自動生成圖表,顯示暢銷產品的銷售總額。
* **Amazon Q Developer**: 提升開發者生產力和軟體開發,實現編碼語音命令並提供自然語言搜尋。作為 AI 輔助的編碼夥伴,協助開發人員進行編碼任務和查詢,包括程式碼生成、除錯以及回答 AWS 服務和最佳實踐的問題。
* **Amazon Q Business**: 允許企業建立智慧型聊天機器人和搜尋介面,能夠根據企業文件和資料回答問題。
4. **Amazon Rekognition**:
* 圖像識別 (在問題 4 中作為選項提及)。
* 是一個基於深度學習的圖像和視訊分析服務,用於識別物件、場景和人臉。
5. **Amazon SageMaker**:
* **Amazon SageMaker 無伺服器推論 (Serverless Inference)**: 部署圖像分類 ML 模型到生產環境,無需管理底層基礎設施。
* **Amazon SageMaker Clarify**: 在資料準備期間識別潛在偏差,並生成簡單指標、報告和範例,以提供模型的透明度和解釋性。
* **Amazon SageMaker Ground Truth Plus**: 進行人工審核,確保圖像生成的高精度並最小化錯誤標註風險,也用於建立高品質的訓練資料集。
* **Amazon SageMaker Canvas**: 提供視覺化介面,讓沒有編碼經驗或 ML 算法知識的用戶可以建構 ML 模型並進行預測。
* **Amazon SageMaker Studio 筆記本 (Notebooks)**: 用於建構和訓練 ML 模型。
* **Amazon SageMaker Data Wrangler**: 導入資料,並準備和清理資料以進行機器學習。
* **Amazon SageMaker 批次轉換 (Batch Transform)**: 對大型資料集進行推論,且不需要立即獲取模型預測結果,適合離線處理大量資料並具成本效益。
* **Amazon SageMaker 即時推論 (Real-time Inference)**: 處理大輸入資料量且需要接近實時延遲,用於即時預測和低延遲需求。
* **Amazon SageMaker Feature Store**: 共享和管理模型開發的變數,是用於儲存、更新、檢索和共享機器學習特徵的完全託管儲存庫。
* **Amazon SageMaker Model Monitor**: 用於監控生產環境中 ML 模型的品質,並檢測數據漂移。
* **Amazon SageMaker JumpStart**: 協助部署基於微調模型的會話式聊天機器人,提供預建模型和模板。
* **Amazon SageMaker 端點 (Endpoints)**: 用於快速在團隊 VPC 內部署和使用基礎模型 (FM),並部署自定義模型進行實時推理。
* **MLOps**: SageMaker 在概念上支持 MLOps 實踐,即管理 ML 系統的整個生命週期。
* **Amazon SageMaker Debugger**: 提供用於除錯和分析機器學習模型的工具。
* **Amazon SageMaker Autopilot**: 自動訓練和調整機器學習模型,適合快速原型設計和實驗。
* **Amazon SageMaker Model Cards**: 用於記錄和分享有關機器學習模型的關鍵細節,例如其預期用途、訓練資料和評估指標。
* **模型平行 (Model Parallelism)**: SageMaker 特性之一,用於將大型模型拆分到多個 GPU 或實例上進行訓練。
6. **AWS KMS (Key Management Service)**:
* 在問題 1 中提及,用於加密機密資料,雖非正確答案但表示其在 AI/ML 資料安全中的作用。
7. **Amazon S3 (Simple Storage Service)**:
* 作為物件儲存與 OpenSearch Service 整合 (選項)。
* 在 SageMaker Studio 筆記本中作為資料儲存。
* 儲存加密資料 (SSE-S3),供 Amazon Bedrock 基礎模型訪問。
* 上傳新的資料集以進行模型驗證。
* 在 AWS 共享責任模型中,用戶負責儲存在 S3 中的客戶資料安全。
* 支援向量型儲存和搜尋。
8. **AWS CloudTrail**:
* 識別未授權的訪問嘗試,並可作為日誌目標以監控模型回應。
* 能夠記錄對 AWS 服務(包括 Bedrock)的 API 調用,提供調用者和時間戳等詳細資訊,用於合規性追蹤。
9. **Amazon Textract**:
* 自動將 PDF 履歷轉換為純文本,並從掃描文件中提取文字、手寫內容和資料。
10. **Amazon Personalize**:
* 在問題中作為選項提及,可用于建構個人化推薦系統。
11. **Amazon Lex**:
* 用於建構會話式聊天機器人,具備自然語言理解能力。
12. **Amazon Transcribe**:
* 轉錄通話記錄以獲取洞察和關鍵信息,或將音訊文件轉換為文本文件。
* **Amazon Transcribe Medical**: 用於將醫療語音轉換為文本。
13. **AWS Artifact**:
* 提供 ISV 合規報告,讓使用者能夠存取 AWS 合規報告、證明和認證的集中式儲存庫。
14. **Amazon Q Developer**:
* 請參考上述 Amazon Q 的討論,它是一個 AI 輔助的編碼夥伴,旨在提升開發者生產力和軟體開發。
15. **Amazon EC2 (Elastic Compute Cloud)**:
* 通用計算能力,其中 EC2 Trn 系列對環境影響最小,適用於訓練 LLM。
* 可以掃描 EC2 實例以識別潛在漏洞。
16. **AWS PrivateLink**:
* 用於 VPC 中符合法規要求的應用程式,不允許訪問網際網路流量,提供安全私有連接。
17. **AWS Glue**:
* 用於將非結構化資料轉換為結構化格式,以便資料科學家進行機器學習任務。是一個完全託管的 ETL 服務。
18. **Amazon Comprehend**:
* 創建分類標籤。
* 分析客戶支持互動以識別常見問題並生成洞察。
* 分析文本以進行情感、實體、關鍵短語識別等等。
* **Amazon Comprehend Medical**: 專用於從非結構化文本中提取醫療資訊。
19. **AWS AI Service Cards**:
* 提供有關特定 AWS AI 服務的詳細資訊,包括其預期用途、限制和負責任的設計考量。
20. **MLOps (Machine Learning Operations)**:
* 雖然不是一個 AWS 服務,但被提及為管理 ML 系統整個生命週期的實踐集合,包括開發、部署、監控和維護。
21. **Amazon Q Business**:
* 允許企業建立智能聊天機器人與搜尋介面,能夠根據企業文件和資料回答問題。
22. **Amazon Polly**:
* 在問題中作為選項提及,是一個將文字轉換為自然發音語音的服務。
23. **Amazon MemoryDB**:
* 支援向量型儲存和搜尋。
24. **Amazon Aurora RDS PostgreSQL**:
* 支援向量型儲存和搜尋。
25. **Amazon Kendra**:
* 託管服務,用於使用自然語言查詢非結構化資料。
26. **AWS Audit Manager**:
* 在問題中作為日誌目標或合規性選項提及,用於自動進行模型評估。
27. **AWS Trusted Advisor**:
* 在問題中作為選項提及,提供雲端資源的優化建議。
28. **Amazon Macie**:
* 加密和保護訓練資料,並掃描模型輸出以檢測敏感數據。
29. **Amazon CloudWatch (Logs / Alarms)**:
* 可配置為模型調用日誌的目標,並設定警報以通知政策違規。
* 監控和收集指標和日誌。
30. **AWS X-Ray**:
* 在問題中作為選項提及,允許追蹤請求流經應用程式組件。
31. **AWS Config**:
* 在問題中作為選項提及,用於追蹤 AWS 資源的配置更改。
32. **Amazon Titan**:
* 由 Amazon 開發的強大基礎模型 (FM),透過 Amazon Bedrock 提供。
33. **Amazon HealthLake**:
* 儲存和分析健康資料。
34. **Amazon DynamoDB**:
* 在問題中作為選項提及,是一個 NoSQL 資料庫服務,用於儲存和檢索資料。
35. **Amazon Connect**:
* 在問題中作為選項提及,是一個雲端聯絡中心服務。
36. **Amazon Translate**:
* 在問題中作為選項提及,用於翻譯文字。
37. **Amazon A2I (Augmented AI)**:
* 用於將人工審查整合到機器學習工作流程中。
38. **Amazon Neptune**:
* 支持處理向量資料並透過向量搜尋執行相似性搜尋。
39. **Amazon DocumentDB**:
* 支持處理向量資料並透過向量搜尋執行相似性搜尋。
40. **Amazon Forecast**:
* Amazon Forecast 是一項以機器學習(ML) 為基礎的時間序列預測服務,專為商業指標分析而建置。
---
### **AWS Certified AI Practitioner (AIF-C01) - 第一天測驗題目**
**問題 1**
一位 AI 實務者在 Amazon Bedrock 上訓練了包含機密資料的資料集,並希望確保模型不會生成基於機密資料的推論結果。該如何防止?
A. 刪除模型並重新訓練
B. 使用動態資料遮蔽
C. 使用 Amazon SageMaker 加密推論資料
D. 使用 AWS KMS 加密機密資料
**問題 2**
Amazon OpenSearch Service 的哪個功能可以建立向量資料庫應用?
A. 與 Amazon S3 整合
B. 支援地理空間索引
C. 可擴展的索引管理
D. 即時資料分析
**問題 3**
一家公司想顯示過去 12 個月內各零售地點暢銷產品的銷售總額,應該使用哪種 AWS 解決方案來自動生成圖表?
A. Amazon Q in Amazon EC2
B. Amazon Q Developer
C. Amazon Q in Amazon QuickSight
D. Amazon Q in AWS Chatbot
**問題 4**
一家公司想要建立一個互動應用程式,能根據經典故事生成適合兒童的故事,且希望內容和主題適合兒童,該使用哪項 AWS 服務或功能?
A. Amazon Rekognition
B. Amazon Bedrock playgrounds
C. Amazon Bedrock 的護欄功能
D. Amazon Bedrock 的代理功能
**問題 5**
一家公司已開發一個圖像分類的 ML 模型,想要將此模型部署到生產環境以供網頁應用使用,而不需管理底層基礎設施,該如何實現?
A. 使用 Amazon SageMaker 無伺服器推論來部署模型
B. 使用 Amazon CloudFront 部署模型
C. 使用 Amazon API Gateway 來託管模型並提供推論
D. 使用 AWS Batch 託管模型並提供推論
**問題 6**
一家公司擁有大量未標記的客戶資料並希望根據資料為客戶分層以便行銷,應該使用哪種方法來滿足需求?
A. 監督式學習
B. 非監督式學習
C. 強化學習
D. 基於人類回饋的強化學習 (RLHF)
**問題 7**
一家公司每季度進行預測以優化操作以滿足預期需求,並使用 ML 模型進行預測。AI 實務者希望在報告中提供透明度和解釋性,應該包含哪些內容?
A. 模型訓練程式碼
B. 部分依賴圖 (PDP)
C. 訓練樣本資料
D. 模型收斂表
**問題 8**
以下哪一項是生成式 AI 模型的應用案例?
A. 使用入侵偵測系統增強網路安全
B. 根據文字描述建立寫實圖像以用於數位行銷
C. 使用優化索引提高資料庫效能
D. 分析財務資料以預測股票市場趨勢
**問題 9**
一位 AI 實務者使用大型語言模型 (LLM) 為行銷活動建立內容,但生成的內容雖然聽起來合理且真實,但實際上不正確。這是什麼問題?
A. 資料洩漏
B. 幻覺
C. 過擬合
D. 欠擬合
**問題 10**
一家貸款公司想開發基於生成式 AI 的解決方案,並希望在符合業務標準的基礎上提供新客戶折扣,並希望模型的使用能負責且減少對某些客戶的負面影響。該如何操作?(選擇兩項)
A. 偵測資料中的不平衡或差異
B. 確保模型的運行頻率足夠
C. 評估模型的行為,以便向利害關係人提供透明度
D. 使用 ROUGE 技術以確保模型 100% 的準確性
E. 確保模型的推論時間在可接受的範圍內
---
---
---
---
---
---
---
---
---
---
---
---
---
### **答案**
> **問題 1** 答案:A
> **問題 2** 答案:C
> **問題 3** 答案:C
> **問題 4** 答案:C
> **問題 5** 答案:A
> **問題 6** 答案:B
> **問題 7** 答案:B
> **問題 8** 答案:B
> **問題 9** 答案:B
> **問題 10** 答案:A, C