## 自然語言處理(Natural Language Processing, NLP) 自然語言處理(NLP)是讓機器理解、處理並生成語言的技術,包含從文本預處理到語意理解、生成與推論等多種任務,廣泛應用於搜尋引擎、對話系統、情感分析、機器翻譯等。 ### 文本預處理(Text Preprocessing) - **斷詞(Tokenization)** 將一串文字切分成詞或子詞。 範例:`我愛NLP` → `我|愛|NLP` - **停用詞移除(Stopword Removal)** 排除「的、了、是」等對語意貢獻低的高頻詞。 - **詞形還原(Lemmatization)** 將詞還原為詞典原形,如:`running → run`。 - **TF-IDF(詞頻 × 逆文檔頻率)** 衡量一個詞在文件中的==重要性==,常用於文本分類與向量化。 - **其他技巧**:小寫化、標點移除、特殊字元清洗、拼字修正 --- ### 詞彙與語意表示(Word Embedding & Representation) #### Word2Vec | 模型類型 | 原理說明 | 輸入 | 預測目標 | 適用情境與特性 | |-------------|-------------------------------------------|----------------|--------------------|-----------------------------------| | **CBOW** | Continuous Bag of Words:<br>根據上下文詞預測中心詞 | 上下文(Context) | 中心詞(Target) | 訓練速度快,適合大量資料 | | **Skip-gram**| 預測上下文詞(Context Words) | 中心詞(Target) | 上下文詞(Context) | 精度高,特別適合稀疏資料、小語料情境 | --- ### 語法分析任務(Syntax-Level Tasks) - **詞性標註(POS Tagging)** 標記每個詞的語法功能(名詞、動詞、形容詞) - **命名實體辨識(NER)** 辨識文字中的人物、地名、組織、金額、日期等實體類型 - **句法分析(Syntactic Parsing)** - 成分句法(Constituency Parsing)→ 拆解語法樹 - 依存句法(Dependency Parsing)→ 分析詞間依存關係 --- ### 語意理解任務(Semantic-Level Tasks) - **語意角色標註(SRL)** 解析誰是動作主語、對象、工具等(Who did what to whom) - **情感分析 / 主題分類** 應用於社群評論、新聞摘要、產品回饋分析 - **自然語言推論(NLI)** 判斷句子間是否有蘊含(entailment)、矛盾(contradiction) --- ### 生成任務與序列建模(Sequence Generation) - **序列到序列模型(Seq2Seq)** 常搭配 RNN、LSTM 或 Transformer,用於翻譯、摘要 - **Transformer 解碼策略** - Greedy Search - ==Beam Search(束寬)==:保留 top-K 路徑,平衡穩定性與效率 → Beam width 越大,生成更穩定但計算更慢 --- ### Prompt 工程與大型語言模型應用(Prompt Engineering) - **範本式 Prompt 設計** 固定格式引導輸出,如:「請用『條列式』說明...」 - **Few-shot / Zero-shot Prompting** 使用少量或無樣本例子讓模型理解任務 - **Chain-of-Thought(思路鏈)** 指導模型分步思考,提高推理能力 --- ### 語音與語言模型任務(Speech + NLP Tasks) #### 🔹 MLM / NSP(語言預訓練任務) - **MLM (Masked Language Model)** - BERT 的預訓練任務 - 遮蔽句中部分詞,讓模型預測原詞(Contextual Embedding) - **NSP (Next Sentence Prediction)** - 判斷兩句話是否為連續上下句 - 用於理解段落邏輯、問答配對、閱讀理解等場景 📌 這兩個任務為 **BERT 類模型的預訓練核心任務**,幫助模型學習語意與上下文邏輯。 #### 🔹 語音相關任務與模型(ASR / TTS) | 名稱 | 說明 | |-------------|-----------------------------------------------------------| | **Whisper** | OpenAI 推出的語音辨識模型,支援多語系語音轉文字任務(ASR) | | **CTC** | Connectionist Temporal Classification,處理語音中==不對齊==序列 → 文字 | | **Tacotron**| TTS(Text-to-Speech)模型,將文字轉為梅爾頻譜,後續可合成語音 | | **TTS** | 任務類型:Text-to-Speech,從文字輸出自然語音,可應用於語音助理、客服等場景 | 📌 結合 NLP 與語音的多模態應用,如語音輸入 → 語意理解 → 回覆 → TTS 合成,是許多語音 AI 助理的核心技術流程。 --- > ✅ 建議將語音與語言模型視為 NLP 的延伸任務(Multimodal NLP),與語音識別(ASR)、語音合成(TTS)任務整合理解。 --- ## 電腦視覺模型與任務(Computer Vision Models & Tasks) - **YOLO (You Only Look Once)** - 單階段即時目標偵測,速度快、無需 RPN - **Faster R-CNN** - 兩階段檢測:RPN 產生候選區域 → 二階段分類與回歸 - **Region Proposal Network (RPN)** - Faster R-CNN 的核心,用於生成潛在物件錨點(anchor box) - **U-Net** - 影像語意分割,Encoder–Decoder + skip connection - **Autoencoder / VAE**🔥 - 特徵壓縮、異常檢測、圖像重建;VAE 支援生成新樣本 - **Diffusion Models** - 漸進式反向生成,增強細節,應用於高品質圖像生成 ## 生成式 AI(Generative AI)架構與模型 生成式 AI 是指能「產生」資料的模型,輸出形式可為文字、圖像、語音、影片等。常見技術包含語言模型(GPT)、圖像生成(GAN、Diffusion)、跨模態模型(如 CLIP、Flamingo)等。 ### GPT 架構(Decoder-only Transformer) - 使用 Transformer 的解碼器結構 - 採用==自回歸==(autoregressive)方式依序生成下一個詞 - 擅長應用:**對話生成、文本續寫、程式碼補全** 📌 代表模型:GPT-2 / GPT-3 / GPT-4 / ChatGPT / CodeX --- ### Transformer 架構(Encoder-Decoder) - 通用架構:輸入經編碼器 → 輸出經解碼器生成序列 - 支援雙向理解(如 BERT)與序列生成(如 T5) 📌 代表應用: - BERT → 預訓練語言理解(MLM / NSP) - T5 / BART → 文本摘要、翻譯、問答生成 --- ### GAN(Generative Adversarial Network) - 對抗式生成:Generator 負責「造假」,Discriminator 負責「識假」 - 訓練時兩者互相對抗,逐步逼近真實數據分佈 - 適用於:**圖像生成、風格轉換、超解析度** 📌 代表模型:DCGAN、StyleGAN、CycleGAN --- ### VAE(Variational Autoencoder) | 項目 | 說明 | |------|----------------------------------------------------------------------| | 類型 | 生成模型 + 非監督式學習 | | 結構 | Encoder 將輸入轉為**潛在機率分布(mean, std)** → Decoder 進行還原 | | 損失 | Reconstruction Loss + KL Divergence(與標準常態分布接近) | | 優點 | 支援連續潛在空間操作(interpolation)、樣本生成穩定 | | 缺點 | 生成圖像模糊(模態平均),複雜資料效果不如 GAN | | 應用 | 生成圖像 / 構造異常資料樣本 / 表徵學習 / 潛在空間可視化 / 少樣本數據擴增 | --- ### Diffusion Models(擴散式生成模型) - 利用**反向擾動過程**逐步將噪音變為清晰圖像 - 能生成高品質細節豐富的圖像,效果優於傳統 GAN 📌 代表應用:Stable Diffusion、Imagen、DALLE-2 📌 常用於:文字轉圖像(text-to-image)、圖像修復、影像變換 --- ## 多模態生成模型(Multimodal Generative Models) | 模型名稱 | 說明 | |-------------|----------------------------------------------------------------------| | **CLIP** | 將圖文映射至同一語意空間,支援 zero-shot 圖像分類 | | **DALL·E** | 將文字描述轉換為圖像(Text-to-Image) | | **Flamingo** | 處理圖文複合輸入,適用於多模態理解與問答生成任務 | | **GPT-V** | 視覺強化語言模型,支援看圖說話、OCR、多模態推理(GPT-4V) | ## 推薦系統(Recommender Systems) 推薦系統是根據使用者偏好、歷史行為或項目特徵,預測其可能感興趣的內容,用於電商、影音、社群、新聞等平台。 ### 協同過濾(Collaborative Filtering) #### 使用者式協同過濾(User-based CF) - 找出與目標使用者行為相似的其他使用者 - 推薦這些使用者喜歡但你未接觸過的項目 #### 項目式協同過濾(Item-based CF) - 根據目標項目,找出「經常與其一起被喜愛」的其他項目 - 根據相似項目推薦給使用者 📌 技術細節: - 相似度計算方式:餘弦相似度、皮爾森相關係數 - 適用場景:資料稀疏但有一定互動量(如 Netflix、YouTube) --- ### 內容過濾(Content-based Filtering) - 分析項目的屬性(關鍵字、分類、作者、描述等) - 根據使用者過往喜好的項目特徵,建立使用者「偏好向量」 - 推薦與使用者偏好特徵相近的項目 📌 技術方法: - 向量表示(如 TF-IDF、Word2Vec、BERT embedding) - 類別編碼(One-Hot、Label Encoding) - 類神經推薦(Deep Content-based Models) --- ### 🔍 協同 vs. 內容過濾比較 | 比較項目 | 協同過濾(CF) | 內容過濾(CB) | |------------|--------------------------------------|------------------------------------------| | 是否需要標籤 | 否,只需要行為紀錄 | 否,但需項目屬性 | | 冷啟問題 | 無使用者歷史 → 無法推薦(冷啟問題) | 可推薦新項目(只要有描述) | | 解釋性 | 較差(黑盒推薦) | 較高(可解釋為「你喜歡這類型的內容」) | | 可擴展性 | 易受資料稀疏影響 | 須處理特徵工程與維度擴展問題 | > ✅ 混合式推薦系統(Hybrid Recommender Systems)常使用權重、切換策略或集成模型來結合 CF 與 CB,提升整體表現與覆蓋率。 --- 📌 補充:現代推薦系統還會結合: - 深度學習模型(如 Wide & Deep, DeepFM, Two-Tower) - 序列建模(如 RNN、Transformer-based RecSys) - 知識圖譜、強化學習等增強策略 ## AI 導入評估與規劃 導入 AI 不僅是技術選型,更涉及企業內外部條件分析、目標設定、回報預估與系統性部署策略。以下工具與平台可協助評估導入可行性與風險。 ### SWOT Analysis(優劣勢 / 機會威脅分析) | 項目 | 說明 | |----------|----------------------------------------------------------------------| | 用途 | 策略分析框架,用於評估企業或技術的內外部條件 | | 四象限 | Strengths(優勢)、Weaknesses(劣勢)、Opportunities(機會)、Threats(威脅) | | 應用場景 | 專案啟動、技術評估、產品開發方向決策 | 📌 **範例(AI 導入情境):** - Strength:資料量大、技術人才多 - Weakness:缺乏 AI 基礎建設、資料品質不穩 - Opportunity:市場自動化需求高、政府政策支持 - Threat:法規限制(如 GDPR)、導入成本高、同業競爭壓力 --- ### SMART Goals(SMART 目標法) 用於設定清晰且可衡量的 AI 專案目標。 | 元素縮寫 | 說明 | |------------|----------------------| | Specific | 明確具體 | | Measurable | 可衡量(有 KPI) | | Achievable | 可實現(具技術/資源可行性) | | Relevant | 與核心業務高度相關 | | Time-bound | 有時間限制(具體截止時程) | 📌 **應用範例(AI 團隊 OKR):** > 「在 3 個月內將模型 AUC 提升至 0.90」 → 符合 SMART 原則 --- ### ROI 分析(投資報酬率) 在導入 AI 專案前,需評估其是否具有**經濟效益**與**可量化回報**,ROI 是常見商業評估指標: #### ROI 計算公式: ```plaintext ROI = (預期效益 - 導入成本)/ 導入成本 × 100% ``` ## AI風險管理 ### GDPR(General ==Data Protection== Regulation) | 項目 | 說明 | |----------|--------------------------------------------------| | 中文名稱 | 一般資料保護規則 | | 發布機構 | 歐盟(EU) | | 生效時間 | 2018 年 5 月 | | 核心精神 | 保護使用者個資與隱私,對個資收集/處理/儲存必須經明確同意 | | 關鍵條款 | 資料可攜權、刪除權、透明化、目的限制、最小化收集 | > **對 AI 的影響:** > - 必須能解釋模型預測原因(可解釋性需求) > - 處理個資時需提供 opt-in / opt-out > - 自動決策需允許用戶異議(如信用評分) --- ### EU AI Act(歐盟人工智慧法案) | 項目 | 說明 | |--------|----------------------------------------------------------------------| | 全名 | Artificial Intelligence Act | | 發布地 | 歐盟(草案通過於 2021 年) | | 目標 | 針對 AI 技術進行風險分級管理,保障人權與社會安全 | 風險分級 - 不可接受風險:禁止(如社會評分、兒童心理操控) - 高風險 AI:須合規審查(如醫療、交通、教育) - 有限風險:需提供透明資訊(如聊天機器人) - 最小風險:無需限制(如推薦系統、遊戲 AI) > **對開發者的意涵:** > - 若屬高風險 AI,需: > - 記錄訓練資料來源 > - 提供可解釋性與審查能力 > - 強化安全設計與使用者監控機制 --- ### NIST AI 風險管理框架(AI Risk Management Framework, RMF) 美國 NIST 在 2023 年正式發布 AI RMF,協助組織在**設計、開發、部署與使用 AI 系統**時,有效辨識與管理風險,提升信任與責任。 #### 四大核心功能(Four Core Functions) | 核心功能 | 英文名稱 | 說明 | |------------|------------|--------------------------------------------------------------| | 辨識 | **Map** | 辨識與記錄 AI 系統使用目的、上下文、利害關係人與潛在風險 | | 減緩 | **Measure** | 評估與量化風險(如偏誤、魯棒性、隱私)、選擇評估方法與度量指標 | | 管控 | **Manage** | 制定並實施 AI 風險應對策略,持續監控、治理與記錄決策過程 | | 改進 | **Govern** | 建立 AI 治理結構,制定政策、角色與問責機制,並持續改進風險管理能力 --- ### 台灣《人工智慧基本法》草案 - **推動機關:** 數位發展部 - **機制:** 設立「AI 治理推動小組」負責制定指引與標準,促進 AI 發展與監督 --- ### AI Regulatory Sandbox(沙盒環境) - 歐盟 EU AI Act 中鼓勵在**受控環境**中測試高風險 AI - 減少法規阻力,增加創新空間 --- ### 金融 AI 指引:模型輸出偏誤 - 要求對模型輸出進行偏誤風險評估 - 防止 AI 在金融部門出現歧視或不當推薦等風險 ## 特徵工程與資料處理 ### Feature Engineering(特徵工程) 特徵工程是將原始資料轉換為更適合模型學習的輸入格式,能大幅影響模型表現。包括產生新特徵、數值轉換、類別編碼等。 #### 特徵清理(Feature Cleaning) - 缺失值處理:填補(平均 / 中位數 / 眾數)、刪除、插值 - 異常值處理:Z-score、IQR、分箱處理 - 格式轉換:時間格式標準化、單位統一(如 cm → m) #### 特徵轉換(Feature Transformation) - 標準化(Standardization):轉為 Z-score(平均 = 0,標準差 = 1) - 正規化(Normalization):每筆樣本縮放至向量長度 = 1 - 對數轉換 / 根號轉換:處理偏態分布、穩定變異數 - 分箱(Binning):將連續變數轉為離散類別(如年齡 → 年齡段) #### 特徵編碼(Feature Encoding) - One-Hot Encoding:常見於類別型特徵 - Label Encoding:將類別轉為數值(有順序時適用) - Target Encoding:類別對應目標變數平均值(需避免過擬合) #### 特徵建構(Feature Construction) - 特徵組合:交叉特徵(城市+職業)、比例特徵(收入 / 支出) - 時間特徵提取:年 / 月 / 日 / 星期幾 / 時段等 - 統計摘要特徵:滑動平均、最大值、最小值(常見於時間序列) #### 特徵選擇(Feature Selection) | 方法類別 | 常見技術 | |-----------|----------------------------------------------| | Filter | 相關係數、卡方檢定、互資訊(Mutual Information) | | Wrapper | Recursive Feature Elimination (RFE) | | Embedded | Lasso、決策樹特徵重要性、Regularization | | 降維方法 | PCA、LDA、t-SNE(視覺化用) | #### 特徵刪除與去除冗餘 - 移除低方差特徵 - 移除高相關特徵(避免共線性) - 移除缺失值過多的欄位 #### 特徵學習(Feature Learning) - **Autoencoder / VAE**:將高維資料壓縮成低維潛在空間 - **CNN**:自動從圖像中學習邊緣、紋理等空間特徵 - **RNN / LSTM**:擅長從時間序列中學習動態關聯與記憶特性 - **Transformer / BERT / CLIP**:自動萃取語言、圖文、多模態的深層語意特徵 > 特徵學習是深度學習模型的重要優勢,尤其適用於圖像、語音、自然語言等非結構化資料。 --- ### Data Drift(資料漂移) 資料漂移指的是訓練資料與實際預測資料的分佈不一致,會影響模型的效能,屬於 MLOps 中的重要監控項目。 --- ### StandardScaler vs. Normalizer(標準化 vs. 正規化) | 項目 | 標準化(Standardization) | 正規化(Normalization) | |----------|--------------------------------------|-----------------------------------------------| | 處理對象 | 每個「特徵/欄位」 | 每筆「樣本/資料列」 | | 計算方式 | 轉為 ==Z-score== | 將整筆樣本縮放為單位向量(通常用 L2 範數) | | 轉換後目標 | 特徵均值為 0,標準差為 1 | 每筆樣本的向量長度為 1 | | 適用情境 | 資料呈現常態分佈,如線性迴歸、SVM、PCA | 每筆資料整體比例重要,如 KNN、深度學習 | **補充說明:** - **標準化** → 調整特徵尺度,傳統機器學習模型常用。 - **正規化** → 調整樣本方向,在 KNN 或某些深度學習模型中視情況使用。 - 在影像分類、語音辨識、NLP 任務等深度學習應用中,常會先做「簡單標準化(如除以 255)」+ 「Batch Normalization」。 --- ### Importance Sampling(重要性抽樣) | 項目 | 說明 | |------|----------------------------------------------------------------| | 類型 | 蒙地卡羅積分估算技巧 | | 原理 | 對==稀有事件==重抽樣,提高有效樣本數以估計期望值 | | 應用 | 模型訓練中的 sample reweighting /強化學習策略估計 /高風險事件模擬(金融/保險) | | 優點 | 有效估計難觀察事件 | | 缺點 | 抽樣分佈選得不好易導致高變異(不穩定) | --- ### Stochastic Process(隨機過程) | 項目 | 說明 | |--------|----------------------------------------------------| | 定義 | 隨機變數隨時間演進的數學模型 | | 常見類型 | 馬可夫過程(Markov Process) | | 應用 | 金融時間序列、隨機微分方程、強化學習狀態轉移機制 | | 補充 | 建模隨機性系統(如股價波動、用戶行為)的基礎工具 | --- ### Contrastive Learning(對比學習) | 項目 | 說明 | |-----------|----------------------------------------------------------------| | 原理 | 學習將相似樣本映射靠近、不相似樣本拉遠的表徵空間 | | 代表應用 | CLIP(Contrastive Language–Image Pretraining) | | CLIP 特性 | 將圖像與文字嵌入同一空間,利用大規模對比預訓練提升多模態理解能力 | | 優點 | 無需標籤;支持零樣本學習 | | 補充 | Self-supervised 學習的代表方法,廣泛應用於 NLP、CV、推薦系統等領域 | --- ### Distance Metric Learning(距離度量學習) | 項目 | 說明 | |-----------|---------------------------------------------------------| | 代表模型 | Siamese Network(連體網路) | | 原理 | 學習自訂距離度量,使相似樣本靠近、不相似樣本遠離 | | 結構 | 雙塔式網路、共享權重,對比兩筆輸入的 embedding | | 應用 | 人臉比對(FaceNet)、簽名驗證、少樣本學習(Few-Shot Learning) | | 優點 | 無需明確標籤即可比對 | | 補充 | 常用損失:Contrastive Loss、Triplet Loss | --- ### K-Means Elbow Method(肘部法則) | 項目 | 說明 | |------|------------------------------------------------------------| | 用途 | 幫助選擇 k-means 的最佳群數 k | | 原理 | 繪製不同 k 下 SSE(誤差平方和)曲線,折彎處即為最佳 k | | 優點 | 直觀易懂 | | 限制 | 適用於明顯群聚資料,無法保證全局最優解 | --- ## AI 部署與系統架構設計 AI 模型訓練完成後,如何將其穩定、安全、高效地部署到實際環境中,並確保長期可維運,是成功導入 AI 的關鍵。以下整理 AI 系統部署的核心要素。 ### 系統架構設計(System Architecture Design) | 元件 | 說明 | |----------------|----------------------------------------------------------------------| | 模型伺服架構(Model Serving) | 使用 TensorFlow Serving、TorchServe、FastAPI 等封裝推論介面 | | 雲端 / 邊緣部署 | 根據需求選擇部署位置(雲端 = 資源彈性;邊緣 = 低延遲、高隱私) | | 微服務(Microservices) | 將模型與前後端系統解耦,各自部署與擴展,提升可維護性 | | API Gateway / Load Balancer | 管理外部請求流量、負載均衡、API 版本控制 | | 資料流架構(Data Pipeline) | 連接前端資料、儲存、處理模組,支持即時或批次處理 | --- ### CI/CD for AI(持續整合 / 持續部署) CI/CD 是 DevOps 精神的延伸,可導入至機器學習流程中(稱為 ML CI/CD)。 | 階段 | 說明 | 工具建議 | |----------|--------------------------------------|------------------------------------| | CI | 模型程式碼、資料版本、測試流程自動化 | GitHub Actions、GitLab CI | | CD | 模型自動部署至測試 / 生產環境 | Docker + K8s / Vertex AI Pipelines | | 測試類型 | 單元測試、整合測試、回歸測試 | pytest、Great Expectations | | 版本控制 | 模型版本(如:模型參數、指標)管理 | MLflow、DVC、Weights & Biases | --- ### MLOps 流程設計(機器學習營運化) MLOps(Machine Learning Operations)結合 ML + DevOps 概念,確保 AI 系統可**重現、可追蹤、可維護、可擴展**。 #### MLOps 涵蓋內容: - 資料版本控制(Data Versioning) - 模型版本與指標紀錄(Model Registry) - 自動化 Pipeline(如:資料前處理 → 訓練 → 測試 → 部署) - 模型審核與可解釋性(Model Card、SHAP) 📌 主流平台:Vertex AI、SageMaker、Azure ML、Kubeflow --- ### 效能監控與模型觀測(Monitoring & Observability) 部署後需即時監控模型效能與行為變化(避免 data drift、concept drift)。 | 監控項目 | 說明與目的 | |-------------------|----------------------------------------------| | 輸入資料分布監控 | 偵測資料漂移(Data Drift) | | 模型預測分布 / 分類比例 | 是否出現某一類別預測異常集中、模型偏移 | | 延遲與資源使用量監控 | 確保推論速度與效能(避免雲端資源爆炸) | | 效能指標(Precision、Recall、AUC) | 長期追蹤模型品質(搭配驗證集 / 線上標記) | | 模型回訓機制與告警設定 | 當效能劣化觸發 retrain / rollback / 通知工程師 |
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up