【⼤數據分析與AI技術】

# 【⼤數據分析與AI技術】 <style> /* 自定義 highlight 樣式 */ .highlight { background: linear-gradient(to top, lightblue 50%, transparent 50%); font-weight: bold; } </style> ## 目錄 - Part1 : 何謂大數據分析 - Part2 : 大數據分析在產業中的定位 - Part3 : 大數據執行流程 - Part4 : 何謂 AI - Part5 : AI 與數據分析的關係 <br><br> ## Part1 : 何謂大數據分析大數據分析是由<span class = "highlight"> 題目、資料、解題方法 </span>三部分組成： - **題目** ：為大數據分析中<span class = "highlight"> 最重要的部分 </span>。不同的題目 (例如: 迴歸、分類) 所使用的方法不同，解題方法就完全不一樣，因此<span class = "highlight"> 通常需要針對題目客製化 </span>。 **(Define the problem you wish to solve)** - **資料**：為大數據分析<span class = "highlight"> 中次要的部分 </span>。收集到的資料盡可能涵蓋分析對象<span class = "highlight"> 所有可能發生情況 </span>。 **(Obtain data relevant to this problem)**、**(Provide the computer with these data, and it will determine the rules of the target problem)** - **解題方法**：根據問題定義以及資料的格式即會有不同的方法，目前<span class = "highlight"> 主要由抓套件來完成 </span>。 **(Use these rules directly in the application or further build upon these rules (regression, prediction))** :::success **重點筆記**：不需要所有方法都使用深度學習，因為成本。 ::: <center> | 資料類型、處理方式 | 離散資料 | 時序資料 | ... | 時空資料 | | :--: | :--: | :--: | :--: | :--: | | 降維 | LDA、PCA | FNN | ... | - | | 分群分類 | KNN、K-means | K-medoids | ... | DBSCAN | | ... | ... | ... | ... | ... | | 建模 | DNN | RNN、LSTM | ... | CNN + LSTM | </center> <br> #### 大數據分析關鍵概念 - 資料科學的關鍵概念: 只要是<span class = "highlight"> 人決定的問題都會有瑕疵，電腦才能幫我們找到所有規則 </span>。 - AI 關鍵概念: <span class = "highlight"> AI 是高度客製化的問題 </span>，沒有問題就沒有解法。 (例如: 多人旅遊跟單人旅遊用的AI模型就有不同) :::info **注意事項**: 大數據的「大」指所有發生的可能狀況。 ::: <br> #### 不成功分析案的原因 | 案例 | 題目 | 遇到問題 | | :--: | :--: | :-- | | I | 醫院 “超大” 數據分析 | 資料未考慮所有情況，不可用部分病患的結果，來代表全國人民健康情況。**(Problem Definition)** | | II | 高速公路數據競賽 | 需要移除不可用的參數 (如颱風天、CovID、週末、寒暑假 )，同時要包含同期月的資料，才能進行車流量分析。因此需要足夠大的資料集！ **(Problem Definition)**| | III | 許願籤詩 | 由於當時只有實體手寫籤詩，因此再將資料轉換成電子檔前，資料集是不可使用的。**(Data)** | | IV | 塑膠射出機良率改善 | 產率已達到100%，透過實地了解以後發現不良品來自塑膠球而非機器，因此需針對外部因素干擾來定義主要分析的方向。**(Problem)** | | V | 國家太空中心太陽能板分析案 | 資料品質不佳，無法全面表示出欲分析的所有資料(2x2m pixel無法辨識1x1m solar panel)。**(Data)** | | VI | 資料分析廠刀具磨耗預測系統 | 未考慮執行環境(工業用電腦升級DL電腦費用高昂)**(Solution Method)** | <br><br> ## Part2 : 大數據分析在產業中的定位 | | 事前規劃 | 事後分析 | | :-: | :--: | :--: | | 技術 | 演算法 | 小數據：統計、機器學習 <br> 大數據：大數據分析 | | 關鍵點 | 由專業知識與經驗設計方法 | 不需要大量知識就可以設計方法 | | 優點 | 不需要事先收集資料 | 只要數據夠大，能夠涵蓋所有情況，就不會出現思考不周的結果 | | 缺點 | 常發生沒有考慮到的地方，例如：實際和預期狀況的落差 | 使用者需要事先收集資料與針對資料做Labeling | | 準確率 | 低 | 高 | | 關係 | 由歷史資料與大數據分析技術，重建專業知識 <br> 強調Explainable AI (Grad-CAM) | 由既有專業知識加快數據分析流程與準度，強調遷移學習。 :::info **注意事項** : - 小數據：受限於起出硬體設備相對難使用與價格昂貴，因此資料收集不容易。 - 大數據：當硬體設備 (例如: Sensor) 普及化以後，即可收集大量的數據。 ::: #### 模型本身的校正問題: 遷移學習 - Neural Network 的目標是建模：探討輸入與輸出的關係，但是輸入輸出可能會隨時間而變。 <center> <img src="https://hackmd.io/_uploads/SJfmuREiA.png", style=" width: 100%; height: auto;"> <div style=" border-bottom: 3px solid #d9d9d9; display: inline-block; color: #999; padding: 3px;"> </div> </center> 1. 重新訓練新模型：會浪費人力、成本、時間。 2. 微調模型：全部更改、固定部分參數條有影響的參數、加上額外架構 (如下)。 <center> <img src="https://hackmd.io/_uploads/Sk9htREjC.png", style=" width: 50%; height: auto;"> <div style=" border-bottom: 3px solid #d9d9d9; display: inline-block; color: #999; padding: 3px;"> </div> </center> 3. From the view of LLM (Large Language Model): <center> <img src="https://hackmd.io/_uploads/HkO94Qg01g.png" style=" width: 90%; height: auto;"> <div style=" border-bottom: 3px solid #d9d9d9; display: inline-block; color: #999; padding: 3px;"> </div> </center> 4. From the view of Yolo: <center> <img src="https://hackmd.io/_uploads/BkXyOXxAJg.png" style=" width: 70%; height: auto;"> <div style=" border-bottom: 3px solid #d9d9d9; display: inline-block; color: #999; padding: 3px;"> </div> </center> <br> #### 大語言模型的趨勢: Explainable AI <center> <img src="https://hackmd.io/_uploads/ByDuOXxAkl.png" style=" width: 90%; height: auto;"> <div style=" border-bottom: 3px solid #d9d9d9; display: inline-block; color: #999; padding: 3px;"> </div> </center> <center> <img src="https://hackmd.io/_uploads/BkLtumgRye.png" style=" width: 70%; height: auto;"> <div style=" border-bottom: 3px solid #d9d9d9; display: inline-block; color: #999; padding: 3px;"> </div> </center> #### 數據方法的效能分析 <center> <img src="https://hackmd.io/_uploads/r18n9Qe0ye.png" style=" width: 90%; height: auto;"> <div style=" border-bottom: 3px solid #d9d9d9; display: inline-block; color: #999; padding: 3px;"> </div> </center> #### 神經網路的發展 <center> <img src="https://hackmd.io/_uploads/HknFpEe0Je.png" style=" width: 90%; height: auto;"> <div style=" border-bottom: 3px solid #d9d9d9; display: inline-block; color: #999; padding: 3px;"> </div> </center> **淺層神經網路時期** - **資料前處理與特徵工程**：透過清洗、特徵提取與降維等步驟，提升模型學習效率與準確性。 - **自行設計神經網路**：根據任務需求調整網路架構與參數，以建立適合的預測模型。 - **模型訓練結果**：透過多種指標評估模型表現，確認預測是否達到預期效果。 **神經網路的失落十年：瓶頸與限制** - **參數數量有限，能力受限**：當時的神經網路模型參數量有限，導致其無法處理複雜任務，準確率也難以突破。 - **增加參數可提升表現，但硬體無法支撐**: 學界意識到擴大神經網路規模能有效提升效能、但當時的計算資源（CPU/GPU）與儲存空間無法支援大型模型訓練，硬體成為主要瓶頸。 - **淺層神經網路嚴重依賴資料前處**理: 淺層網路對於特徵工程與資料清理高度敏感，若資料品質不佳則模型效果大打折扣。 **改變神經網路的三支「箭」（Three Arrows That Changed Neural Networks）** - **雲端運算（Cloud Computing）——高門檻的突破力量**: 雲端提供龐大分散式運算資源，使得訓練大模型（如 AlphaGo）成為可能。 - **圖形處理器（GPU）——降低門檻的加速器**: GPU 的平行運算能力大幅降低訓練時間與成本，讓更多研究者與開發者能夠進行深度學習。 - **軟體套件（Deep Learning Suites）——讓人人都能入門的工具箱**: 如 TensorFlow、PyTorch、Keras 等深度學習框架出現，讓設計與訓練神經網路變得直覺簡單。 **深度學習的兩大分支（Branches of Deep Learning）** - **套件應用導向（Suite Application-Oriented）** 1. 利用現成的深度學習套件（如 PyTorch、TensorFlow）處理各類問題。 2. 價值低、成本高：通常需依賴 GPU 訓練、模型套用情境多樣但未必精準。 3. 特點：偏向「黑箱使用」，重現性高但創新性與效率有限。 - **核心價值導向（Core Value-Oriented）** 1. 聚焦於資料探勘與模型優化，從資料中萃取洞見、提升預測效能。 2. 目標為提升分析表現、降低實務應用成本，著重演算法改進與資料策略。 3. 強調「了解數據本質與建構問題核心」，非單純依賴套件操作。 #### 從傳統建模到 AI／深度學習的演進 **傳統建模時代（1995 年以前）** - 已知：輸入與輸出 - Step 1：建立明確的公式（System Identification）→ 例如：建立物理模型、差分方程- - Step 2：用數學方式找出公式的最佳參數（Optimization）→ 使用最小平方法、微積分、數值分析等技巧 **AI／機器學習時代（1990 年以後）** - 已知：輸入與輸出 - Step 1：同樣是尋找公式（System Identification）→ 但這裡的「公式」可能是決策樹、SVM、神經網路等非明確函數 - Step 2：使用 AI／啟發式方法進行最佳化 → 例如：遺傳演算法（GA）、模擬退火（SA）、粒子群（PSO）等 **深度學習時代（2015 年以後）** - 已知：輸入與輸出 - Step 1：透過深度神經網路自動學習映射公式 → 例如 CNN、LSTM、Transformer 等架構 - 不再需要顯式定義特徵與公式，模型自動找出最佳參數與表達方式（End-to-End Learning） <br><br> ## Part3 : 大數據執行流程 ```mermaid graph LR; 定義題目 --> 收集資料 --> 清洗資料 --> 取特徵值; 取特徵值 -->| *** | 降維; 降維 -->| *** | 建模; 建模 -->| *** | 報告製作; ``` :::success **重點筆記**： `***` 代表可以使用到 Clustering（分群）的階段，可以放在 `***` 任一個階段。 ::: #### I. <span class = "highlight"> 定義題目 </span> 找出目標函數的輸入與輸出，並判斷解題的類型。同時要注意執行環境與限制。 - 定義題目除了從簡單到難來確保問題能夠逐一的實現，並且需要與第一線人員對談來暸解實際會遇到的狀況。 - 解題類型決定要使用哪些方法論。 #### II. <span class = "highlight"> 收集資料 </span> 收集所有與本問題有關的資料集。 - 確保資料是否可以使用，以及其收集的方法。同時確定資料的分佈和題目方向一致。 - 大數據分析透過所有有關的資料丟給電腦，由電腦來判斷規則。 #### III. <span class = "highlight"> 清洗資料 </span> 觀察資料、找出與修正不合理或缺值的資料、合併資料欄位。 - 是大數據分析中最耗費時間的地方。 - 觀察資料使否有不合理值、缺值、資料分布是否為高斯分佈。 - 把資料集修正成題目需求。 - 有關的資料會分布在不同的資料集，需要合併到同一張 Table 才能讓模型訓練。 #### IV. <span class = "highlight"> 取特徵值 </span> 早期人工找出對資料分析有用的欄位，近期更改資料欄位型態以提升準確率。 - 盡可能把所有可能性都取出來。 #### V. <span class = "highlight"> 降維 </span> 由「電腦」及「資料集」找出對資料分析有用的欄位。 - 數據分析中有許多套件可以直接使用。 - 由歷史資料集去做，不同的資料集有不同的答案。 #### VI. <span class = "highlight"> 建模、分類 </span> 給予輸入輸出後，建立起之間的數學函數。並將未知資料分到多個定義好的群組中。 - 數據分析中許多套件可直接使用。但如果要對大數據分析更精熟，需會更改套件程式碼。 - 分而治至，問題分的越詳細就會越好處理。 #### VII. <span class = "highlight"> 報告製作 </span> 製作分析說明書。 - 暸解廠商的終極目標。 - 針對廠商的終極目標製作成果報告。 - 建立 SOP 以及落地使用。 <br> #### 案例介紹 | | 全班分成男生與女生 | 大數據分析降低學生餐廳廚餘量 | | :--: | :--: | :--: | | 定義題目 | 定義目標案例實作環境 | 將賣剩的食物用體積來衡量 (目標、資料、KPI) | 收集資料 | 全班同學做問卷 | 當日天氣、行事曆日期、種族飲食 | 清洗資料 | 去除或修正問卷內不合理的資料 <br> 如：體重與預測差異極大 | 刪除特殊情況，只留非特殊狀況 <br> 如：放假日沒有廚餘 | 取特徵值 | 從問卷中找出適合分辨的欄位 | 評估每個收集到的欄位與廚餘量的關係 | 降維 | 由電腦與既有紀錄找出適合分辨的欄位 <br> 資料及不同，降維結果不同 <br> | 評估每個收集到的欄位與廚餘量的關係 | 建模、分類 | 利用既有資料建立分類模型 | 報告製作 | 撰寫執行SOP文件與解釋 | AI 落地、SOP、防呆及品質檢測 :::success **重點筆記**: 其中 **"大數據分析降低學生餐廳廚餘量"** 可以透過分類平日和假日，各系所分開評估後再相互加總，以提升分析的準確率。 - 分類早中晚：早上取早8、早9的人數，晚餐取節慶、放假的日數。 - 分類中西式料理 ::: <br><br> ## Part4 : 何謂 AI ```mermaid graph TD; A(人工智慧) --> B(演繹和推理); C(知識表示); D(機器學習); E(類神經網路); F(淺層類神經網路); G(深度學習); A --> C A --> D D --> E E --> F E --> G style A fill:#ACD6FF,stroke:#333,stroke-width:2px; style B fill:#C4E1FF,stroke:#333,stroke-width:2px; style C fill:#C4E1FF,stroke:#333,stroke-width:2px; style D fill:#C4E1FF,stroke:#333,stroke-width:2px; style E fill:#D2E9FF,stroke:#333,stroke-width:2px; style F fill:#ECF5FF,stroke:#333,stroke-width:2px; style G fill:#ECF5FF,stroke:#333,stroke-width:2px; ``` #### I. 演繹和推理利用機率學直接模仿人類進行逐步的推理，就像是玩棋盤遊戲或進行邏輯推理時人類的思考模式。 - 例如：實作圈圈叉叉時，電腦考慮每個點獲勝的機率，人類則是直接肉眼就能夠知道哪邊較容易獲勝。 1. 人類：用肉眼都知道怎樣下就會贏。 2. 電腦：根據過往歷史紀錄，下左邊有0%會贏，下右下角有100%會贏。 #### II. 知識表示人工智慧領域的核心研究問題之一，它的目標是讓機器儲存相應的知識，並且能夠按照某種規則推理演繹得到新的知識。 - 例如：假設歷史紀錄告訴我們天氣只有晴天、陰天、雨天三種，且今天太陽不大且沒有下雨，請問今天天氣為何? 透過模糊理論來代表不同感受下的溫度。 #### III. 機器學習主要目的是為了**讓機器從使用者和輸入資料等處獲得知識**，從而讓機器自動地去判斷和輸出相應的結果。能通過經驗自動改進的電腦演算法的研究。 - 例如：機器在進行加減乘除時，不斷地透過輸入問題與問題修正，進而得到正確答案。 - 例如：教機器怎麼學會寫8。 - 例如：利用機器學習校正大富翁的遊戲參數。 ```mermaid graph TD; B(演繹和推理); C(知識表示); D(機器學習); style B fill:#fff,stroke:#333,stroke-width:2px; style C fill:#fff,stroke:#333,stroke-width:2px; style D fill:#fff,stroke:#333,stroke-width:2px; ``` #### IV. 類神經網路模擬人類的神經元所設計的，具有學習的功能，利用訂正的過程來讓自己學會專業知識。同時他是個黑盒子，不需要了解他的內部操作就可以操作。 - (2010 前) 要使用類神經網路，就必須了解類神經網路的架構，自己用程式刻出來。 - (2010 後)：幾乎所有主要軟體都有類神經網路的套件，你只要在套件中 input 輸入輸出後，就可以快速建立類神經網路了 - (2020 後) : 講求 Explainable AI ，模型跑完後要解釋模型的內容，因此需要了解 AI 內部核心原理。 ```mermaid graph TD; B(類神經網路); style B fill:#fff,stroke:#333,stroke-width:2px; ``` #### V.深度學習簡單來說就是比較多層的淺層類神經網路，理論、方法都一樣。 - 透過深度學習中愈多層的神經網路找到最佳解的機率愈高。 - 套件應用：用套件解決各項問題，價值低，成本高 (一定得有GPU才能將訓練好的模型套在各種應用中) 。 - 核心價值發揮：從訓練好的深度學習模型挖掘各種資訊，提高分析效能及降低使用成本。 ```mermaid graph TD; B(淺層類神經網路); C(深度學習); style B fill:#fff,stroke:#333,stroke-width:2px; style C fill:#fff,stroke:#333,stroke-width:2px; ``` :::info **注意事項**: 其中 **淺層類神經網路** 和 **深度學習** 原理、理論、架構皆類似，差別在網路深度與廣度 ::: #### 數據分析流程常見的三輪循環模式 **第一輪：嘗試與了解階段（失敗為成功之母）** 1. 使用最簡單的套件來初步探索資料分布。 2. 用最基本的工具測試分析方法的有效性。 3. 根據這一輪的觀察結果，設計第二與第三輪的分析策略。 **第二輪：方向成形階段（約 50% 失敗機率）** 1. 根據前一輪的經驗，重新整理與清洗資料。 2. 嘗試多種主流套件進行分析，並產出初步結果。 3. 觀察是否還有進步空間，評估下一步該優化的方向。 **第三輪：優化與突破階段（約 80% 失敗機率）** 1. 根據前一輪經驗，針對資料或演算法進行調整。 2. 通常需要修改套件內部程式碼以達成特殊需求或優化。 3. 若分析成功，目標為效能提升至少 30% **實例一: 將全班分類為男生與女生** 1. 第一輪：問題定義錯誤、資料品質低 - 主題定義不清楚，男女性比例失衡導致分類不準 - 有人亂填資訊，資料品質低落，預期使用任何方法效果都會很差。 2. 第二輪：具備清洗與分析能力，但效果仍不夠好 - 已經知道如何清理資料與進行分析。 - 結果比第一輪進步，但仍未達到預期標準。 3. 第三輪：結果合格但時間不足 - 終於獲得符合需求的分析結果。 - 可惜的是，時間已經不夠了，無法繼續深度優化。 **實例二：運用大數據分析減少廚餘** 1. 第一輪：問題定義錯誤、資料蒐集困難 - 問題定義不清楚，資料蒐集有誤、缺漏情形嚴重。 - 無法量化餐廳的數據，甚至出現許多預料之外的問題。 - 難以分析廚餘的真實成因與結構。 2. 第二輪：釐清定義與方向，逐漸聚焦 - 與餐廳人員確認細節，明確廚餘與食物浪費的定義。 - 釐清分析方向，開始知道哪些數據該收、怎麼定義才有意義。 3. 第三輪：結果成功但時間壓力大 - 終於成功得到符合需求的分析結果，可用於實際減少廚餘。 - 但完成時時間已幾乎用盡，無法進一步優化或延伸。 <br><br> ## Part5 : AI 與大數據分析的關係 #### 以實務面看大數據分析跟AI關係: - 基礎版(輸入輸出): ```mermaid graph LR; A[原始資料]-->B[改輸入資料]-->C[套用套件]-->D[改輸出資料]-->E[原始資料]; style A fill:#fff,stroke:#333,stroke-width:2px; style B fill:#fff,stroke:#333,stroke-width:2px; style C fill:#fff,stroke:#333,stroke-width:2px; style D fill:#fff,stroke:#333,stroke-width:2px; style E fill:#fff,stroke:#333,stroke-width:2px; ``` - 做套件的串連/並聯: 把類神經拆解成多個小的 block 後，再組合起來。 ```mermaid graph LR; A[原始資料]-->B[改輸入資料]; B-->D[套件 1]; B-->E[套件 2]; D-->F[集成]-->G[改輸出資料]; E-->F; style A fill:#fff,stroke:#333,stroke-width:2px; style B fill:#fff,stroke:#333,stroke-width:2px; style D fill:#fff,stroke:#333,stroke-width:2px; style E fill:#fff,stroke:#333,stroke-width:2px; style F fill:#fff,stroke:#333,stroke-width:2px; style G fill:#fff,stroke:#333,stroke-width:2px; ``` --- ```mermaid graph LR; A[原始資料]-->B[改輸入資料]-->C[套件 1]-->D[套件 2]-->E[改輸出資料]-->F[原始資料]; style A fill:#fff,stroke:#333,stroke-width:2px; style B fill:#fff,stroke:#333,stroke-width:2px; style C fill:#fff,stroke:#333,stroke-width:2px; style D fill:#fff,stroke:#333,stroke-width:2px; style E fill:#fff,stroke:#333,stroke-width:2px; style F fill:#fff,stroke:#333,stroke-width:2px; ``` - AIRD(設計新模型) ```mermaid graph LR; A[原始資料]-->B[改輸入資料]-->C[設計新模型]-->D[改輸出資料] style A fill:#fff,stroke:#333,stroke-width:2px; style B fill:#fff,stroke:#333,stroke-width:2px; style C fill:#fff,stroke:#333,stroke-width:2px; style D fill:#fff,stroke:#333,stroke-width:2px; ``` :::info **注意事項**: 要符合環境限制、成本、硬體大小。 ::: ## 附錄 #### 常見數據集 - 健康看數據: https://visualizinghealthdata.idv.tw/ - 運輸資料流通服務: https://tdx.transportdata.tw/ - 政府資料開放平台: https://data.gov.tw/ - 台北市立資料大平台: https://data.taipei/ - Google Trend: https://trends.google.com.tw/trends/ <br> ## 課程考題討論 #### 1. 請寫出大數據分析為何效果比小數據方法好的原因 <center> <img src="https://hackmd.io/_uploads/H1_myuwOJg.png" style=" width: 90%; height: auto;"> <div style=" border-bottom: 3px solid #d9d9d9; display: inline-block; color: #999; padding: 3px;"> </div> </center> - 小數據：受限於起出硬體設備相對難使用與價格昂貴，因此資料收集不容易，準確率較低。 - 大數據：當硬體設備 (例如: Sensor) 普及化以後，即可收集大量的數據，準確率較高。 - 生成式：透過 GAN 來達成。 <br> #### 2. 請寫出統計方法、機器學習，還有深度學習在不同資料量下的效能 <center> <img src="https://hackmd.io/_uploads/ryDWxP0Y0.png" style=" width: 90%; height: auto;"> <div style=" border-bottom: 3px solid #d9d9d9; display: inline-block; color: #999; padding: 3px;"> </div> </center> <br> #### 3. 請寫出講義中「利用大數據分析降低學生餐廳廚餘量」分析暗的每個分析流程 | | 大數據分析降低學生餐廳廚餘量 | | :--: | :--: | | 定義題目 | 將賣剩的食物用體積來衡量 (目標、資料、KPI) | 收集資料 | 當日天氣、行事曆日期、種族飲食 | 清洗資料 | 刪除特殊情況，只留非特殊狀況 <br> 如：放假日沒有廚餘 | 取特徵值 | 評估每個收集到的欄位與廚餘量的關係 | 降維 | 評估每個收集到的欄位與廚餘量的關係 | 建模、分類 | 利用既有資料建立分類模型 | 報告製作 | AI 落地、SOP、防呆及品質檢測 <br> #### 4. 請寫出「台積電虛擬量測技術」在每一輪分析時會遇到什麼困難 - **Sensor 壽命與誤差累積**: 製程中含有強酸（如氫氟酸）與高溫環境，造成感測器（如壓力、溫度）腐蝕或偏移。Sensor 易失準，導致虛擬量測的預測失真，需定期更換與重新校正。 - **鍍膜與光阻不均勻性**: Spin coating 等過程會因機台/溫濕差異造成厚度不均。 - **實體量測標籤資料稀少**: SEM、AFM 等量測昂貴又耗時，只能抽樣測幾片晶圓，導致訓練樣本少、分布不均，難以建立泛化能力強的模型。 - **製程漂移（Process Drift）**: 時間久了會有耗材老化、機台維護差異等因素，導致原模型預測能力下降，需要定期 retrain。 - **多層堆疊導致誤差累積**: 當晶圓進入第 6~7 層以上堆疊製程時，每一層微小誤差會累加影響到後續製程準確度。 <center> <img src="https://hackmd.io/_uploads/HyMKN4e0kg.png" style=" width: 90%; height: auto;"> <div style=" border-bottom: 3px solid #d9d9d9; display: inline-block; color: #999; padding: 3px;"> </div> </center> <br> #### 5. 目前台灣已有許多大數據案例被公布出來，請試著上網找尋工業與商業各一個案例，並簡略說明他們的「題目」、「資料集」為何？ - 工業案例：台積電的製造過程優化 1. 題目：利用大數據分析提升半導體製造效率。 2. 資料集：台積電透過感測器收集大量生產設備的運行數據，包括機台運行狀態、產品品質數據及製程參數。這些數據用於分析機台健康狀況，預測故障，並優化生產流程，以提高晶圓良率和降低維修成本 - 商業案例：亞馬遜的客戶行為分析 1. 題目：透過大數據分析提升顧客購物體驗。 2. 資料集：亞馬遜利用用戶的瀏覽歷史、購買紀錄及其他行為數據來構建顧客模型。這些數據幫助亞馬遜精準地推薦產品，設計促銷活動，並優化庫存配置，以提升顧客滿意度和銷售額。