# 【⼤數據分析與AI技術】
<style>
/* 自定義 highlight 樣式 */
.highlight {
background: linear-gradient(to top, lightblue 50%, transparent 50%);
font-weight: bold;
}
</style>
## 目錄
- Part1 : 何謂大數據分析
- Part2 : 大數據分析在產業中的定位
- Part3 : 大數據執行流程
- Part4 : 何謂 AI
- Part5 : AI 與數據分析的關係
<br><br>
## Part1 : 何謂大數據分析
大數據分析是由<span class = "highlight"> 題目、資料、解題方法 </span>三部分組成:
- **題目** :為大數據分析中<span class = "highlight"> 最重要的部分 </span>。不同的題目 (例如: 迴歸、分類) 所使用的方法不同,解題方法就完全不一樣,因此<span class = "highlight"> 通常需要針對題目客製化 </span>。 **(Define the problem you wish to solve)**
- **資料**:為大數據分析<span class = "highlight"> 中次要的部分 </span>。收集到的資料盡可能涵蓋分析對象<span class = "highlight"> 所有可能發生情況 </span>。 **(Obtain data relevant to this problem)**、**(Provide the computer with these data, and it will determine the rules of the target problem)**
- **解題方法**:根據問題定義以及資料的格式即會有不同的方法,目前<span class = "highlight"> 主要由抓套件來完成 </span>。 **(Use these rules directly in the application or further build upon these rules (regression, prediction))**
:::success
**重點筆記**: 不需要所有方法都使用深度學習,因為成本。
:::
<center>
| 資料類型、處理方式 | 離散資料 | 時序資料 | ... | 時空資料 |
| :--: | :--: | :--: | :--: | :--: |
| 降維 | LDA、PCA | FNN | ... | - |
| 分群分類 | KNN、K-means | K-medoids | ... | DBSCAN |
| ... | ... | ... | ... | ... |
| 建模 | DNN | RNN、LSTM | ... | CNN + LSTM |
</center>
<br>
#### 大數據分析關鍵概念
- 資料科學的關鍵概念: 只要是<span class = "highlight"> 人決定的問題都會有瑕疵,電腦才能幫我們找到所有規則 </span>。
- AI 關鍵概念: <span class = "highlight"> AI 是高度客製化的問題 </span>,沒有問題就沒有解法。 (例如: 多人旅遊跟單人旅遊用的AI模型就有不同)
:::info
**注意事項**: 大數據的「大」指所有發生的可能狀況。
:::
<br>
#### 不成功分析案的原因
| 案例 | 題目 | 遇到問題 |
| :--: | :--: | :-- |
| I | 醫院 “超大” 數據分析 | 資料未考慮所有情況,不可用部分病患的結果,來代表全國人民健康情況。**(Problem Definition)** |
| II | 高速公路數據競賽 | 需要移除不可用的參數 (如颱風天、CovID、週末、寒暑假 ),同時要包含同期月的資料,才能進行車流量分析。因此需要足夠大的資料集! **(Problem Definition)**|
| III | 許願籤詩 | 由於當時只有實體手寫籤詩,因此再將資料轉換成電子檔前,資料集是不可使用的。**(Data)** |
| IV | 塑膠射出機良率改善 | 產率已達到100%,透過實地了解以後發現不良品來自塑膠球而非機器,因此需針對外部因素干擾來定義主要分析的方向。**(Problem)** |
| V | 國家太空中心太陽能板分析案 | 資料品質不佳,無法全面表示出欲分析的所有資料(2x2m pixel無法辨識1x1m solar panel)。**(Data)** |
| VI | 資料分析廠刀具磨耗預測系統 | 未考慮執行環境(工業用電腦升級DL電腦費用高昂)**(Solution Method)** |
<br><br>
## Part2 : 大數據分析在產業中的定位
| | 事前規劃 | 事後分析 |
| :-: | :--: | :--: |
| 技術 | 演算法 | 小數據:統計、機器學習 <br> 大數據:大數據分析 |
| 關鍵點 | 由專業知識與經驗設計方法 | 不需要大量知識就可以設計方法 |
| 優點 | 不需要事先收集資料 | 只要數據夠大,能夠涵蓋所有情況,就不會出現思考不周的結果 |
| 缺點 | 常發生沒有考慮到的地方,例如:實際和預期狀況的落差 | 使用者需要事先收集資料與針對資料做Labeling |
| 準確率 | 低 | 高 |
| 關係 | 由歷史資料與大數據分析技術,重建專業知識 <br> 強調Explainable AI (Grad-CAM) | 由既有專業知識加快數據分析流程與準度,強調遷移學習。
:::info
**注意事項** :
- 小數據:受限於起出硬體設備相對難使用與價格昂貴,因此資料收集不容易。
- 大數據:當硬體設備 (例如: Sensor) 普及化以後,即可收集大量的數據。
:::
#### 模型本身的校正問題: 遷移學習
- Neural Network 的目標是建模:探討輸入與輸出的關係,但是輸入輸出可能會隨時間而變。
<center>
<img src="https://hackmd.io/_uploads/SJfmuREiA.png",
style="
width: 100%;
height: auto;">
<div style="
border-bottom: 3px solid #d9d9d9;
display: inline-block;
color: #999;
padding: 3px;">
</div>
</center>
1. 重新訓練新模型:會浪費人力、成本、時間。
2. 微調模型:全部更改、固定部分參數條有影響的參數、加上額外架構 (如下)。
<center>
<img src="https://hackmd.io/_uploads/Sk9htREjC.png",
style="
width: 50%;
height: auto;">
<div style="
border-bottom: 3px solid #d9d9d9;
display: inline-block;
color: #999;
padding: 3px;">
</div>
</center>
3. From the view of LLM (Large Language Model):
<center>
<img src="https://hackmd.io/_uploads/HkO94Qg01g.png"
style="
width: 90%;
height: auto;">
<div style="
border-bottom: 3px solid #d9d9d9;
display: inline-block;
color: #999;
padding: 3px;">
</div>
</center>
4. From the view of Yolo:
<center>
<img src="https://hackmd.io/_uploads/BkXyOXxAJg.png"
style="
width: 70%;
height: auto;">
<div style="
border-bottom: 3px solid #d9d9d9;
display: inline-block;
color: #999;
padding: 3px;">
</div>
</center>
<br>
#### 大語言模型的趨勢: Explainable AI
<center>
<img src="https://hackmd.io/_uploads/ByDuOXxAkl.png"
style="
width: 90%;
height: auto;">
<div style="
border-bottom: 3px solid #d9d9d9;
display: inline-block;
color: #999;
padding: 3px;">
</div>
</center>
<center>
<img src="https://hackmd.io/_uploads/BkLtumgRye.png"
style="
width: 70%;
height: auto;">
<div style="
border-bottom: 3px solid #d9d9d9;
display: inline-block;
color: #999;
padding: 3px;">
</div>
</center>
#### 數據方法的效能分析
<center>
<img src="https://hackmd.io/_uploads/r18n9Qe0ye.png"
style="
width: 90%;
height: auto;">
<div style="
border-bottom: 3px solid #d9d9d9;
display: inline-block;
color: #999;
padding: 3px;">
</div>
</center>
#### 神經網路的發展
<center>
<img src="https://hackmd.io/_uploads/HknFpEe0Je.png"
style="
width: 90%;
height: auto;">
<div style="
border-bottom: 3px solid #d9d9d9;
display: inline-block;
color: #999;
padding: 3px;">
</div>
</center>
**淺層神經網路時期**
- **資料前處理與特徵工程**:透過清洗、特徵提取與降維等步驟,提升模型學習效率與準確性。
- **自行設計神經網路**:根據任務需求調整網路架構與參數,以建立適合的預測模型。
- **模型訓練結果**:透過多種指標評估模型表現,確認預測是否達到預期效果。
**神經網路的失落十年:瓶頸與限制**
- **參數數量有限,能力受限**:當時的神經網路模型參數量有限,導致其無法處理複雜任務,準確率也難以突破。
- **增加參數可提升表現,但硬體無法支撐**: 學界意識到擴大神經網路規模能有效提升效能、但當時的計算資源(CPU/GPU)與儲存空間無法支援大型模型訓練,硬體成為主要瓶頸。
- **淺層神經網路嚴重依賴資料前處**理: 淺層網路對於特徵工程與資料清理高度敏感,若資料品質不佳則模型效果大打折扣。
**改變神經網路的三支「箭」(Three Arrows That Changed Neural Networks)**
- **雲端運算(Cloud Computing)——高門檻的突破力量**: 雲端提供龐大分散式運算資源,使得訓練大模型(如 AlphaGo)成為可能。
- **圖形處理器(GPU)——降低門檻的加速器**: GPU 的平行運算能力大幅降低訓練時間與成本,讓更多研究者與開發者能夠進行深度學習。
- **軟體套件(Deep Learning Suites)——讓人人都能入門的工具箱**: 如 TensorFlow、PyTorch、Keras 等深度學習框架出現,讓設計與訓練神經網路變得直覺簡單。
**深度學習的兩大分支(Branches of Deep Learning)**
- **套件應用導向(Suite Application-Oriented)**
1. 利用現成的深度學習套件(如 PyTorch、TensorFlow)處理各類問題。
2. 價值低、成本高:通常需依賴 GPU 訓練、模型套用情境多樣但未必精準。
3. 特點:偏向「黑箱使用」,重現性高但創新性與效率有限。
- **核心價值導向(Core Value-Oriented)**
1. 聚焦於資料探勘與模型優化,從資料中萃取洞見、提升預測效能。
2. 目標為提升分析表現、降低實務應用成本,著重演算法改進與資料策略。
3. 強調「了解數據本質與建構問題核心」,非單純依賴套件操作。
#### 從傳統建模到 AI/深度學習的演進
**傳統建模時代(1995 年以前)**
- 已知:輸入與輸出
- Step 1:建立明確的公式(System Identification)→ 例如:建立物理模型、差分方程- - Step 2:用數學方式找出公式的最佳參數(Optimization)→ 使用最小平方法、微積分、數值分析等技巧
**AI/機器學習時代(1990 年以後)**
- 已知:輸入與輸出
- Step 1:同樣是尋找公式(System Identification)→ 但這裡的「公式」可能是決策樹、SVM、神經網路等非明確函數
- Step 2:使用 AI/啟發式方法進行最佳化 → 例如:遺傳演算法(GA)、模擬退火(SA)、粒子群(PSO)等
**深度學習時代(2015 年以後)**
- 已知:輸入與輸出
- Step 1:透過深度神經網路自動學習映射公式 → 例如 CNN、LSTM、Transformer 等架構
- 不再需要顯式定義特徵與公式,模型自動找出最佳參數與表達方式(End-to-End Learning)
<br><br>
## Part3 : 大數據執行流程
```mermaid
graph LR;
定義題目 --> 收集資料 --> 清洗資料 --> 取特徵值;
取特徵值 -->| *** | 降維;
降維 -->| *** | 建模;
建模 -->| *** | 報告製作;
```
:::success
**重點筆記**: `***` 代表可以使用到 Clustering(分群)的階段,可以放在 `***` 任一個階段。
:::
#### I. <span class = "highlight"> 定義題目 </span>
找出目標函數的輸入與輸出,並判斷解題的類型。同時要注意執行環境與限制。
- 定義題目除了從簡單到難來確保問題能夠逐一的實現,並且需要與第一線人員對談來暸解實際會遇到的狀況。
- 解題類型決定要使用哪些方法論。
#### II. <span class = "highlight"> 收集資料 </span>
收集所有與本問題有關的資料集。
- 確保資料是否可以使用,以及其收集的方法。同時確定資料的分佈和題目方向一致。
- 大數據分析透過所有有關的資料丟給電腦,由電腦來判斷規則。
#### III. <span class = "highlight"> 清洗資料 </span>
觀察資料、找出與修正不合理或缺值的資料、合併資料欄位。
- 是大數據分析中最耗費時間的地方。
- 觀察資料使否有不合理值、缺值、資料分布是否為高斯分佈。
- 把資料集修正成題目需求。
- 有關的資料會分布在不同的資料集,需要合併到同一張 Table 才能讓模型訓練。
#### IV. <span class = "highlight"> 取特徵值 </span>
早期人工找出對資料分析有用的欄位,近期更改資料欄位型態以提升準確率。
- 盡可能把所有可能性都取出來。
#### V. <span class = "highlight"> 降維 </span>
由「電腦」及「資料集」找出對資料分析有用的欄位。
- 數據分析中有許多套件可以直接使用。
- 由歷史資料集去做,不同的資料集有不同的答案。
#### VI. <span class = "highlight"> 建模、分類 </span>
給予輸入輸出後,建立起之間的數學函數。並將未知資料分到多個定義好的群組中。
- 數據分析中許多套件可直接使用。但如果要對大數據分析更精熟,需會更改套件程式碼。
- 分而治至,問題分的越詳細就會越好處理。
#### VII. <span class = "highlight"> 報告製作 </span>
製作分析說明書。
- 暸解廠商的終極目標。
- 針對廠商的終極目標製作成果報告。
- 建立 SOP 以及落地使用。
<br>
#### 案例介紹
| | 全班分成男生與女生 | 大數據分析降低學生餐廳廚餘量 |
| :--: | :--: | :--: |
| 定義題目 | 定義目標案例實作環境 | 將賣剩的食物用體積來衡量 (目標、資料、KPI)
| 收集資料 | 全班同學做問卷 | 當日天氣、行事曆日期、種族飲食
| 清洗資料 | 去除或修正問卷內不合理的資料 <br> 如:體重與預測差異極大 | 刪除特殊情況,只留非特殊狀況 <br> 如:放假日沒有廚餘
| 取特徵值 | 從問卷中找出適合分辨的欄位 | 評估每個收集到的欄位與廚餘量的關係
| 降維 | 由電腦與既有紀錄找出適合分辨的欄位 <br> 資料及不同,降維結果不同 <br> | 評估每個收集到的欄位與廚餘量的關係
| 建模、分類 | 利用既有資料建立分類模型
| 報告製作 | 撰寫執行SOP文件與解釋 | AI 落地、SOP、防呆及品質檢測
:::success
**重點筆記**: 其中 **"大數據分析降低學生餐廳廚餘量"** 可以透過分類平日和假日,各系所分開評估後再相互加總,以提升分析的準確率。
- 分類早中晚:早上取早8、早9的人數,晚餐取節慶、放假的日數。
- 分類中西式料理
:::
<br><br>
## Part4 : 何謂 AI
```mermaid
graph TD;
A(人工智慧) --> B(演繹和推理);
C(知識表示);
D(機器學習);
E(類神經網路);
F(淺層類神經網路);
G(深度學習);
A --> C
A --> D
D --> E
E --> F
E --> G
style A fill:#ACD6FF,stroke:#333,stroke-width:2px;
style B fill:#C4E1FF,stroke:#333,stroke-width:2px;
style C fill:#C4E1FF,stroke:#333,stroke-width:2px;
style D fill:#C4E1FF,stroke:#333,stroke-width:2px;
style E fill:#D2E9FF,stroke:#333,stroke-width:2px;
style F fill:#ECF5FF,stroke:#333,stroke-width:2px;
style G fill:#ECF5FF,stroke:#333,stroke-width:2px;
```
#### I. 演繹和推理
利用機率學直接模仿人類進行逐步的推理,就像是玩棋盤遊戲或進行邏輯推理時人類的思考模式。
- 例如:實作圈圈叉叉時,電腦考慮每個點獲勝的機率,人類則是直接肉眼就能夠知道哪邊較容易獲勝。
1. 人類:用肉眼都知道怎樣下就會贏。
2. 電腦:根據過往歷史紀錄,下左邊有0%會贏,下右下角有100%會贏。
#### II. 知識表示
人工智慧領域的核心研究問題之一,它的目標是讓機器儲存相應的知識,並且能夠按照某種規則推理演繹得到新的知識。
- 例如:假設歷史紀錄告訴我們天氣只有晴天、陰天、雨天三種,且今天太陽不大且沒有下雨,請問今天天氣為何? 透過模糊理論來代表不同感受下的溫度。
#### III. 機器學習
主要目的是為了**讓機器從使用者和輸入資料等處獲得知識**,從而讓機器自動地去判斷和輸出相應的結果。能通過經驗自動改進的電腦演算法的研究。
- 例如:機器在進行加減乘除時,不斷地透過輸入問題與問題修正,進而得到正確答案。
- 例如:教機器怎麼學會寫8。
- 例如:利用機器學習校正大富翁的遊戲參數。
```mermaid
graph TD;
B(演繹和推理);
C(知識表示);
D(機器學習);
style B fill:#fff,stroke:#333,stroke-width:2px;
style C fill:#fff,stroke:#333,stroke-width:2px;
style D fill:#fff,stroke:#333,stroke-width:2px;
```
#### IV. 類神經網路
模擬人類的神經元所設計的,具有學習的功能,利用訂正的過程來讓自己學會專業知識。同時他是個黑盒子,不需要了解他的內部操作就可以操作。
- (2010 前) 要使用類神經網路,就必須了解類神經網路的架構,自己用程式刻出來。
- (2010 後):幾乎所有主要軟體都有類神經網路的套件,你只要在套件中 input 輸入輸出後,就可以快速建立類神經網路了
- (2020 後) : 講求 Explainable AI ,模型跑完後要解釋模型的內容,因此需要了解 AI 內部核心原理。
```mermaid
graph TD;
B(類神經網路);
style B fill:#fff,stroke:#333,stroke-width:2px;
```
#### V.深度學習
簡單來說就是比較多層的淺層類神經網路,理論、方法都一樣。
- 透過深度學習中愈多層的神經網路找到最佳解的機率愈高。
- 套件應用:用套件解決各項問題,價值低,成本高 (一定得有GPU才能將訓練好的模型套在各種應用中) 。
- 核心價值發揮:從訓練好的深度學習模型挖掘各種資訊,提高分析效能及降低使用成本。
```mermaid
graph TD;
B(淺層類神經網路);
C(深度學習);
style B fill:#fff,stroke:#333,stroke-width:2px;
style C fill:#fff,stroke:#333,stroke-width:2px;
```
:::info
**注意事項**: 其中 **淺層類神經網路** 和 **深度學習** 原理、理論、架構皆類似,差別在網路深度與廣度
:::
#### 數據分析流程常見的三輪循環模式
**第一輪:嘗試與了解階段(失敗為成功之母)**
1. 使用最簡單的套件來初步探索資料分布。
2. 用最基本的工具測試分析方法的有效性。
3. 根據這一輪的觀察結果,設計第二與第三輪的分析策略。
**第二輪:方向成形階段(約 50% 失敗機率)**
1. 根據前一輪的經驗,重新整理與清洗資料。
2. 嘗試多種主流套件進行分析,並產出初步結果。
3. 觀察是否還有進步空間,評估下一步該優化的方向。
**第三輪:優化與突破階段(約 80% 失敗機率)**
1. 根據前一輪經驗,針對資料或演算法進行調整。
2. 通常需要修改套件內部程式碼以達成特殊需求或優化。
3. 若分析成功,目標為效能提升至少 30%
**實例一: 將全班分類為男生與女生**
1. 第一輪:問題定義錯誤、資料品質低
- 主題定義不清楚,男女性比例失衡導致分類不準
- 有人亂填資訊,資料品質低落,預期使用任何方法效果都會很差。
2. 第二輪:具備清洗與分析能力,但效果仍不夠好
- 已經知道如何清理資料與進行分析。
- 結果比第一輪進步,但仍未達到預期標準。
3. 第三輪:結果合格但時間不足
- 終於獲得符合需求的分析結果。
- 可惜的是,時間已經不夠了,無法繼續深度優化。
**實例二:運用大數據分析減少廚餘**
1. 第一輪:問題定義錯誤、資料蒐集困難
- 問題定義不清楚,資料蒐集有誤、缺漏情形嚴重。
- 無法量化餐廳的數據,甚至出現許多預料之外的問題。
- 難以分析廚餘的真實成因與結構。
2. 第二輪:釐清定義與方向,逐漸聚焦
- 與餐廳人員確認細節,明確廚餘與食物浪費的定義。
- 釐清分析方向,開始知道哪些數據該收、怎麼定義才有意義。
3. 第三輪:結果成功但時間壓力大
- 終於成功得到符合需求的分析結果,可用於實際減少廚餘。
- 但完成時時間已幾乎用盡,無法進一步優化或延伸。
<br><br>
## Part5 : AI 與大數據分析的關係
#### 以實務面看大數據分析跟AI關係:
- 基礎版(輸入輸出):
```mermaid
graph LR;
A[原始資料]-->B[改輸入資料]-->C[套用套件]-->D[改輸出資料]-->E[原始資料];
style A fill:#fff,stroke:#333,stroke-width:2px;
style B fill:#fff,stroke:#333,stroke-width:2px;
style C fill:#fff,stroke:#333,stroke-width:2px;
style D fill:#fff,stroke:#333,stroke-width:2px;
style E fill:#fff,stroke:#333,stroke-width:2px;
```
- 做套件的串連/並聯: 把類神經拆解成多個小的 block 後,再組合起來。
```mermaid
graph LR;
A[原始資料]-->B[改輸入資料];
B-->D[套件 1];
B-->E[套件 2];
D-->F[集成]-->G[改輸出資料];
E-->F;
style A fill:#fff,stroke:#333,stroke-width:2px;
style B fill:#fff,stroke:#333,stroke-width:2px;
style D fill:#fff,stroke:#333,stroke-width:2px;
style E fill:#fff,stroke:#333,stroke-width:2px;
style F fill:#fff,stroke:#333,stroke-width:2px;
style G fill:#fff,stroke:#333,stroke-width:2px;
```
---
```mermaid
graph LR;
A[原始資料]-->B[改輸入資料]-->C[套件 1]-->D[套件 2]-->E[改輸出資料]-->F[原始資料];
style A fill:#fff,stroke:#333,stroke-width:2px;
style B fill:#fff,stroke:#333,stroke-width:2px;
style C fill:#fff,stroke:#333,stroke-width:2px;
style D fill:#fff,stroke:#333,stroke-width:2px;
style E fill:#fff,stroke:#333,stroke-width:2px;
style F fill:#fff,stroke:#333,stroke-width:2px;
```
- AIRD(設計新模型)
```mermaid
graph LR;
A[原始資料]-->B[改輸入資料]-->C[設計新模型]-->D[改輸出資料]
style A fill:#fff,stroke:#333,stroke-width:2px;
style B fill:#fff,stroke:#333,stroke-width:2px;
style C fill:#fff,stroke:#333,stroke-width:2px;
style D fill:#fff,stroke:#333,stroke-width:2px;
```
:::info
**注意事項**: 要符合環境限制、成本、硬體大小。
:::
## 附錄
#### 常見數據集
- 健康看數據: https://visualizinghealthdata.idv.tw/
- 運輸資料流通服務: https://tdx.transportdata.tw/
- 政府資料開放平台: https://data.gov.tw/
- 台北市立資料大平台: https://data.taipei/
- Google Trend: https://trends.google.com.tw/trends/
<br>
## 課程考題討論
#### 1. 請寫出大數據分析為何效果比小數據方法好的原因
<center>
<img src="https://hackmd.io/_uploads/H1_myuwOJg.png"
style="
width: 90%;
height: auto;">
<div style="
border-bottom: 3px solid #d9d9d9;
display: inline-block;
color: #999;
padding: 3px;">
</div>
</center>
- 小數據:受限於起出硬體設備相對難使用與價格昂貴,因此資料收集不容易,準確率較低。
- 大數據:當硬體設備 (例如: Sensor) 普及化以後,即可收集大量的數據,準確率較高。
- 生成式:透過 GAN 來達成。
<br>
#### 2. 請寫出統計方法、機器學習,還有深度學習在不同資料量下的效能
<center>
<img src="https://hackmd.io/_uploads/ryDWxP0Y0.png"
style="
width: 90%;
height: auto;">
<div style="
border-bottom: 3px solid #d9d9d9;
display: inline-block;
color: #999;
padding: 3px;">
</div>
</center>
<br>
#### 3. 請寫出講義中「利用大數據分析降低學生餐廳廚餘量」分析暗的每個分析流程
| | 大數據分析降低學生餐廳廚餘量 |
| :--: | :--: |
| 定義題目 | 將賣剩的食物用體積來衡量 (目標、資料、KPI)
| 收集資料 | 當日天氣、行事曆日期、種族飲食
| 清洗資料 | 刪除特殊情況,只留非特殊狀況 <br> 如:放假日沒有廚餘
| 取特徵值 | 評估每個收集到的欄位與廚餘量的關係
| 降維 | 評估每個收集到的欄位與廚餘量的關係
| 建模、分類 | 利用既有資料建立分類模型
| 報告製作 | AI 落地、SOP、防呆及品質檢測
<br>
#### 4. 請寫出「台積電虛擬量測技術」在每一輪分析時會遇到什麼困難
- **Sensor 壽命與誤差累積**: 製程中含有強酸(如氫氟酸)與高溫環境,造成 感測器(如壓力、溫度)腐蝕或偏移。Sensor 易失準,導致虛擬量測的預測失真,需定期更換與重新校正。
- **鍍膜與光阻不均勻性**: Spin coating 等過程會因機台/溫濕差異造成厚度不均。
- **實體量測標籤資料稀少**: SEM、AFM 等量測昂貴又耗時,只能抽樣測幾片晶圓,導致訓練樣本少、分布不均,難以建立泛化能力強的模型。
- **製程漂移(Process Drift)**: 時間久了會有耗材老化、機台維護差異等因素,導致原模型預測能力下降,需要定期 retrain。
- **多層堆疊導致誤差累積**: 當晶圓進入第 6~7 層以上堆疊製程時,每一層微小誤差會累加影響到後續製程準確度。
<center>
<img src="https://hackmd.io/_uploads/HyMKN4e0kg.png"
style="
width: 90%;
height: auto;">
<div style="
border-bottom: 3px solid #d9d9d9;
display: inline-block;
color: #999;
padding: 3px;">
</div>
</center>
<br>
#### 5. 目前台灣已有許多大數據案例被公布出來,請試著上網找尋工業與商業各一個案例,並簡略說明他們的「題目」、「資料集」為何?
- 工業案例:台積電的製造過程優化
1. 題目:利用大數據分析提升半導體製造效率。
2. 資料集:台積電透過感測器收集大量生產設備的運行數據,包括機台運行狀態、產品品質數據及製程參數。這些數據用於分析機台健康狀況,預測故障,並優化生產流程,以提高晶圓良率和降低維修成本
- 商業案例:亞馬遜的客戶行為分析
1. 題目:透過大數據分析提升顧客購物體驗。
2. 資料集:亞馬遜利用用戶的瀏覽歷史、購買紀錄及其他行為數據來構建顧客模型。這些數據幫助亞馬遜精準地推薦產品,設計促銷活動,並優化庫存配置,以提升顧客滿意度和銷售額。