# 進階資料挖掘
僑光科技大學 資訊科技系
2025/09/17 ~ 2026/01/14
上課學期:114學年第1學期
上課班級:資科碩114
授課老師:高吉隆
電子信箱:[kevinkao888@gmail.com](mailto://kevinkao888@gmail.com)
[專業教室使用規則](https://hackmd.io/@nu1gpWVGTf2ERQf4G8_eUg/S1hjuuNLB#/)
###### tags: `課程大綱`
<head>
<style>
.ms {
vertical-align: middle;
font-size: 30px;
}
h3 {
line-hieght: 10px;
}
</style>
</head>
---
## 課程介紹
* 課程大綱
* 每週目標
* 評分標準
* 使用教科書
----
### 課程大綱
* 認識資料挖掘及其應用實務操作演示
* 學習使用 Orange Data Mining 工具進行分析
* 主旨在培養對資料挖掘實務的認知
* 認識各種經典案例在工具操作應用
* 研讀分享各種案例,並製作簡報上台報告
* 資料擷取、預處理、轉換、建模及評估驗證
* 包括演示、實作、報告、資料收集、分析及簡報
----
### 每週目標
* 18 週上課目標
* 課程說明、資料挖掘介紹
* 上課演示、實務操作
* 功能介紹、隨堂實作
* 案例研究、期中報告
* 資料收集、資料分析
* 工具操作、期末報告
----
|週| 前 9 週上課目標 |說明
|:-:|:-----------|:----:
|1|課程說明、資料挖掘介紹|點名10%
|2|Orange介紹、教學報告說明|報告40%
|3|教學報告(Iris鳶尾花)|決策樹
|4|教學報告(Zoo動物園)|吳弦駿
|5|教學報告(Lenses鏡片)|陳俊文
|6|教學報告(Wine葡萄酒)|潘柏成
|7|教學報告(Titanic鐵達尼號)|黎如軒
|8|教學報告(Heart Disease心臟病)|詹文傑
|9|教學報告(Housing房價)|王廷懿
----
| 週 | 後 9 週上課目標 |說明
|:-:|:----------|:-:
|10|期末教學報告說明|報告40%
|11|資料收集、報告準備|
|12|期末報告說明|
|13|10類手寫數字分類(MNIST)|吳弦駿
|14|5類花朵圖像分類|陳俊文
|15|9類皮膚癌辨識|潘柏成
|16|90類動物圖像分類|黎如軒
|17|商場顧客客群分析|詹文傑
|18|航空乘客序列預測|王廷懿
----
### 評分標準(100%)
* 期中成績:40%
* 期中報告:40% (第2-9週)
* 期末成績:60%
* 上課互動:10% (每週點名)
* 期末報告:50% (第12-18週)
----
### 上課點名(10%)
* 依學校點名系統計分方式計算,佔總分10%
* 若無任何請假(不含公假)、缺曠,可拿100分
* 計分方式:2節x18週=36堂
* 原則2節課只點1節
* 點名缺曠每1節扣1.5點,請假扣1點
* 若無法到課,請務必請假
* 累積達2/9即扣8點,即達<預警>
* 若扣8點,約可拿75分
* 累積達1/3即扣12點,即達<扣考>
* 若扣12點,約可拿60分
* 若扣超過12點,不再點名,分數為50
----
### 期中報告(40%)
* 請以2人為1組合作完成,共同交1份報告
* 請利用第1節以簡報說明以下完整內容
* 成員介紹:學號、姓名、分工
* 題目說明:案例說明,應用方向
* 使用工具:名稱、包含什麼模型
* 先備知識:其它工具說明、模型介紹
* 資料收集:如何取得資料、如何預處理
* 模型選擇:使用何種模型、模型比較分析
* 結果分析:說明解析結果及其意義
* 報告影片:影片連結20分鐘以上
* 請利用第2節輔助其它同學在電腦上操作
* 心得分享、問題提出及解答
---
## 資料挖掘視覺化工具 Orange
* Orange Data Mining介紹
* Orange Data Mining安裝
* 常用基本組件功能介紹
----
### Orange Data Minning 介紹
* 功能介紹:
* 一套開源的資料挖掘工具軟體,完全免費
* 基於組件視覺化程式設計軟體,免寫程式
* 透過拖曳和連接小工具,輕鬆分析與建模
* 非常適合初學者、非程式背景分析師
* 主要特色:
* 視覺化工作流程:讓使用者一目了然
* 豐富的組件:內建多種資料處理等工具
* 互動式資料視覺化:即時呈現資料分佈
* 支援多種資料來源:CSV、Excel和SQL
* 可擴展性:透過安裝擴充套件增加功能
----
### Orange Data Mining安裝
* 官方網站:[連結](https://orangedatamining.com)
* 下載及安裝:
* 點擊「Download」按鈕,選擇對應的作業系統版本(Windows, macOS, Linux)
* 下載後執行安裝程式
* 安裝過程非常簡單,通常只需一直點擊「下一步」即可
----
### 常用基本組件功能介紹1
* Data 類別
* File:載入資料的組件,如csv、tab、xlsx
* Data Table:以表格方式檢視資料
* Datasets:內建的資料集,如iris、zoo等
* Transform 類別
* Select Columns:特定欄位,排除不要欄位
* Normalize(標準化):將數值轉為一定區間
* Continuize(連續化):將類別變數轉為數值
* Discretize(離散化):將連續變日轉為離散
----
### 常用基本組件功能介紹2
* Visualize 類別
* Scatter Plot(散佈圖):顯示兩個變數間關係
* Distributions(分佈圖):單變數的數值分佈
* Box Plot(盒狀圖):顯示數值的五數摘要
* Model 類別
* Tree(決策樹):用樹狀結構做分類預測
* Logistic Regression(邏輯迴歸):線性模型
* Neural Network(神經網路):非線性模型
----
### 常用基本組件功能介紹3
* Evaluate 類別
* Test & Score:模型評估在資料集上的表現
* Confusion Matrix(混淆矩陣):以表格形式顯示預測結果與實際結果之間的關係
* Workflow 類別
* Python Script:在流程中嵌入Python程式碼
---
## 教學報告(Iris鳶尾花)
* 介紹Iris鳶尾花資料來源
* 以CSV File Import載入、以Data Table檢視資料
* 以Features Statistics了解資料統計數據
* 以Scatter Plot(散佈圖)了解特徵值分佈
* 以Rank比較單一特徵值的關聯分數排名
* 以Correlations比較成對特徵值的分數排名
* 以Tree/Tree Viewer顯示決策樹圖形
* 以Test & Score測試和學習演算法分析
* 加入其它各種適用的Model做比較
* 以Confusion Matrix分析結果
----
### 介紹Iris鳶尾花資料來源
* 由英國統計學家和生物學家發表論文而聞名
* 多重變數分析的資料集(同時分析超過1個變數)
* 山鳶尾、變色鳶尾和維吉尼亞鳶尾各50個樣本
* 每樣本包含4項特徵,花萼和花瓣的長度和寬度
* 花萼:最外層的一輪萼片,通常為綠色
* 花瓣:花萼的內輪,鮮艷吸引蜜蜂授粉
* 長度、寬度:以公分為單位
* 資料集:[下載](https://www.kaggle.com/datasets/uciml/iris)
||
|-|-|
----
### 以CSV File Import載入、Data Table檢視
* 官方說明:[CSV File Import](https://orangedatamining.com/widget-catalog/data/csvfileimport/)
* 將屬性名稱改為中文後載入資料集
* 編號設為Ignore、第一列設為Header
||
|-|-|
----
### 以CSV File Import載入、Data Table檢視
* 官方說明:[Data Table](https://orangedatamining.com/widget-catalog/data/datatable/)
* 以表格方式檢視每一筆資料

----
### 以Features Statistics了解資料統計數據
* 官方說明:[Feature Statistics](https://orangedatamining.com/widget-catalog/data/featurestatistics/)
* 所有特徵值統計分佈:如平均、最大、最小值

----
### 以Scatter Plot(散佈圖)了解特徵值分佈
* 官方說明:[Scatter Plot](https://orangedatamining.com/widget-catalog/visualize/scatterplot/)
* 以散佈圖設定二個特徵值的座標分佈區域

----
### 以Rank比較單一特徵值關聯性分數排名
* 官方說明:[Rank](https://orangedatamining.com/widget-catalog/data/rank/)
* 比較各種評分方法在各特徵值的分數排名

----
### 以Correlations比較成對特徵值分數排名
* 官方說明:[Correlations](https://orangedatamining.com/widget-catalog/unsupervised/correlations/)
* 比較各種成對特徵值的分數排名

----
### 以Tree/Tree Viewer顯示決策樹圖形
* 官方說明:[Tree](https://orangedatamining.com/widget-catalog/model/tree/)
* 官方說明:[Tree Viewer](https://orangedatamining.com/widget-catalog/visualize/treeviewer/)

----
### 以Test & Score測試和學習演算法分析
* 官方說明:[Test & Score](https://orangedatamining.com/widget-catalog/evaluate/testandscore/)
----
### 加入其它各種適用的Model做比較
* 官方說明:[Random Forest](https://orangedatamining.com/widget-catalog/model/randomforest/)
* 官方說明:[Logistic Regression](https://orangedatamining.com/widget-catalog/model/logisticregression/)
* 官方說明:[Neural Network](https://orangedatamining.com/widget-catalog/model/neuralnetwork/)
----
### 以Confusion Matrix分析結果
* 官方說明:[Confusion Matrix](https://orangedatamining.com/widget-catalog/evaluate/confusionmatrix/)

----
### Orange Data Mining WorkFlow

----
### Orange Data Mining Tree Viewer
{"description":"僑光科技大學 資訊科技系2025/09/16 ~ 2026/01/13上課學期:114學年第1學期上課班級:日資科114忠授課老師:高吉隆電子信箱:kevinkao888@gmail.com專業教室使用規則","title":"進階資料挖掘(114-1)","contributors":"[{\"id\":\"9eed60a5-6546-4dfd-8445-07f81bcfde52\",\"add\":10383,\"del\":2709,\"latestUpdatedAt\":1765953151311}]"}