# 進階資料挖掘 僑光科技大學 資訊科技系 2025/09/17 ~ 2026/01/14 上課學期:114學年第1學期 上課班級:資科碩114 授課老師:高吉隆 電子信箱:[kevinkao888@gmail.com](mailto://kevinkao888@gmail.com) [專業教室使用規則](https://hackmd.io/@nu1gpWVGTf2ERQf4G8_eUg/S1hjuuNLB#/) ###### tags: `課程大綱` <head> <style> .ms { vertical-align: middle; font-size: 30px; } h3 { line-hieght: 10px; } </style> </head> --- ## 課程介紹 * 課程大綱 * 每週目標 * 評分標準 * 使用教科書 ---- ### 課程大綱 * 認識資料挖掘及其應用實務操作演示 * 學習使用 Orange Data Mining 工具進行分析 * 主旨在培養對資料挖掘實務的認知 * 認識各種經典案例在工具操作應用 * 研讀分享各種案例,並製作簡報上台報告 * 資料擷取、預處理、轉換、建模及評估驗證 * 包括演示、實作、報告、資料收集、分析及簡報 ---- ### 每週目標 * 18 週上課目標 * 課程說明、資料挖掘介紹 * 上課演示、實務操作 * 功能介紹、隨堂實作 * 案例研究、期中報告 * 資料收集、資料分析 * 工具操作、期末報告 ---- |週| 前 9 週上課目標 |說明 |:-:|:-----------|:----: |1|課程說明、資料挖掘介紹|點名10% |2|Orange介紹、教學報告說明|報告40% |3|教學報告(Iris鳶尾花)|決策樹 |4|教學報告(Zoo動物園)|吳弦駿 |5|教學報告(Lenses鏡片)|陳俊文 |6|教學報告(Wine葡萄酒)|潘柏成 |7|教學報告(Titanic鐵達尼號)|黎如軒 |8|教學報告(Heart Disease心臟病)|詹文傑 |9|教學報告(Housing房價)|王廷懿 ---- | 週 | 後 9 週上課目標 |說明 |:-:|:----------|:-: |10|期末2人教學報告方式說明|報告40% |11|資料收集、教案及報告準備| |12|教學報告(電影評論分析)|文字挖掘 |13|教學報告(社群與情分析)|文字挖掘 |14|教學報告(癌症基因分析)|生物資訊學 |15|教學報告(花朵圖像分類)|圖像分類 |16|教學報告(皮膚癌辨識)|影像偵測 |17|教學報告(股票價格預測)|時間序列 |18|教學報告(用電量預測)|預測分析 ---- ### 評分標準(100%) * 期中成績:40% * 期中報告:40% (第2-9週) * 期末成績:60% * 上課互動:10% (每週點名) * 期末報告:50% (第12-18週) ---- ### 上課點名(10%) * 依學校點名系統計分方式計算,佔總分10% * 若無任何請假(不含公假)、缺曠,可拿100分 * 計分方式:2節x18週=36堂 * 原則2節課只點1節 * 點名缺曠每1節扣1.5點,請假扣1點 * 若無法到課,請務必請假 * 累積達2/9即扣8點,即達<預警> * 若扣8點,約可拿75分 * 累積達1/3即扣12點,即達<扣考> * 若扣12點,約可拿60分 * 若扣超過12點,不再點名,分數為50 ---- ### 期中報告(40%) * 請以2人為1組合作完成,共同交1份報告 * 請利用第1節以簡報說明以下完整內容 * 成員介紹:學號、姓名、分工 * 題目說明:案例說明,應用方向 * 使用工具:名稱、包含什麼模型 * 先備知識:其它工具說明、模型介紹 * 資料收集:如何取得資料、如何預處理 * 模型選擇:使用何種模型、模型比較分析 * 結果分析:說明解析結果及其意義 * 報告影片:影片連結20分鐘以上 * 請利用第2節輔助其它同學在電腦上操作 * 心得分享、問題提出及解答 --- ## 資料挖掘視覺化工具 Orange * Orange Data Mining介紹 * Orange Data Mining安裝 * 常用基本組件功能介紹 ---- ### Orange Data Minning 介紹 * 功能介紹: * 一套開源的資料挖掘工具軟體,完全免費 * 基於組件視覺化程式設計軟體,免寫程式 * 透過拖曳和連接小工具,輕鬆分析與建模 * 非常適合初學者、非程式背景分析師 * 主要特色: * 視覺化工作流程:讓使用者一目了然 * 豐富的組件:內建多種資料處理等工具 * 互動式資料視覺化:即時呈現資料分佈 * 支援多種資料來源:CSV、Excel和SQL * 可擴展性:透過安裝擴充套件增加功能 ---- ### Orange Data Mining安裝 * 官方網站:[連結](https://orangedatamining.com) * 下載及安裝: * 點擊「Download」按鈕,選擇對應的作業系統版本(Windows, macOS, Linux) * 下載後執行安裝程式 * 安裝過程非常簡單,通常只需一直點擊「下一步」即可 ---- ### 常用基本組件功能介紹1 * Data 類別 * File:載入資料的組件,如csv、tab、xlsx * Data Table:以表格方式檢視資料 * Datasets:內建的資料集,如iris、zoo等 * Transform 類別 * Select Columns:特定欄位,排除不要欄位 * Normalize(標準化):將數值轉為一定區間 * Continuize(連續化):將類別變數轉為數值 * Discretize(離散化):將連續變日轉為離散 ---- ### 常用基本組件功能介紹2 * Visualize 類別 * Scatter Plot(散佈圖):顯示兩個變數間關係 * Distributions(分佈圖):單變數的數值分佈 * Box Plot(盒狀圖):顯示數值的五數摘要 * Model 類別 * Tree(決策樹):用樹狀結構做分類預測 * Logistic Regression(邏輯迴歸):線性模型 * Neural Network(神經網路):非線性模型 ---- ### 常用基本組件功能介紹3 * Evaluate 類別 * Test & Score:模型評估在資料集上的表現 * Confusion Matrix(混淆矩陣):以表格形式顯示預測結果與實際結果之間的關係 * Workflow 類別 * Python Script:在流程中嵌入Python程式碼 --- ## 教學報告(Iris鳶尾花) * 介紹Iris鳶尾花資料來源 * 以CSV File Import載入、以Data Table檢視資料 * 以Features Statistics了解資料統計數據 * 以Scatter Plot(散佈圖)了解特徵值分佈 * 以Rank比較單一特徵值的關聯分數排名 * 以Correlations比較成對特徵值的分數排名 * 以Tree/Tree Viewer顯示決策樹圖形 * 以Test & Score測試和學習演算法分析 * 加入其它各種適用的Model做比較 * 以Confusion Matrix分析結果 ---- ### 介紹Iris鳶尾花資料來源 * 由英國統計學家和生物學家發表論文而聞名 * 多重變數分析的資料集(同時分析超過1個變數) * 山鳶尾、變色鳶尾和維吉尼亞鳶尾各50個樣本 * 每樣本包含4項特徵,花萼和花瓣的長度和寬度 * 花萼:最外層的一輪萼片,通常為綠色 * 花瓣:花萼的內輪,鮮艷吸引蜜蜂授粉 * 長度、寬度:以公分為單位 * 資料集:[下載](https://www.kaggle.com/datasets/uciml/iris) || |-|-| ---- ### 以CSV File Import載入、Data Table檢視 * 官方說明:[CSV File Import](https://orangedatamining.com/widget-catalog/data/csvfileimport/) * 將屬性名稱改為中文後載入資料集 * 編號設為Ignore、第一列設為Header || |-|-| ---- ### 以CSV File Import載入、Data Table檢視 * 官方說明:[Data Table](https://orangedatamining.com/widget-catalog/data/datatable/) * 以表格方式檢視每一筆資料  ---- ### 以Features Statistics了解資料統計數據 * 官方說明:[Feature Statistics](https://orangedatamining.com/widget-catalog/data/featurestatistics/) * 所有特徵值統計分佈:如平均、最大、最小值  ---- ### 以Scatter Plot(散佈圖)了解特徵值分佈 * 官方說明:[Scatter Plot](https://orangedatamining.com/widget-catalog/visualize/scatterplot/) * 以散佈圖設定二個特徵值的座標分佈區域  ---- ### 以Rank比較單一特徵值關聯性分數排名 * 官方說明:[Rank](https://orangedatamining.com/widget-catalog/data/rank/) * 比較各種評分方法在各特徵值的分數排名  ---- ### 以Correlations比較成對特徵值分數排名 * 官方說明:[Correlations](https://orangedatamining.com/widget-catalog/unsupervised/correlations/) * 比較各種成對特徵值的分數排名  ---- ### 以Tree/Tree Viewer顯示決策樹圖形 * 官方說明:[Tree](https://orangedatamining.com/widget-catalog/model/tree/) * 官方說明:[Tree Viewer](https://orangedatamining.com/widget-catalog/visualize/treeviewer/)  ---- ### 以Test & Score測試和學習演算法分析 * 官方說明:[Test & Score](https://orangedatamining.com/widget-catalog/evaluate/testandscore/) ---- ### 加入其它各種適用的Model做比較 * 官方說明:[Random Forest](https://orangedatamining.com/widget-catalog/model/randomforest/) * 官方說明:[Logistic Regression](https://orangedatamining.com/widget-catalog/model/logisticregression/) * 官方說明:[Neural Network](https://orangedatamining.com/widget-catalog/model/neuralnetwork/) ---- ### 以Confusion Matrix分析結果 * 官方說明:[Confusion Matrix](https://orangedatamining.com/widget-catalog/evaluate/confusionmatrix/)  ---- ### Orange Data Mining WorkFlow  ---- ### Orange Data Mining Tree Viewer
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up