###### tags: 'Data Mining' # :star: 資料探勘 Data Mining <div style="page-break-after: always;"></div> ## :pushpin: 資料庫知識發現(Knowledge-Discovery in Databases, KDD) https://zh.wikipedia.org/zh-tw/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98 ## :pushpin: 資料清洗ETL(Extract-Transform-Load) <div style="page-break-after: always;"></div> ## :pushpin: 資料庫知識發現(KDD)過程通常定義為以下階段: (1) 選擇 (2) 預處理 (3) 變換 (4) 資料探勘 (5) 解釋/評估 https://data-flair.training/blogs/data-mining-process/ Data Preparation數據準備 Integration集成 Patterns模式 Evaluation評估 Data Warehouse數據倉庫 ## :pushpin: 資料探勘包括預測型(Prediction)分析和描述型(Description)分析 https://www.researchgate.net/figure/Basic-data-mining-models_fig3_308698620 Clustering聚類 Summarization總結 Visualization可視化 Classification分類 Regression回歸 <div style="page-break-after: always;"></div> ## :pushpin: 資料探勘工具 • ETL 部分有 Pandas • 運算分析建模有 Numpy, SKLearn • 視覺化有 Matplotlib • 基礎部分有 Numpy ## :pushpin: Pandas 是 Python 的一個數據分析 lib,提供高效能、簡易使用的資料格式(Data Frame): 1. 異質數據的讀取、轉換和載入, 2. 提供 Series 與 DataFrame, 3. 快速地進行資料的前處理,如資料補值,空值去除或取代等, 4. 更多的輸入來源及輸出整合性。 ## :pushpin: Matplotlib • Matplotlib 是利用 Python 所實作的繪圖套件,其中包含兩個最 重要的模組 — pylab 和 pyplot。 ## :pushpin: SKLearn • scikit-learn,又寫作 sklearn,是一個開源的基於 Python 語言的 機器學習工具包。它通過 NumPy, SciPy 和 Matplotlib 等 Python 數值計算的庫實現高效的演算法應用,並且涵蓋了幾乎所 有主流機器學習演算法。 ## :pushpin: NumPy 是 Python 在進行科學運算時一個基礎的 Package,同時也是 Python 核心的 library: 1. 提供高效能多維陣列數學函式庫 2. 提供線性代數及傅立葉轉換的功能。 3. 利用 NumPy Array (ND Array) 替代 Python List,提高運算速度與統一性。 4. 可定義任意的數據型態(Data Type),整合多種資料庫接口。 <div style="page-break-after: always;"></div> ## :pushpin: 補充 https://zh.wikipedia.org/zh-tw/%E5%82%85%E9%87%8C%E5%8F%B6%E5%8F%98%E6%8D%A2 傅立葉轉換在醫學、數據科學、物理學、聲學、光學、結構力學、量子力學、數論、組合數學、機率論、統計學、信號處理、密碼學、大氣科學、海洋學、通訊、金融等領域都有著廣泛的應用。例如在信號處理中,傅立葉轉換的典型用途是將複雜的信號分解成具有不同振幅的單一頻率分量,並以此實現濾波等操作;進一步的,量子力學中位置空間的波函數的傅立葉轉換是動量空間的波函數。 CSV:Comma Separated Values 逗號分隔值 https://zh.m.wikipedia.org/zh-hant/%E9%80%97%E5%8F%B7%E5%88%86%E9%9A%94%E5%80%BC XML:eXtended Markup Language 擴展標記語言 https://zh.wikipedia.org/zh-tw/XML JSON:Javascript Object Notation https://zh.wikipedia.org/zh-tw/JSON 盒鬚圖Boxplot https://zh.m.wikipedia.org/zh-tw/%E7%AE%B1%E5%BD%A2%E5%9C%96 https://vocus.cc/article/601e24d6fd89780001a35084 Quartile:四分位數 Interquartile range:四分位距IQR outlier:離群值 median survival time:中位生存時間