# 數據分析(Data Analysis) 一、分析流程面: 底下又分不同階段與不同深度。 1. 資料收集(Data Collection) ->抓API、爬蟲、上傳CSV、連接資料庫等等。 2. 資料清理與前處理(Data Cleaning & Preprocessing) ->處理缺失值、格式轉換、欄位重整。 3. 探索性資料分析(Exploratory Data Analysis,EDA) ->視覺化、統計摘要、初步假設、了解資料分布。 4. 資料建模與進階分析(Modeling & Advanced Analytics) ->機器學習模型、時間序列、分群等。 5. 視覺話與報告呈現(Visualization & Communication) ->Tableau、Power BI、報表匯出、Dashboard。 6. 決策應用與部屬(Deployment & Action) ->商業決策、智慧製造、推薦系統等。 二、分析技術面: 根據分析的「深度與複雜度」來分類。 先以常見順序排列: | 分析類型 | 說明 | 常用方法 | 工具/技術 | | ---------- | ---------------------------------------- | ------------------------------ | ------------ | | **描述性分析** | 告訴你「發生了甚麼」 | EDA、平均值、標準差 | Excel、Pandas | | **診斷性分析** | 解釋「為什麼會這樣」 | t檢定、交叉驗證、相關係數 | R、SQL | | **預測性分析** | 預測「接下來會發生甚麼」 | 線性回歸、XGBoost、LSTM | Python ML工具 | | **規範性分析** | 建議「該做甚麼決策」 | 最佳化模型、模擬、強化學習 | AI模型、自動化引擎 | | **大數據分析** | 解決「資料量過大」、「來源多樣」的問題 | 分散式處理、漏斗分析、用戶行為流 |Hadoop、Spark、FineBI | 以技術深度來排序: | 分層 | 說明 | 常見工作職位 | 對應方法 | 常用工具 | | ---- | ------ | --------- | ------- |------- | | **第 1 層:基礎分析層(統計 + EDA)** | 資料整裡 + 基本統計 + 視覺化,用來「了解資料」| 行銷分析師、商業分析師、初階資料分析師| EDA、平均數、標準差、分組、交叉分析、趨勢圖、直方圖、箱型圖 | Excel、Pandas、Power BI、Tableau| | **第 2 層:進階分析層(預測 + 分群 + 機器學習)**| 利用數學模型找出潛在規律或預測未來,資料科學/AI起點 | 資料科學家、AI助理工程師、預測工程師| 線性回歸、分類、聚類、決策樹、時間序列分析| Python(scikit-learn、XGBoost、statsmodels)、R| | **第 3 層:大數據與決策應用層(系統 + 大規模處理 + 自動化)** | 結合多資料源、即時分析、自動化部署與高複雜度商業應用 | 數據架構師、大數據工程師、數據決策分析師、IIoT分析顧問 | 漏斗分析、用戶路徑分析、即時監控、數據湖整合、強化學習 | Spark、Hadoop、Kafka、Airflow、FineBI、Power BI 自動化串接、Tableau server | 一、探索性資料分析(EDA,Exploratory Data Analysis) 二、資料視覺化(Data Visualization) 三、統計檢定(Statistical Testing) 四、機器學習與建模(Predictive Modeling) 五、資料前處理 六、時間序列分析 七、績效評估與報告 一、探索性資料分析(EDA,Exploratory Data Analysis) 了解資料的結構、特徵與潛在問題。 1.敘述統計(Descriptive Statistics) * 平均數、中位數、標準差、最小值、最大值。 2.分布檢視(Distribution Analysis) * 直方圖、箱型圖(boxplot)、密度圖等觀察變數分布。 3.缺失值與異常值檢查 * 檢查是否有缺失值(NaN)、離群值(Outlier)。 4.資料關聯性(Correlation Analysis) * 計算變數間的相關係數(如Pearson)。 二、資料視覺化(Data Visualization) 以圖像化的方式呈現資料趨勢與關係。 *折線圖(Line Plot)、長條圖(Bar Chart)、圓餅圖(Pie Chart)。 *熱力圖(Heatmap)用來觀察相關性矩陣。 *散點圖(Scatter Plot)檢視兩變數關係。 工具:matplotlib、Seaborn、Plotly、Tableau。 三、統計檢定(Statistical Testing) 驗證假設、比較不同群體的差異。 | 方法 | 用途 | | -------- | -------- | | t-test | 比較兩組平均值是否有顯著差異| | ANOVA | 比較多組平均值差異 | | 卡方檢定(Chi-Square Test)| 檢查分類變數間是否獨立 | | 常態性檢定(Shapiro-Wilk、Kolmogorov-Smirnov)| 檢查資料是否服從常態分布| 四、機器學習與建模(Predictive Modeling) 建立預測模型、分群或分類。 | 分類(Classification) | 回歸(Regression) | 分群(Clustering) | | -------- | -------- | -------- | | 決策樹(Decision Tree)| 線性回歸(Linear Regression)| K-means| | 隨機森林(Random Forest)| 多項式回歸(polynomial Regression)| 層次式分群(Hierarchical Clustering)| | 支持向量機(SVM)|Lasso/Ridge Regression| DBSCAN| | 邏輯回歸(Logistic Regression)| XGBoost/LightGBM| | | 神經網路(Neurel Network)| | | 五、資料前處理 提升模型效能,處理不完整或不乾淨的資料。 常見: * 缺失值填補(補0、平均數、中位數、預測) * 標準化與正規化(Standardization/Normalization) * 類別型資料編碼(Label Encoding,One-hot Encoding) * 特徵工程(Feature Engineering) 六、時間序列分析 針對時間性資料進行趨勢預測。 常見: * 移動平均(Moving Average) * 指數平滑法(Exponential Smoothing) * ARIMA/SARIMA模型 * Prophat(Meta提供的時間序列工具) 七、績效評估與報告 衡量分析或模型的效果,產出報告支援決策。 指標: * 準確率(Accuracy)、精確率(Precision)、召回率(Recall) * MSE、RMSE、MAE(回歸誤差指標) * 混沌矩陣(Confusion Matrix) * A/B測試結果分析
{"title":"0521-數據分析(Data Analysis)","description":"一、探索性資料分析(EDA,Exploratory Data Analysis)","contributors":"[{\"id\":\"e73b3ccf-da42-4561-b145-4f07585e2f54\",\"add\":4748,\"del\":1243}]"}
Expand menu