###### tags: `資料分析` # Data Mining Data:something given, fact or pieces of information. 一般的研究: Selection:選擇資料來源與目標 Analysis:資料分析 ### Collection 收集資料 測站放置、人員溝通、儀器運送製作、⋯⋯ 高難度、高花費 資料來源範例 e.g. 阿波羅計劃、移動雷達TEAM-R、衛星 #### 資料匯入 Data EL * 萃取Extract:從資料庫裝挑選資料 * 轉置Transform:將資料處理並轉換成使用資料 * 載入Loading:載入某個區域 * 若是進行轉置,可能將資料篩選處理後,便難以分析其他相關資料,因此在匯入時建議不需轉置,先將資料匯入儲存中心 Data Warehouse ### Management 數據管理 #### 將所有的資料轉換為有價值的來源 同樣的格式 e.g.JPG vs RAW 詮釋資料的補充 e.g.比例尺 系統性的資料更正 e.g.突發資料失蹤情況 #### 資料清洗 Data Cleansing * 將資料庫中的資料歸類為可用或不可用,呈現可用的資料。 #### 資料採礦 Data Mining * 使用清洗好的資料,整理出自己需要做分析的資料。 * 釐清需求資料的定義,確認資料運用的方向與目標,使用所有乾淨可用的資料,透過邏輯判斷或交集等數學運算,整理出分析所需使用的資料。 ### Distributed 分享資料 Data management center 資料中心整理後分享 ### Visualization 資料可視化 #### 讓資料轉變為淺顯易懂的資料 ### FAIR Data #### 資料使用的原則 * Findable 找得到 * Accessible 拿得到 * Interoperable 看得懂 * Reusable 可再用 ### Data Mining #### 將資料進行統計、AI學習等轉換,將其轉為知識並被驗證和他人檢視 * 了解目的 * 搜集資料 * 整理資料 * 找出問題點 (pattern) * 提出假說解釋問題 * 提出證據驗證假說 * 發表知識 ### 資料分析 #### 資料分類 Classfication 主觀決定出分類,並將資料分類,透過已知資料的特徵和分類的結果,並為各類別統整合理的描述或模型,再用以對新資料分類。分析者作出人為主觀的分類。 #### 群集分析 Cluster Analysis 無監督式的分類,系統客觀的處理資料的特徵分類,將相同特徵的對象歸為一類,事後詮釋資料的意義。演算法做出系統客觀的分類。 #### 迴歸分析 Regression 透過統計值了解變數間的正負相關性,變數間有多種關係,如線性、對數⋯⋯。 #### 趨勢分析 Trend Analysis /時間序列分析 Time Series Analysis 相較迴歸分析考量時間先後與長短,從長時間的發展趨勢中,發現規律與趨勢。 #### 關聯法則 Association rule/ 順序型態分析 Sequential Pattern Analysis 尋找資料中事件的相關性,必須有一定的支持度與信賴度。順序型態分析與關聯分析的差異在於是否考量時間因素 #### 支持度 Support 即數學公式中的交集 P(A∩B),如在今年午後對流雨的事件中,同時下午後雷陣雨雨和打雷的次數有50%,即支持度50%。 #### 信賴度 Confidence 即數學中的條件機率 P(B∣A) OR P(A∣B),如確定打雷情況下同時下午後雷陣雨的機率,或是確定下午後雷陣雨的情形下打雷的機率。 #### 增益率 Lift 表示兩事件的相關性,Lift(A,B) = P(B|A)/P(B) = P(A|B)/P(A) 以條件機率除上原先機率(一事件佔總體數量多少)的期望值。 原先定義下: Lift <1 , negative correlation. Lift =1 , not correlation. Lift >1 , positive correlation. 在考量抽樣誤差下: Lift <0.8 , negative correlation. Lift >1.2 , positive correlation. Lift 0.8~1.2 , individual. 支持度越低,不代表關聯度越少。 當支持度極低P(A∩B),樣本數極高的情形下P(B),代表其增益率極大P(A∩B)/P(B)。 #### 預測分析 Prediction 預測資料的分類或發展趨勢,可透過歷史性資料建立模型,檢視近年觀察值變化,透過最新資料輸入,獲得未來變化的預測。 #### 異常分析 Outlier Analysis 尋找資料庫中非常例外的紀錄,用以淨化劣質和好或壞的分析。 #### 有效的資料分析 Effective Analysis * 數據支持:統計上具有顯著關聯 * 尚未得知:關聯並非已知的關聯 * 可以解釋:關聯必須有因果關係 #### Learn from data & Data Visualization & Treasure the data * citation 尊重資料的來源 ## Data Source ### Earthphysic Mars Insight http://namazu.unice.fr/marsview/?lang=en Global 3D https://www.pedagogie.ac-nice.fr/svt/productions/tectoglob3d/?urlsismo=https://namazu.unice.fr/EDUMEDOBS/seismo/seismogram/20181007_001148_M5.9_HAITI.zip&lang=en GNSS https://sideshow.jpl.nasa.gov/post/series.html ### Ocean TAO ARRAY https://www.pmel.noaa.gov/tao/drupal/disdel/ Mercator ocean EU https://www.mercator-ocean.eu/en/ Copernicus Services https://www.copernicus.eu/en
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up