資料科學midterm

# 資料科學midterm ## 目錄 1. 資料分析與商業智慧 2. 資料倉儲 3. 資料探勘 4. 決策樹 5. 回歸 ## Gartner：2023年十大戰略技術趨勢 * 優化－優化企業的韌性、營運、可信度。 * 擴展－擴展垂直應用、交付方式、價值實現。 * 開拓－開拓生態圈應用、高韌性智慧、全新商業領域。 1. **數位免疫系統（Digital Immune System）** <details close> <summary> 詳細資料 </summary> 76% 負責數位產品的團隊現在還需要對營收負責，因此企業正在尋找新的實踐和方法，使其團隊能夠在實現高商業價值的同時，降低風險和提高客戶滿意度。因此，數位應用的可靠度成為企業的關鍵訴求，而數位免疫系統能夠滿足企業的這一個需求。數位免疫系統是一連串的技術與手法，透過可觀測性（Observability）、 AI 增強型測試（AI-Augmented Testing）、混沌工程（Chaos Engineering）、自我修復（Autoremediation）、站點可靠性工程（Site Reliability Engineering）和應用供應鏈安全（Apps Supply Chain Security）等技術，來大幅提高雲原生系統的韌性和穩定性 </details> 2. 可觀測性應用（Applied Observability） <details close> <summary> 詳細資料 </summary> 企業採取任何行動時，都會產生具備數位化特徵的可觀測數據，例如日誌、使用軌跡、API調用、停留時間、下載和文件傳輸等。可觀測性應用以一種高度統籌和整合的方式將這些可觀測的特徵數據進行處理，藉由“讓數據說話”，來創造出一個決策迴圈，讓企業快速地做決策來提升營運效率。 Gartner 認為可觀測性應用可以讓企業利用他們的數據特徵來獲得競爭優勢。它能夠讓企業在正確的時間藉由觀測數據來做決策，是一種強大的工具。如果能夠在戰略中予以規劃並成功執行，可觀測性應用將成為數據驅動型決策的最強大來源。 </details> 3. AI 信任、風險和安全管理（Trust, Risk and Security Management） <details close> <summary> 詳細資料 </summary> 許多企業未做好管理 AI 風險的充分準備。 Gartner 在美國、英國和德國開展的一項查顯示，41% 的企業曾經歷過 AI 隱私洩露或安全事件。但該調查也發現積極管理 AI 風險、隱私和安全的企業在 AI 專案中取得了更好的成果。與未積極管理這些功能的企業的 AI 專案相比，在這些企業中有更多的 AI 項目能夠從概念驗證階段進入到生產階段並實現更大的業務價值。 </details> 4. 產業雲平台（Industry Cloud Platforms） <details close> <summary> 詳細資料 </summary> 產業雲平台是支援特定產業（金融、製造、醫療等等）的公有雲平台。這些平台提供軟體服務（SaaS）、平台即服務（PaaS）和基礎設施即服務（IaaS）等服務，提供產業所需的應用場景的模組化能力。企業可以利用產業雲平台的服務，更快速的搭建基礎模組和實現數位業務，提升敏捷性和推動創新。Gartner 預測，到 2027 年，超過 50% 的企業將使用產業雲平台來加速他們的業務專案。 </details> 5. 平台工程（Platform Engineering） <details close> <summary> 詳細資料 </summary> 平台工程是一套機制和架構，將Infrastructure 服務化，讓軟體開發團隊在軟體交付業時能夠自助式的使用 Infrastructure 服務。過去開發團隊和 Infrastructure 壁壘分明，開發團隊求快但是 Infrastructure 團隊求穩，因此時常有摩擦。許多企業的 IT 部門均已在開發部門和 Infrastructure 部門之外，成立平台工程的部門，負責平台工程。平台工程能夠優化開發者體驗並加快產品團隊為客戶創造價值的速度。 Gartner 預測，到 2026 年，80% 的企業將建立平台工程團隊，其中 75% 將包含開發者自助服務的 Portal。 </details> 6. 無線技術價值實現（Wireless Value Realization） <details close> <summary> 詳細資料 </summary> 無線的技術（WIFI, 5G, Bluetooth, RFID, …）已經發展多年並已經非常成熟。但各個技術的適用場景不同，不可能有任何無線技術能夠佔據主導地位。企業應該訂定策略，善用各種無線解決方案來滿足辦公室、行動裝置服務、低功耗服務以及無線電連接等各種場景的需求，為企業帶來價值。Gartner 預測，到 2025 年，60% 的企業將同時使用五種以上的無線技術。網路的功能將不再僅限於純粹的連接，它們將使用內置的分析功能提供洞察，而某些新世代的低功耗系統（例如 Wiliot Pixel）甚至能夠從網路電波中獲取能量即可運作，不需任何外接電源。這意味著無線的技術將能夠實現創新的業務模式，創造商業價值。 </details> 7. 超級應用（Superapps） <details close> <summary> 詳細資料 </summary> 超級應用是一個集應用、平台和生態系統功能於一身的行動應用。它不僅有自己的功能而且還為第三方提供了一個開發和發佈微應用的平台。例如大陸的微信就是一個最顯著的成功案例，微除了是一個傳遞訊息的行動應用，也是一個生態系統和平台，有數十萬個第三方開發的微應用能夠安裝在微信內，為使用者提供食衣住行的各項服務。Gartner 預測，到 2027 年，全球 50% 以上的人口將成為多個超級應用的日活躍使用者。 Gartner 建議服務業開始評估超級應用的可行性，利用超級應用來搭建生態系統，取得先機並達成數位創新。 </details> 8. 自適應 AI（Adaptive AI） <details close> <summary> 詳細資料 </summary> 自適應 AI 系統透過不斷反覆訓練模型，自動使用新的數據進行學習，來迅速適應在最初開發過程中無法預見的現實世界變化。這些系統根據即時反饋，來動態調整它們的學習和目標，因此能夠適應外部環境快速變化，及企業目標的不斷變化。自適應 AI 能夠避免 AI 模型的偏移，而造成業務的負面影響。業界最著名的案例，是美國房地產公司Zillow 的慘痛教訓。Zillow 推出了 Zillow Offers 的線上服務，用 AI 來對房地產做線上即時報價。這項服務在初期很成功，對公司帶來了許多營收。但是由於疫情和市場變化，當初的 AI 模型開始偏移，但是 Zillow 渾然不知，繼續用遠高於市場行情的價格報價和購入房地產。最終的結果是 Zillow 虧損數十億美金，並終止 Zillow Offers 的業務。自適應 AI 能夠確保 AI 的持續精準性，避免類似問題。 </details> 9. 元宇宙（Metaverse） <details close> <summary> 詳細資料 </summary> Gartner 將元宇宙定義為一個由透過虛擬技術，將實體和數位現實融合而成的虛擬共享空間。這個空間具有持久性，能夠提供增強沉浸式體驗。 Gartner 預計完整的元宇宙將獨立於設備並且不屬於任何一家廠商。它將產生一個由數位貨幣和非同質化通證（NFT）推動的虛擬經濟體系。 Gartner 預測，到 2027 年，全球超過 40% 的大型企業將在基於元宇宙的專案中使用 Web3、增強現實（AR）雲和數位孿生的組合來增加收入。元宇宙仍需許多年才會趨於成熟（Gartner 的 Hype Cycle 認為需要十年以上）。即便沒有立即商機，企業仍需開始研究元宇宙的發展，並思考未來在元宇宙的商業模式。 </details> 10. 可持續性（Sustainability） <details close> <summary> 詳細資料 </summary> 可持續性貫穿 2023 年的所有戰略科技趨勢。在 Gartner 最近的一項調查中，執行長們表示環境和社會變化已成為投資者的三大優先事項之一，僅次於利潤和收入。這意味著為了實現可持續性目標，高階主管必須加大 ESG 相關技術和服務的投資力道。為此，企業需要新的可持續技術框架來提高 IT 服務的能源和材料效率，透過可追溯性、分析、可再生能源和人工智慧（AI）等技術實現企業的可持續發展，同時還要部署幫助客戶實現其可持續性目標的 IT解決方案。 </details> ### Lab1重點整理 #### markdown synx | Markdown | LaTeX | |-----------|----------| | $\sum$ | `\sum` | | $\int$ | `\int` | | $\lim$ | `\lim` | | $\frac{a}{b}$ | `\frac{a}{b}` | | $\sqrt{x}$ | `\sqrt{x}` | | $\approx$ | `\approx` | | $\neq$ | `\neq` | | $\infty$ | `\infty` | | $\times$ | `\times` | | $\div$ | `\div` | #### python mathlib ```python= plot([1,-2,3,0]) ``` ![](https://i.imgur.com/LWkM6AW.png) ```python= plot(0,0, marker='*', markersize=120, color= 'b', markeredgecolor='r', markeredgewidth = 5 ) ``` ![](https://i.imgur.com/a5ikTVH.png) #### Timing Code Execution: %timeit ```python= %timeit L = [n ** 2 for n in range(1000)] ``` ``` 783 µs ± 14.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each) ``` ## 1112_DS_BI_0221.pdf 概論 ### 企業內部資料應用問題 5V - Volume 保存、安全性 - Variety 一致性、可整合性 - Value 價值性 - Velocity 有效性 - Veracity 正確性 ### 商業智慧與資料探勘的循環 Business Intelligence Development Model (BIDM) $$ \begin{matrix} &商業活動 &\leftarrow &情報\\ &\downarrow & &\uparrow\\ &資料 &\rightarrow &探勘 \end{matrix} $$ ### 資料處理鏈 $$ 資料 \rightarrow 資料庫 \rightarrow 資料倉儲 \rightarrow 資料探勘 \rightarrow 資料視覺化 $$ ### 資料與變數 - 資料：各種數據分析應用觀察或測量的集合 - 變數：每個樣本可以測量或是描述的特徵。又分做獨立、相依變數。 ### 資料類型 - 類別尺度 - 名目資料：天氣晴朗、陰天、雨天 - 次序資料：癌症第一、二、三、四期 - 數量尺度 - 區間資料： - 沒有真正零點(True zero)。溫度15度 - 無法表示成倍數。溫度15度並不是溫度3度的五倍 - 比值資料： - 有真正零點(True zero)。年齡、身高、體重、血壓 - 不可以有負值。體重80公斤是40公斤的兩倍 - 二進位大型物件 ### 分位數 - 中位數 - 四分位數：第一、二、三四分位數 ### 箱型圖 - Outlier - Extreme value ### 關聯式資料庫 SQL - Primary key - Foreign key --- ### Confusion Matrix - True Positive - True Negative - False Positive - False Negative --- > [name=Chinococo]我覺得這些是最容易考的你覺得呢? > [name=Chinococo]吃飽了回家了:) > [name=KenChen]為什麼 > [name=Chinococo]這些東西比較好考手寫 > [name=KenChen]為什麼要吃飽回家，你吃什麼 > [name=Chinococo]永和豆漿w > [name=Chinococo]反正一定會有一題:決策樹(ID3/C4.5/CART) > [name=KenChen]ID3 > [name=KenChen]TPTNFPFN必考() > [name=Chinococo]這是一定的他有說要背 > [name=Chinococo]我繼續整理Data Mining > [name=Chinococo]有事用Discord 或者留言 :) 我覺得我們重點可能要放在 Data Mining - ![](https://i.imgur.com/pArYxk3.png) ![](https://i.imgur.com/bJU0axq.png) ![](https://i.imgur.com/GosKSCD.png) Regression - ![](https://i.imgur.com/rek0HNW.png) Deciosn tree - ![](https://i.imgur.com/rek0HNW.png) ![](https://i.imgur.com/QkGQZdt.png) ## 1112_DS_DW_0308.pdf ˙倉儲DW(Data Warehouse) ### Compare DW/DM ![](https://i.imgur.com/EXnkvQz.png) ### 定義資料倉儲就是一種經過優化的儲存過程，用來**儲存結構化的資料**，以進行後續**快速的資訊查詢**，及時提供商業決策依據。 1. 資料倉儲是一個以主題為導向、整合的、時序變化的、不可更新的數據集合，用於支援管理決策過程。 2. 它是以主題為導向的，例如員工、客戶、學生、病人、成就、產品、績效、條件等。 3. 它是整合的，具有一致的命名慣例、同義詞、格式和編碼結構，可以來自多個數據源，包括不一致的鍵結構、不一致的數據值和缺失的數據。 4. 它是時序變化的，可以研究趨勢和變化。 5. 它是不可更新的，只能進行讀取，定期進行刷新。 | 元素 | 描述 | | ------------ |:-------------------------------------------------------------------------------------------------------------------:| | 中央資料庫 | 標準的關聯式資料庫，可即時部署或在雲端執行。記憶體式運算資料庫也越來越受歡迎 | | 資料整合工具 | 從來源系統抓取資料後，進行修改以便快速分析消化。包括 ETL、ELT、即時資料複製、大量處理、資料轉換、資料品質及擴充服務 | | 後設資料 | 描述資料的資訊，說明資料集的來源、使用、價值及其他特徵 | | 資料存取工具 | 讓使用者與資料倉儲的資料互動，包括查詢與報告工具、應用程式開發工具、資料採集工具及 OLAP 工具 | ### DW開發方法 #### Top-Down **正規化的實體關聯模式(E-R Model)** ```mermaid graph LR; A[Datbas]-->D[DW_資料庫] B[excel]-->D C[txt]-->D D-->E[Data Mart1] D-->F[Data Mart2] D-->G[Data Mart3] ``` 1. 優點：資料具完整性、一致性； 2. 缺點：缺乏彈性，先建資料倉儲涉及整合企業異質性資料，需要花費更多的人力、財力與時間來建置。 #### Bottom-Up ```mermaid graph LR; A[Datbas]-->E A[Datbas]-->F A[Datbas]-->G B[excel]-->E B[excel]-->F B[excel]-->G C[txt]-->E C[txt]-->F C[txt]-->G E[Data Mart1]-->D[DW_資料庫] F[Data Mart2]-->D[DW_資料庫] G[Data Mart3]-->D[DW_資料庫] ``` 1. 優點：依特定需求建置資料超市，簡單快速低成本、較有彈性。 2. 缺點：不同的異質資料來源，經資料超市分別收集再整合至資料倉儲，可能會有不一致狀況，獨立性資料超市並不包含詮釋資料，使得資料倉儲整合困難。 #### Combined Approach >先就企業整體需求及資料模式進行規劃，再開發各部門資料超市，並將資料彙集至資料倉儲中。 ```mermaid graph LR; A[Datbas]-->D[Top-Down] B[excel]-->D C[txt]-->D D-->E[Data Mart1] D-->F[Data Mart2] D-->G[Data Mart3] E-->H F-->H G-->H[DW] ``` ### 資料倉儲的資料模式Data model #### 概要事實表格（Fact Table ）及多個維度表格（Dimension Table）。 ##### Fact Table #### Star Schema > 一個中心表格（事實表格）有大量不重複的資料，以及較小的附屬表格（維度表格）。(最常被使用) ![](https://i.imgur.com/jPjr1AG.png) #### Snowflake Schema > 雪花狀綱要是星狀綱要的變形，部份維度表格經正規化後，**進而分裂成新維度表格**。雪花綱要模式與星狀綱要模式最主要的差異，在於雪花模式的維度表格被 **正規化，以減少重複、容易維護及節省儲存空間**。 #### Fact Constellation Schema >事實星座綱要：以多個事實表格共用維度表格，使用到多個事實表格及需要不同階層的彙總資料。 ![](https://i.imgur.com/WPL1hZW.png) ### 資料倉儲的儲存架構(Data cube) 1. 是一種多維資料模型 2. 將經常會被查詢之資料，事先加以運算、彙總與儲存 3. 以立體多維資料結構，提供快速線上查詢與分析 ![](https://i.imgur.com/0itQN6R.png) ## 1112_DS_DM_0308.pdf 資料探勘 (Data Mining ) ### 重要相關代號 | 名稱 | 意義 | |:---------------------------------------------------------------------------------------- |:------------------------------------------------------------------------------- | | condition Positive(P) | 全部Position的數量 | | condition Negative(N) | 全部Negative的數量 | | True Positive(TP) | 正確預測(positive)的數量 | | True Negative(TN) | 正確預測(Negative)的數量 | | False Positive(FP) | 錯誤預測(positive)的數量 | | False Negative(FN) | 錯誤預測(Negative)的數量 | | Sensitivity/True Positive Rate(TPR) | $\frac{TP}{TP+FN}$ | | Specificity/True Negative Rate(TNR) | $\frac{TN}{TN+FP}$ | | precision/positive predictive value | $\frac{TP}{TP+FP}$ | | negaitive predictive value | $\frac{TN}{TN+FN}$ | | Accuarcy(acc) | $\frac{TP+TN}{all}$ | | **** F1 score **** (0~1 越接近 1 表示模型的性能越好) | $\frac{2 \cdot (precision \cdot recall)}{(precision + recall)}$ | | MCC(Matthews correlation coefficient)(MCC的值介於-1和1之間，值越接近1，表示模型性能越好) | $\frac{TP \cdot TN - FP \cdot FN}{\sqrt{(TP + FP)(TP + FN)(TN + FP)(TN + FN)}}$ | #### ROC 和 AUC > AUC(Area under Curve)：Roc曲线下的面积，介于0.1和1之间。Auc作为数值可以直观的评价分类器的好坏，值越大越好。 ![](https://i.imgur.com/unTcJp7.png) ![](https://i.imgur.com/uqLqIOG.png) ![](https://i.imgur.com/veFb6y7.png) ![](https://i.imgur.com/hElN1iw.png) #### AI Lerarning ##### Supervised Learning(監督學習) 有兩種主要的監督式學習問題：分類（Classification）和回歸（Regression）。 1. 其中分類是預測類別標籤的監督式學習問題 2. 回歸是預測數值標籤的監督式學習問題。 > ex:An example of a classification problem would be the MNIST handwritten digits dataset where the inputs are images of handwritten digits (pixel data) and the output is a class label for what digit the image represents (numbers 0 to 9). ##### Unsupervised Learning(非監督學習) 非監督式學習是指在機器學習中一種沒有標籤的學習方式，模型通過對數據的統計分析和模式識別，自行發現和學習數據的結構和特徵。在非監督式學習中，模型沒有指定目標變量或輸出變量，而是通過對輸入數據進行聚類、降維、概率密度估計等方法，尋找數據中的隱含關係和結構 > An example of a clustering algorithm is k-Means where k refers to the number of clusters ##### Reinforcement Learning(強化學習) 你會給他以個獎勵函式，AI會最大化獎勵訊號，AI沒被告知如何拿到獎勵函式，所以式靠不斷的嘗試 > Impressive recent results include the use of reinforcement in Google’s AlphaGo > Some popular examples of reinforcement learning algorithms include Q-learning, ##### Semi-Supervised Learning(半監督式學習) 在半監督式學習中，模型同時使用帶標籤和無標籤的數據，以學習更好的特徵表示和分類器。由於大量真實世界的數據通常是未標籤的，因此半監督式學習可以充分利用未標籤數據的信息，提高模型的表現。 > Many problems from the fields of computer vision (image data), natural language processing (text data), and automatic speech recognition (audio data) fall into this category and cannot be easily addressed using standard supervised learning methods. ##### Self-Supervised Learning(自我監督學習) > predict a color representation (colorization) or removing blocks of the image and have a model predict the missing parts (inpainting). > Another example of self-supervised learning is generative adversarial networks, or GANs (生成對抗網路). These are generative models that are most commonly used for creating synthetic photographs using only a collection of unlabeled examples from the target domain. ##### Multi-Instance Learning(多示例學習) ，這個bag裏面所有樣本的標記都是負的。當一個bag的標記爲正時，這個bag裏面至少有一個樣本的標記爲正。目標是學習得到一個分類器，使得對新輸入的樣本，可以給出它的正負標記。這樣的一類問題就是多示例問題。 ##### Inductive Learning(歸納學習) 從多個個例歸納出普遍性，再演繹到個例，例如大陸法案判決方式，先對過往的判例歸納總結出法律條文，再應用到實際案例進行判決。但是從有限的實際樣本，企圖歸納出普遍真理，傾向形而上，往往會不由自主地成為教條。若從嚴謹實驗方法去運用歸納推理當然沒有問題，但是在現實生活，可能會胡亂運用歸納推理，造成錯誤推論 (ex.看見幾個美女都和有錢人在一起就斷定全世界所有美女都是貪錢的、看見幾個中東人是恐怖份子就斷定了所有中東人都是恐怖份子)  歸納推理中的一個經典方法是Bayes決策，通過求解P(Y|X)=P(X|Y)P(Y)/P(X)得到從樣本X到類別Y的概率分佈P(Y|X)，進而使用P(Y|X)預測測試樣本的類別。 ## 1112_DS_DT1_0315.pdf 決策樹 (Decision Tree) ![](https://i.imgur.com/Uikb4Wk.png) ### ID3 $Entropy熵(S) =-(p_i*log2(p_i))$ $Information Gain(IG)=Entropy(S)-\sum(\frac{S_v}{S}*Entropy(S_v))$ ### ex ![](https://i.imgur.com/CDXvAtj.jpg) #### Psedo code ```python= def split_tree(Data,前提): Data_Fliter by 前提 form Data; caluate Entropy in 前題 //Entropy熵(S) =-(p_i*log2(p_i)) calute Entropy(filter_id) in 前提 // P(filter_id|前提) * P(正確的機率|filter_id and 前提)*log2(P(正確的機率|filter_id and 前提) find Entropy 最小代表效益最高 split_tree(Data,filterid+前提) for fliter_id in all fliter except 前提 ``` $E(S) = \frac{9}{14}*log_2{\frac{9}{14}}$ $E(S|age) = \frac{5}{14}*\frac{2}{5}*log_2{\frac{5}{14}} + \frac{4}{14}*\frac{3}{5}*log_2{\frac{5}{14}}+\frac{4}{14}*\frac{3}{4}*log_2{\frac{3}{4}}$ ### CART <details close> <summary> Ex Data </summary> | Income | Lot_Size | Ownership | | ------ | -------- |:--------- | | 60.0 | 18.4 | owne | | 85.5 | 16.8 | owner | | 64.8 | 21.6 | owner | | 61.5 | 20.8 | owner | | 87.0 | 23.6 | owner | | 110.1 | 19.2 | owner | | 108.0 | 17.6 | owner | | 82.8 | 22.4 | owner | | 69.0 | 20.0 | owner | | 93.0 | 20.8 | owner | | 51.0 | 22.0 | owner | | 81.0 | 20.0 | owner | | 75.0 | 19.6 | non-owner | | 52.8 | 20.8 | non-owner | | 64.8 | 17.2 | non-owner | | 43.2 | 20.4 | non-owner | | 84.0 | 17.6 | non-owner | | 49.2 | 17.6 | non-owner | | 59.4 | 16.0 | non-owner | | 66.0 | 18.4 | non-owner | | 47.4 | 16.4 | non-owner | | 33.0 | 18.8 | non-owner | | 51.0 | 14.0 | non-owner | | 63.0 | 14.8 | non-owner | </details> #### Step 1 Find midpoint between successive values ex: E.g. first midpoint is 14.4 (halfway between 14.0 and 14.8) ![](https://i.imgur.com/a3TkEOP.png) ![](https://i.imgur.com/6sJSCe4.png) #### GI GI(A) = 1 - $\sum_{k=1}{m}P_k^2$ >Max value when all classes are equally represented (= 0.50 in binary case) ## 1112_DS_Regression_0412.pdf Regression (迴歸) ### 關係 > https://ithelp.ithome.com.tw/articles/10268453 ![](https://i.imgur.com/qteqi3D.png) ![](https://i.imgur.com/k2iL5cQ.png) ![](https://i.imgur.com/MbtKMcC.png) ![](https://i.imgur.com/U0xbpH9.png) ### 羅吉斯迴歸分析(Logistic regression, logit model) ![](https://i.imgur.com/bCzXFc2.png) ![](https://i.imgur.com/WwfldpE.png) $$ \ln\frac{p}{1-p}=f(x)\\ e^{f(x)}=\frac{p}{1-p}\\ (1-p)e^{f(x)}=p\\ e^{f(x)}-pe^{f(x)}=p\\ p+pe^{f(x)}=e^{f(x)}\\ p(1+e^{f(x)})=e^{f(x)}\\ p=\frac{e^{f(x)}}{1+e^{f(x)}}=\frac{1}{1+e^{-f(x)}} $$ [//]: # (哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈) # 題目 1. (10%) (a) 可以簡單說明資料處理鏈(五個主要模組)? (b) 資料可以分為哪五種資料類型? (c) 可以說明什麼是真實零值(True Zero)? (d) 舉例任一種資料類型具有真實零值(True Zero)的特徵。 2. (10%) (a) 如何區分Data Warehousing和Data Mart? (b) 資料倉儲(Data Warehousing)有幾種主要綱要? 3. (20%) (a) 使用TP/TN/FP/FN定義靈敏度Sensitivity(=Recall rate)、精確率(Precision rate)、特異度(Specificity)、正確率(Accuracy)、F1-score。 (b) 請定義"Entropy"和"Gini"指標。 4. (30%)養生會館將新聘健康保養人員學習如何透過決策樹的建議給予保養品，過去有經驗的醫師所提供保養品紀錄如下。 (a) 請由此資料集建立一棵決策樹並將決策樹畫出來。 (b) 若有第一位新來的各戶年齡50歲，血壓狀態是屬於正常範圍，應該建議哪一類的保養品? (c) 若有第二位新來的客戶年齡62歲，血壓狀態是屬於高的狀況，應該建議哪一類的保養品? 5. (30%) (a) 計算下列線性回歸方程式?(使用甲蟲的重量預測它的尺寸大小) (b) 請問甲蟲的重量和尺寸的相關係數是多少? (c) 請問該縣性回歸方程式的預測表現如何? 可以從該預測模型計算goodness of fit ($R^2$)的數值進行分析。 # 解答(不知道對不對) 1. (10%)\ (a) 資料 -> 資料庫 -> 資料倉儲 -> 資料探勘 -> 資料視覺化\ (b) 名目(Nominal)、次序(Ordinal)、區間(Interval)、比值(Ratio)、二進位大型物件(BLOB)\ (c) 真實零值(True Zero)是指只要某個特徵為零就代表不存在，相對於溫度，就算溫度是零度，也是一種溫度。\ (d) 質量、長度、數量。 2. (10%)\ (a) 如何區分Data Warehousing和Data Mart?\ (b) 資料倉儲(Data Warehousing)有幾種主要綱要? 3. (20%)\ (a) 使用TP/TN/FP/FN定義靈敏度Sensitivity(=Recall rate)、精確率(Precision rate)、特異度(Specificity)、正確率(Accuracy)、F1-score。\ (b) Entropy: $H(T)=-\sum\limits_{i=1}^{n}p_i\log_2p_i$ Gini: $I_G(p)=1-\sum\limits_{i=1}^{n}p_i^2$。 4. (30%)養生會館將新聘健康保養人員學習如何透過決策樹的建議給予保養品，過去有經驗的醫師所提供保養品紀錄如下。\ (a) 請由此資料集建立一棵決策樹並將決策樹畫出來。\ (b) 若有第一位新來的各戶年齡50歲，血壓狀態是屬於正常範圍，應該建議哪一類的保養品?\ (c) 若有第二位新來的客戶年齡62歲，血壓狀態是屬於高的狀況，應該建議哪一類的保養品? 5. (30%)\ (a) 計算下列線性回歸方程式?(使用甲蟲的重量預測它的尺寸大小)\ (b) 請問甲蟲的重量和尺寸的相關係數是多少?\ (c) 請問該縣性回歸方程式的預測表現如何? 可以從該預測模型計算goodness of fit ($R^2$)的數值進行分析。 ![](https://i.imgur.com/kRfVpZs.png)