# DS 百科 收錄資料科學(DS)的術語;按照英文字母序排列;提供比較詳盡的定義、實例、圖解、引註,術語之間有交互連結。 > [!Warning] 部分定義使用 ChatGPT 生成,但經過團隊成員人工改寫。 ## 目錄 [TOC] ## E ### ETL **ETL** 是「**提取、轉換、載入**」三個步驟的縮寫,這三個步驟是資料處理過程中的關鍵階段。ETL 是指將資料從多個來源提取出來,轉換為適合分析或儲存的格式,然後將其載入到資料倉庫或其他資料儲存系統中。以下是每個步驟的簡要說明: - **Extract(提取)**:從各種來源提取資料,這些來源可以是資料庫、CSV 文件、API 或其他系統。提取的目的是收集需要分析或處理的資料。 - **Transform(轉換)**:提取的資料可能格式各異,並且不一定符合分析需求。在轉換階段,資料會被清洗、整理和格式化。例如,刪除重複的資料、填補遺漏的值、轉換數據類型或合併來自不同來源的資料。 - **Load(載入)**:轉換後的資料被載入到目標系統中,通常是資料倉庫或數據湖。資料載入的目的是使資料可供分析和報告使用。 ## I ### Iris dataset **鳶尾花資料集**(Iris dataset)是機器學習領域最著名的數據集之一,最早由統計學家 Ronald A. Fisher 在 1936 年發表,常用來演示分類演算法。 #### 鳶尾花資料集的特點 - **樣本數**:150 - **特徵數**:4 個 1. 花萼長度(Sepal Length) 2. 花萼寬度(Sepal Width) 3. 花瓣長度(Petal Length) 4. 花瓣寬度(Petal Width) - **類別數**: - 山鳶尾(*I. Setosa*) - 變色鳶尾(*I. Versicolor*) - 維吉尼亞鳶尾(*I. Virginica*) - **適用任務**:[分類問題](https://hackmd.io/@learnai2024/mldl-encyclopedia#Classification) 鳶尾花資料集被廣泛用於初學者學習分類演算法,如 KNN、[SVM](https://hackmd.io/@learnai2024/mldl-encyclopedia#Support-vector-machine) 和[決策樹](https://hackmd.io/@learnai2024/mldl-encyclopedia#Decision-tree)等,也常用於演示數據可視化技術。 網誌:https://archive.ics.uci.edu/dataset/53/iris ## U ### UCI ML Repository **UC Irvine Machine Learning Repository**,簡稱 **UCI ML Repository**,是加州大學爾灣分校(UCI)創建的公共數據庫,提供多種機器學習資料集,供研究人員、學生和工程師使用。 網址:https://archive.ics.uci.edu/ #### UCI Repository 的特點 - 涵蓋分類、迴歸、分群等應用場景。 - 涉及醫療、金融、社會學等領域。 - 免費開放和標準化格式,並附有詳細的元數據描述。 - 適合教學、研究、競賽、演算法測試。 #### 著名的資料集 - [鳶尾花資料集](#Iris-dataset) - Adult - Wine - Breast Cancer Wisconsin
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up