# R語言資料清洗 R的常用的基本型態分為數值 (numeric)、字串 (character)、布林變數 (logic)以及日期 (Date)。 而R的資料結構則可分為向量 (vector)、因子 (factor)、列表 (list)、矩陣(matrix)、資料框(data.frame)和資料表(data.table)。 ## 了解資料檔結構 一般我們常先使用read.csv語法將資料檔讀進R中,後續則可以用以下常見的幾個函數,讓我們可以先快速瞭解整份資料的結構。 * **class()**: 資料的類別 * **dim()**: 資料維度(Dimension),此即資料的行數與列數 * **names()**: 各欄名稱 * **str()**: 每個欄的資料結構 * **summary()**:計算各變項包含最小值,最大值,分位數,平均值的統計值 * **glimpse()**:來自dplyr 套件,類似summary,但進一步一併顯示共幾筆資料,以及幾個變項欄位 * **head( [dataset], n=)** 預設為看前六筆資料,也可加上n=指定要顯示幾筆 * **tail( [dataset], n=)** 預設為看最後六筆資料,也可加上n=指定要顯示幾筆 ## 確認並處理遺失欄位值 在一般資料檔中,有特定欄位值遺失是很正常的事,遺失的資料值R會標記成NA,此時該行資料結構會改變。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up