注意 : 個人筆記 勿嘴 歡迎編輯
在電腦編程中,pandas是Python程式語言的用於資料操縱和分析的軟體庫。特別是,它提供操縱數值表格和時間序列的資料結構和運算操作。它是在三條款BSD許可證下發行的自由軟體。它的名字衍生自術語「縱橫資料」(panel data),這是計量經濟學的資料集術語,它們包括了對同一個體的在多個時期上的觀測。它的名字還可解釋為短語「Python data analysis」自身的文字遊戲。
引入pandas
pd.Series([list])
pd.Series([list],[index])
data.dtype
data.size
data.index
data[]
(從0開始)data[""]
data.max()
data.min()
data.sum()
data.mean()
data.median()
data.std()
data.nlargest(n)
data.nsmallest(n)
data+2
data-2
data*2
data/2
data==35
接下來會是關於字串 所以新增 str_data
str_data.str.upper()
str_data.str.lower()
str_data.str.len()
str_data.str.cat(sep=)
(使用 sep
設定串接符號)str_data.str.contains()
str_data.str.contains(,case=False)
str_data.str.replace(,)
pd.DataFrame([dictionary])
data.size
data.shape
data.index
data.columns
df[].value_counts()
data.iloc[]
(從0開始)data.loc[index]
data[]
直接用欄位名稱取得資料類型 :
Series
data[建立欄位名稱] = [list]
data[建立欄位名稱] = Series資料
df.rename(columns={"舊":"新"}, inplace = True)
inplace = True:不創建新的對象,直接對原始對象進行修改
建立一個條件list(長度相同) 裡面放bool
直接寫條件 例如使用
str.contains
來篩選含有 t name
條件 = data[判斷欄位]+比較
read_csv()
讀取一個CSV的檔案pd.to_numeric()
python