題目: 離職率預測Input資料說明(共47個columns) 1. yyyy :代表年份,代表此筆資料裡的紀錄是某職員當年度資訊,以數字表示。從2014~2017 2. PerNo :職員編號,以數字表示,從1~8775號,中間有跳號 3. PerStatus : 預測目標,0 為未離職;1 為離職。 4. sex : 性別,0或1 5. 工作分類 : 1或2,猜測1為雇用人員,2為約聘人員 6. 職等 : 以數字表示,從1~8號,數字越小代表職位越大 7. 廠區代碼 : 以數字表示,從2~20號 8. 管理層級 : 以數字表示,從1~6號,數字越小代表職位越大 10. 工作資歷1 : 0或1,約有1/14的人有,是最少人有的,推測為博士證書,或是曾任主管階級職位 11. 工作資歷2 : 0或1,是最排名第4多的,推測是碩士證書 12. 工作資歷3 : 0或1,是最排名第2多的 13. 工作資歷4 : 0或1,是最排名第3多的 14. 工作資歷5 : 0或1,約有3/14的人有,是最排名第1多的,推測為英語執照 15. 專案時數 : 以數字表示,從0~25號,代表做專案總付出時間,大部分人落在20~23 16. 專案總數 : 以數字表示,從1~8號,代表做專案總專案數,分布平均 17. 當前專案角色 : 以數字表示,從1~5號,秘書型(Coordinator)/保姆型(Babysitter)/ 協助型(Assistant)/ 支配型(Dominator) 18. 特殊專案佔比 : 以數字表示,從0~15號,大部分為0或1,2以上佔少數,代表能力高低 19. 工作地點 : 以數字表示,從1~11號, 20. 訓練時數A : 以數字表示,從0~15號,代表行銷訓練 21. 訓練時數B : 以數字表示,從0~15號,代表專業技能訓練 22. 訓練時數C : 以數字表示,從0~15號,代表管理組織訓練 23. 生產總額 : 以數字表示,從0~100號,大部分人低於20,數字越高越少人 24. 榮譽數 : 以數字表示,從0~9號,代表對公司貢獻較大 25. 是否升遷 : 以數字表示,0代表沒有升遷,1代表有升遷 26. 升遷速度 : 以數字表示,從1~10號,數字越大越快 27. 近三月請假數A : 以數字表示,從0~15號,幾乎所有人都有請過假 28. 近一年請假數A : 以數字表示,從1~12號,幾乎所有人都有請過假 29. 近三月請假數B : 猜測是某種活動b,大部分為0,最高為4 30. 近一年請假數B : 同上活動 31. 出差數A : 國內出差數(較頻繁) 32. 出差數B : 國外出差數 33. 出差集中度 : 以數字表示,數字愈大,集中度愈高 34. 年度績效等級A : 最高為10分,拿A的頻率 35. 年度績效等級B : 最高為10分,拿B的頻率 36. 年度績效等級C : 最高為10分,拿C的頻率 37. 年齡層級 : 以數字表示,最高為13,愈高代表愈年長 38. 婚姻狀況 : 以年齡預測,1為已婚,2為未婚 39. 年資層級A : 管理層年資,每五年一個階層,5年以下 /5~10 /10~15 40. 年資層級B : 中階層年資 41. 年資層級C : 員工層年資 42. 任職前工作平均年數 : 同字面意思,平均年數 43. 最高學歷 : 空白為未知,1為高中,2為大學,3為研究所 44. 畢業學校類別 : 以數字表示,4為居多,猜測是普通大學,其餘則是科大等等 45. 畢業科系類別 : 需要計算哪些數字頻繁出現可以代表這些員工大部分的科系 46. 眷屬量 : 同字面意思,數量 47. 通勤成本 : 數字愈大則成本越高 48. 歸屬部門 : 數字編號 --------------------------------------------------- --------------------------------------------------- **資料分析常用語法 1.pandas .info() :顯示每個column資料總數以及型態 ![](https://i.imgur.com/46HrUy1.png) 2.pandas.head(n) :印出前n筆資料,也就是印出n筆row 3.pandas.describe() :印出每個column的統計資料,如平均值/標準差/最大最小值等等 ![](https://i.imgur.com/vQCE4e8.png) 4.pandas.column.unique(): 印出某column以不重複的元素總數 5.pandas.cloumn.value_counts(ascending=True/false):印出某column裡面的元素各自重複幾次 6.pandas.loc[cloumn].isna() :印出空白每個column裡面空白的資料個有幾個 7.sklearn.MinMaxScaler().fit_transform(array(不限維度)) :轉化資料使資料,縮放到一個指定的最大和最小值(通常是1-0)之間