HackMD - Collaborative Markdown Knowledge Base

題目: 離職率預測Input資料說明(共47個columns) 1. yyyy :代表年份，代表此筆資料裡的紀錄是某職員當年度資訊，以數字表示。從2014~2017 2. PerNo :職員編號，以數字表示，從1~8775號，中間有跳號 3. PerStatus : 預測目標，0 為未離職；1 為離職。 4. sex : 性別，0或1 5. 工作分類 : 1或2，猜測1為雇用人員，2為約聘人員 6. 職等 : 以數字表示，從1~8號，數字越小代表職位越大 7. 廠區代碼 : 以數字表示，從2~20號 8. 管理層級 : 以數字表示，從1~6號，數字越小代表職位越大 10. 工作資歷1 : 0或1，約有1/14的人有，是最少人有的，推測為博士證書，或是曾任主管階級職位 11. 工作資歷2 : 0或1，是最排名第4多的，推測是碩士證書 12. 工作資歷3 : 0或1，是最排名第2多的 13. 工作資歷4 : 0或1，是最排名第3多的 14. 工作資歷5 : 0或1，約有3/14的人有，是最排名第1多的，推測為英語執照 15. 專案時數 : 以數字表示，從0~25號，代表做專案總付出時間，大部分人落在20~23 16. 專案總數 : 以數字表示，從1~8號，代表做專案總專案數，分布平均 17. 當前專案角色 : 以數字表示，從1~5號，秘書型（Coordinator）/保姆型（Babysitter）/ 協助型（Assistant）/ 支配型（Dominator） 18. 特殊專案佔比 : 以數字表示，從0~15號，大部分為0或1，2以上佔少數，代表能力高低 19. 工作地點 : 以數字表示，從1~11號， 20. 訓練時數A : 以數字表示，從0~15號，代表行銷訓練 21. 訓練時數B : 以數字表示，從0~15號，代表專業技能訓練 22. 訓練時數C : 以數字表示，從0~15號，代表管理組織訓練 23. 生產總額 : 以數字表示，從0~100號，大部分人低於20，數字越高越少人 24. 榮譽數 : 以數字表示，從0~9號，代表對公司貢獻較大 25. 是否升遷 : 以數字表示，0代表沒有升遷，1代表有升遷 26. 升遷速度 : 以數字表示，從1~10號，數字越大越快 27. 近三月請假數A : 以數字表示，從0~15號，幾乎所有人都有請過假 28. 近一年請假數A : 以數字表示，從1~12號，幾乎所有人都有請過假 29. 近三月請假數B : 猜測是某種活動b，大部分為0，最高為4 30. 近一年請假數B : 同上活動 31. 出差數A : 國內出差數(較頻繁) 32. 出差數B : 國外出差數 33. 出差集中度 : 以數字表示，數字愈大，集中度愈高 34. 年度績效等級A : 最高為10分，拿A的頻率 35. 年度績效等級B : 最高為10分，拿B的頻率 36. 年度績效等級C : 最高為10分，拿C的頻率 37. 年齡層級 : 以數字表示，最高為13，愈高代表愈年長 38. 婚姻狀況 : 以年齡預測，1為已婚，2為未婚 39. 年資層級A : 管理層年資，每五年一個階層，5年以下 /5~10 /10~15 40. 年資層級B : 中階層年資 41. 年資層級C : 員工層年資 42. 任職前工作平均年數 : 同字面意思，平均年數 43. 最高學歷 : 空白為未知，1為高中，2為大學，3為研究所 44. 畢業學校類別 : 以數字表示，4為居多，猜測是普通大學，其餘則是科大等等 45. 畢業科系類別 : 需要計算哪些數字頻繁出現可以代表這些員工大部分的科系 46. 眷屬量 : 同字面意思，數量 47. 通勤成本 : 數字愈大則成本越高 48. 歸屬部門 : 數字編號 --------------------------------------------------- --------------------------------------------------- **資料分析常用語法 1.pandas .info() :顯示每個column資料總數以及型態 ![](https://i.imgur.com/46HrUy1.png) 2.pandas.head(n) :印出前n筆資料，也就是印出n筆row 3.pandas.describe() :印出每個column的統計資料，如平均值/標準差/最大最小值等等 ![](https://i.imgur.com/vQCE4e8.png) 4.pandas.column.unique(): 印出某column以不重複的元素總數 5.pandas.cloumn.value_counts(ascending=True/false):印出某column裡面的元素各自重複幾次 6.pandas.loc[cloumn].isna() :印出空白每個column裡面空白的資料個有幾個 7.sklearn.MinMaxScaler().fit_transform(array(不限維度)) :轉化資料使資料，縮放到一個指定的最大和最小值（通常是1-0）之間