Jambo
    • Create new note
    • Create a note from template
      • Sharing URL Link copied
      • /edit
      • View mode
        • Edit mode
        • View mode
        • Book mode
        • Slide mode
        Edit mode View mode Book mode Slide mode
      • Customize slides
      • Note Permission
      • Read
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Write
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Engagement control Commenting, Suggest edit, Emoji Reply
    • Invite by email
      Invitee

      This note has no invitees

    • Publish Note

      Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

      Your note will be visible on your profile and discoverable by anyone.
      Your note is now live.
      This note is visible on your profile and discoverable online.
      Everyone on the web can find and read all notes of this public team.
      See published notes
      Unpublish note
      Please check the box to agree to the Community Guidelines.
      View profile
    • Commenting
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
      • Everyone
    • Suggest edit
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
    • Emoji Reply
    • Enable
    • Versions and GitHub Sync
    • Note settings
    • Note Insights New
    • Engagement control
    • Make a copy
    • Transfer ownership
    • Delete this note
    • Save as template
    • Insert from template
    • Import from
      • Dropbox
      • Google Drive
      • Gist
      • Clipboard
    • Export to
      • Dropbox
      • Google Drive
      • Gist
    • Download
      • Markdown
      • HTML
      • Raw HTML
Menu Note settings Note Insights Versions and GitHub Sync Sharing URL Create Help
Create Create new note Create a note from template
Menu
Options
Engagement control Make a copy Transfer ownership Delete this note
Import from
Dropbox Google Drive Gist Clipboard
Export to
Dropbox Google Drive Gist
Download
Markdown HTML Raw HTML
Back
Sharing URL Link copied
/edit
View mode
  • Edit mode
  • View mode
  • Book mode
  • Slide mode
Edit mode View mode Book mode Slide mode
Customize slides
Note Permission
Read
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Write
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Engagement control Commenting, Suggest edit, Emoji Reply
  • Invite by email
    Invitee

    This note has no invitees

  • Publish Note

    Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

    Your note will be visible on your profile and discoverable by anyone.
    Your note is now live.
    This note is visible on your profile and discoverable online.
    Everyone on the web can find and read all notes of this public team.
    See published notes
    Unpublish note
    Please check the box to agree to the Community Guidelines.
    View profile
    Engagement control
    Commenting
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    • Everyone
    Suggest edit
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    Emoji Reply
    Enable
    Import from Dropbox Google Drive Gist Clipboard
       Owned this note    Owned this note      
    Published Linked with GitHub
    • Any changes
      Be notified of any changes
    • Mention me
      Be notified of mention me
    • Unsubscribe
    # 稿子 主題:你可以賺多少錢? ## 開場白 ## 數據集 我們使用的數據集是SRDA網站提供的家庭動態調查的2020年的調查數據。這個調查每兩年對目標家庭做追蹤調查,採用上門訪問或電話訪問的方法,並且會錄音。問卷會調查工作,生活,婚姻,家庭等方面的情況。他包含5千比原始資料,相比政府的直接放出的數據,這個數據集更加完整,更加有價值。 這個調查雖然是追蹤調查,但我們這裡只使用了 2020 年次的調查結果。 ### QA ## 數據預處理 因為數據集的資料實在是太多了,其中會包含一些不符合我們條件的資料,比如我們想要的是在職人員,但是數據集中包含了退休人員,學生等等。所以我們需要對數據集進行預處理,把不符合我們條件的資料去除掉。 (下) ### 篩選 因為數據集包含了所有問題的結果,而我們只需要工作和部分生活相關的問題,所以我們需要把我們想要的問題選出來。 (下) 接下來根據我們的需要把有用的資料篩選出來。其中 6, 96, 996 這類數據是指沒有我們需要數據的回答,所以我們需要把這些數據去除掉。 (下) 然後根據我們篩選後的資料做一些整理和補充。比如對於收入數據,有的人沒有提供具體的數據,只有一個範圍。我們就把他的收入數據設置為範圍的中位數。 (下) 我們還需要把現有的數據整理成適合我們分析的數據。比如工作地點,數據集提供的地點精確到了鄉鎮,但我們並不需要這麼精確的地點,所以我們需要把地點整理成縣市。 而對於工作年齡,追蹤調查確實是有關於第一次工作的問題,但對於之前已經問過這個問題,並且有有效的數據的調查對象,他不會再問。因此如果要獲得這一部分的精確數據,我們需要把之前的調查結果找出來,然後把這些數據補充到我們的數據集中。這樣的工作量對於我們的時間來說是不太現實的,所以我們只能先理想的假設,所有人畢業後能立刻得到工作。 (下) ## 特征(接下來我們來看一下我們過濾出的各種數據和收入的關係) ### 收入四分位數 這張圖是數據集裡面的全部人收入分佈,我們可以觀察到,收入的差距非常的大,少部分人的收入比大部分人的收入還要多的的多。這張圖恰好展現了八二法則。例如就是一個國家裡面20%的人掌握著這個國家80%的財產,20%的人還可以再繼續用八二法則,也就是說,4%的人掌握著64%的財富。因為少部分的數據拉大了我們的數值,所以可能會對後續的分析造成影響,為了減少這個影響,我們對這個收入的數據整體取log。 ### ln收入四分位數 取log之後分佈圖就會長這樣。可以比較清楚的看到整體分佈,並且數據的差距不會這麼大,我們後續的也會以取log的分析為主。但為了避免這兩段離群點對後續的分析造成影響,所以再把兩端的離群點給去除。為什麼去log,因為數據實在是太大了因為相形圖最高值數值實在是太大了而大部分人的收入又相比最大直小很多,所以相形圖被最高值壓很多,看不出數值到底是多少 現在我們留下了3332個數據 ### 學歷與收入 這個叫小提琴圖。這是學歷和收入的關係圖。這些分類中哪些收入的人會比較多,那些會比較少,這些數據是按照學歷的高低進行排序,黑點是數據集裡頭每個人的收入,藍色色塊是這些收入的分佈情況。透過藍色的部分可以比較清晰的看到:科大相對於大學來說,平均收入會比較低(看藍色最胖的地方)。從黑點的數量我們可以看到,科大和大學畢業的人數最多 ### 工作地點與收入 這張圖顯式了各個城市的人的收入分佈情況,x 軸的城市是每個城市收入的中位數進行排序。看這張圖的時候我們先忽略幾個數據量比較少的城市,像澎湖只有三個點,連江縣只有兩個點。可以看到新竹的收入中位數是最高的,並且收入的分佈是比較平均的,因為藍色部分的小提琴圖相對來說是比較瘦長。 而相對的雖然新北市的最高收入似乎高於新竹市,但是新北市大部分人的收入還是集中在 20k~50k,因為在那個區間裡,小提琴圖顯得比較胖 ### 性別與收入 在我們的清理過的數據集中,男女比例大約是6:4 。看圖可以看出來男性收入相對於女性來說比較分散,而且都是往收入高的地方分散,所以男性高收入也有一定的比例。女性比較集中,並且從圖上可以看到男性的平均收入要比女性高(藍色色塊最胖的地方),男性的最高收入比女性高,低的地方還比女性還要窄(藍色部分)而且在收入10萬以上的人群中,男性的佔比也有不少。而女性則集中在 2萬5到7萬5之間。最後我們可以透過這張圖知道男性和女性的收入有顯著的差距 (問題:為什麼都是一條線一條線而不是平均的點?答:因為調查的結果都是精確到幾萬或幾千,(像25萬,3萬)所以他的數據點的會集中在一條水平線上,而不是分散的,一條線旁邊會有一小坨的點是因為寬度不夠被擠過去的。)男性的收入比較分散,所以收入比較高還是佔有一定的比例。(mean是平均,std是標準差)標準差越大,數據越分散,相反標準差越小,數據越集中 問題2:這是什麼原因造成的? 答:這不是我們今天的主題(就是一定要有個人照顧家庭,只是女性相對於男性比較放不下家庭) ### 受教育年限與收入 我們將受教育年限與收入的數據畫成點圖。可以看到受教育年限小於7年的人群的收入,最高只有不到6萬。高收入人群的受教育年限主要集中在10~30年之間,至少是高中學歷。而受教育年限大於30年的部分,似乎還有呈現負相關的關係。10~30年的數據看不出明顯的關係 ### 工齡與收入 這張圖只能看到不同人的工齡與工資的關係。沒有辦法很明確的說明他們直接是否有相關。因為這些點都是不同人的數據,每個人的數據都有很多因素干擾。我們使用的數據集是家庭追蹤調查,通過整合過去的數據資料,應該是有辦法獲得一個人的工資隨與時間的關係。但礙於時間和精力,我們沒有去做這一部分的分析。但相對來說可以看出來,工齡在一定時間之後會呈現反比。有其他人做過類似分析,大致上是呈現開口朝下的拋物線,收入隨著時間增多而增多,但速率會往下掉,直到50歲左右,收入會開始減少,大概呈現二次曲線的樣子。 ### 身高體重與收入 最後,我們可以看看身高體重與收入有沒有關聯。但看上去似乎並沒有很強的關聯性,只有最兩邊的極端情況似乎能看出些正相關或負相關。 ## 回归 我們已經把數據都清理乾淨了,我們現在想要找出收入和其他因素的關係。 這裡,我們找到了一個關於收入的方程。它主要描述的是收入與工作經驗和學習時間的關係。 它假定收入與學習時間成正比,而與工作年限是呈現二次曲線的關係,代表收入的增長速度可能會隨著工作年限的增長而減緩。而到一定年齡後,收入可能會開始下降。 其中,w 代表收入,s 代表學習時間,x 代表工作時間。w0 是個常數,代表沒有接受教育,沒有工作經驗的人的收入。 我們用之前的數據來使用這個方程進行回歸,得到了以下參數。 (下) 把這個方程畫出來,可以看到一個比較平滑的曲線。這就是我們擬合出來的收入方程。 但這個收入似乎有點太低了,我們計算這個方程的 R 方。 (下) 只有不到 0.1,這代表這個方程只能解釋不到 10% 的數據。這個方程的效果並不好。 (下) 因為僅僅兩個連續參數遠遠無法解釋收入的變化。比如受了 16 年教育的人,相比受了 15 年教育的人,收入可能會有很大的差距。因為前者可能已經完成了大學學位,而後者只有高中學歷。 (下) 對於這種類別類型的數據,我們需要把他轉換成獨熱編碼。把每個分類都轉換成一個特徵,如果這個特徵是這個分類,那麼這個特徵的值就是 1,否則就是 0。 (下) 這樣我們就可以把這些類別的數據加入到我們的方程中。而對於連續的數據,我們對他們都再加入一個平方項,進行二次多項式擬合。 (下) 最終,我們得到了一個更加複雜的方程。這個方程的 R 方是 0.6,比之前的方程好了很多。下面來看一下各個參數中,哪些的權重比較大。 ### QA > 為什麼沒有參數的數值 訓練出來的參數中,類別參數,比如學歷,行業大多都是的負數,而連續參數的權重相對更小,並且常數項是很大的正數。似乎沒有明顯的可解釋性,可能是因為數據量太少,並且職業、行業的分類過於詳細,導致每個分類的數據量更少,可能會存在過擬合的情況。 > ## 隨機森林 隨機森林是一種經典的機器學習模型。他通過隨機的方式建立多棵決策樹,在訓練的過程中,每棵樹都會隨機的選擇一部分數據來進行訓練、擬合。而在預測時,每棵樹都會對輸入進行預測,最後再對所有樹的預測結果進行統計,得到最終的預測結果。 我們用同樣的參數來訓練一個200顆樹的隨機森林,得到的 R 方是 0.9. 接下來,我們看一下模型中,各個特徵的重要性。不過要說明的是,這裡的重要性是指在這個模型中,各個特徵對於預測的影響程度,而不是這個特徵本身的重要性。 如果一個產生很大負面效果的特征,相比產生較小正面效果的特征,呈現出的重要性更高。並且這裡的重要性是相對的,所以無法直接用結果的數字來解釋這個參數具體是如何影響預測的,以及他與最終結果的關係。 (下)

    Import from clipboard

    Paste your markdown or webpage here...

    Advanced permission required

    Your current role can only read. Ask the system administrator to acquire write and comment permission.

    This team is disabled

    Sorry, this team is disabled. You can't edit this note.

    This note is locked

    Sorry, only owner can edit this note.

    Reach the limit

    Sorry, you've reached the max length this note can be.
    Please reduce the content or divide it to more notes, thank you!

    Import from Gist

    Import from Snippet

    or

    Export to Snippet

    Are you sure?

    Do you really want to delete this note?
    All users will lose their connection.

    Create a note from template

    Create a note from template

    Oops...
    This template has been removed or transferred.
    Upgrade
    All
    • All
    • Team
    No template.

    Create a template

    Upgrade

    Delete template

    Do you really want to delete this template?
    Turn this template into a regular note and keep its content, versions, and comments.

    This page need refresh

    You have an incompatible client version.
    Refresh to update.
    New version available!
    See releases notes here
    Refresh to enjoy new features.
    Your user state has changed.
    Refresh to load new user state.

    Sign in

    Forgot password

    or

    By clicking below, you agree to our terms of service.

    Sign in via Facebook Sign in via Twitter Sign in via GitHub Sign in via Dropbox Sign in with Wallet
    Wallet ( )
    Connect another wallet

    New to HackMD? Sign up

    Help

    • English
    • 中文
    • Français
    • Deutsch
    • 日本語
    • Español
    • Català
    • Ελληνικά
    • Português
    • italiano
    • Türkçe
    • Русский
    • Nederlands
    • hrvatski jezik
    • język polski
    • Українська
    • हिन्दी
    • svenska
    • Esperanto
    • dansk

    Documents

    Help & Tutorial

    How to use Book mode

    Slide Example

    API Docs

    Edit in VSCode

    Install browser extension

    Contacts

    Feedback

    Discord

    Send us email

    Resources

    Releases

    Pricing

    Blog

    Policy

    Terms

    Privacy

    Cheatsheet

    Syntax Example Reference
    # Header Header 基本排版
    - Unordered List
    • Unordered List
    1. Ordered List
    1. Ordered List
    - [ ] Todo List
    • Todo List
    > Blockquote
    Blockquote
    **Bold font** Bold font
    *Italics font* Italics font
    ~~Strikethrough~~ Strikethrough
    19^th^ 19th
    H~2~O H2O
    ++Inserted text++ Inserted text
    ==Marked text== Marked text
    [link text](https:// "title") Link
    ![image alt](https:// "title") Image
    `Code` Code 在筆記中貼入程式碼
    ```javascript
    var i = 0;
    ```
    var i = 0;
    :smile: :smile: Emoji list
    {%youtube youtube_id %} Externals
    $L^aT_eX$ LaTeX
    :::info
    This is a alert area.
    :::

    This is a alert area.

    Versions and GitHub Sync
    Get Full History Access

    • Edit version name
    • Delete

    revision author avatar     named on  

    More Less

    Note content is identical to the latest version.
    Compare
      Choose a version
      No search result
      Version not found
    Sign in to link this note to GitHub
    Learn more
    This note is not linked with GitHub
     

    Feedback

    Submission failed, please try again

    Thanks for your support.

    On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?

    Please give us some advice and help us improve HackMD.

     

    Thanks for your feedback

    Remove version name

    Do you want to remove this version name and description?

    Transfer ownership

    Transfer to
      Warning: is a public team. If you transfer note to this team, everyone on the web can find and read this note.

        Link with GitHub

        Please authorize HackMD on GitHub
        • Please sign in to GitHub and install the HackMD app on your GitHub repo.
        • HackMD links with GitHub through a GitHub App. You can choose which repo to install our App.
        Learn more  Sign in to GitHub

        Push the note to GitHub Push to GitHub Pull a file from GitHub

          Authorize again
         

        Choose which file to push to

        Select repo
        Refresh Authorize more repos
        Select branch
        Select file
        Select branch
        Choose version(s) to push
        • Save a new version and push
        • Choose from existing versions
        Include title and tags
        Available push count

        Pull from GitHub

         
        File from GitHub
        File from HackMD

        GitHub Link Settings

        File linked

        Linked by
        File path
        Last synced branch
        Available push count

        Danger Zone

        Unlink
        You will no longer receive notification when GitHub file changes after unlink.

        Syncing

        Push failed

        Push successfully