## 專題經驗分享 <!-- Put the link to this slide here so people can follow --> slide: https://hackmd.io/@lf7JfGIKQGmL7QpJ2jHHDw/Hk8L3uGtd --- 這份簡報的目的是 幫助大家找到自己的專題方向 --- ### Who am I? :cat2: ~黃詩芸~ ~中央資工碩剛畢業的菜鳥~ ~現在在中研院GIS中心擔任專任助理~ --- ### Outline :star: - 碩論專題經驗分享 - 實用資源整理 - 蔡老師來跟大家說幾句話 --- :fish: 有任何問題歡迎隨時發問~ --- ### 碩論經驗分享 :bread: --- #### 前情提要 :cactus: --- **REACHES** :earth_asia: [~網頁DEMO連結~](http://reaches.rcec.sinica.edu.tw/) [~論文連結~](https://www.nature.com/articles/sdata2018288) <font size=3pt>#Domain Know How #資料來源 #方法參考</font> --- REACHES Database <img src="https://i.imgur.com/FIuz14M.png" width="55%" height="55%"> <font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font> --- Source Data - 中國三千年氣象總集 <img src="https://i.imgur.com/9BCbbdw.jpg" width="30%" height="30%"> <font size=2pt>圖片來源: <I>三民網路書店</I></font> --- 原始資料分析 <img src="https://i.imgur.com/53JzLHE.png" width="60%" height="60%"> <font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font> --- 原始資料 <img src="https://i.imgur.com/FZsxshO.png" width="90%" height="90%"> <font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font> --- 資料分類 <img src="https://i.imgur.com/T2B7ePA.png" width="60%" height="60%"> <font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font> --- 統計分析 ![](https://i.imgur.com/nf6BQRZ.png) <font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font> --- <img src="https://i.imgur.com/Wry1dqk.png" width="60%" height="60%"> <font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font> --- ![](https://i.imgur.com/pHbC4Qy.png) <font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font> --- <img src="https://i.imgur.com/1zGzgnZ.png" width="80%" height="80%"> <font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font> --- #### Step 1 - 確認資料 :cactus: --- ![](https://i.imgur.com/lo8hnbg.png) --- #### Step 2 - 資料可以怎麼用? :cactus: --- **看看前輩們怎麼做?** [中國歷史氣候時空地圖](http://iisrserv.csie.ncu.edu.tw:5000/index) --- <p><font size=5pt> <b> 方法:</b> 文本前處理(遮罩年、月、日、數字等) 後, 將文字向量化、經 K-MEANS 演算法分群。 </font></p> <p><font size=2pt> 前處理例子: 「水,賑饑民四萬一千六百五十三口,給籽種麥三千一百九十四石七斗五升。」 →「水賑饑民n口給籽種麥n石n斗n升」 </font></p> <br> <font size=5pt> <p><b> 優點:</b> 非監督式演算法,不用人工標記資料、計算速度快...</p> <p><b> 缺點:</b> 須重複測試分群的數量、將每個群對應到目標類別時仍須人工</p> </font> </p> --- #### Step 3 - 專案規劃 :cactus: --- 從初版 Proposal 到碩論定稿 --- ##### 初版 Proposal --- **目標:** 取代分群方法最後需要人工比對每個群的動作。 --- ![](https://i.imgur.com/bn5RvOx.png) --- ##### 二版 Proposal --- **目標:** **1. 將注意力機制(\*)運用在文本的多標籤分類任務上,用來計算類別標籤和字元間的注意力程度** - 計算每個類別的特徵向量 → 用來計算注意力程度 - 利用注意力機制擷取出與各類別各自相關的關聯字列表 - 利用社群網路圖呈現各類別之間的關聯性 --- 像這樣 ↓ <img src="https://i.imgur.com/NKsW4KE.jpg" width="35%" height="35%"> --- 2. 視覺化呈現氣象類別之間的關聯性 --- ![](https://i.imgur.com/OU4B6IB.png) --- ![](https://i.imgur.com/aXUsWlj.png) --- ![](https://i.imgur.com/TtjmS9W.png) --- ##### 碩論定稿版 Research Process --- **目標:** 分析文本、探索搭配氣候模式資料進行研究的方法 --- <img src="https://i.imgur.com/fk5dzoK.png" width="80%" height="80%"> --- <img src="https://i.imgur.com/UxmMYCx.png" width="80%" height="80%"> --- <img src="https://i.imgur.com/3NoySZF.png" width="80%" height="80%"> --- #### 回到 Step 0 - 沒有資料怎麼辦? :cactus: --- :apple: 如果今天沒有 REACHES 的人工分類標記資料,有什麼替代方案可以達到分類的效果? 或是我們還能如何運用這份資料? (2選1) --- 缺乏標記資料是許多機器學習專案都會遇到的問題 這時候可以嘗試: - 自動/半自動化產生或增加標記資料 - 非監督式/半監督式學習 - 團結力量大、大家一起標(?) - 其他 --- 連未標記資料都沒有?該如何蒐集? - 上網找現成的 → [Paper With Code](https://paperswithcode.com/), [Kaggle Datasets](https://www.kaggle.com/datasets), [政府資料開放平台](https://data.gov.tw/), ... - 爬蟲 - 其他 <font size=3pt>※ 更重要的是要先充分了解手中資料的特性以及限制</font> --- #### 回到 Step -1 - 毫無頭緒怎麼辦? :cactus: ![](https://i.imgur.com/6CEB3sr.jpg) --- - [機器學習可以回答的問題有哪些 - 五種可以用機器學習回答的問題](https://brohrer.mcknote.com/zh-Hant/using_machine_learning/five_questions_data_science_answers.html) - [如何找出合適的機器學習演算法 - 挑選合適的演算法](https://brohrer.mcknote.com/zh-Hant/using_machine_learning/find_the_right_algorithm.html) --- :apple: 設定專題方向時,打算先從設計應用開始? (應用的定義:包含資料視覺化、資料分析、專門領域研究、網頁或手機APP...等等) 還是先從蒐集資料開始? 還是打算直接從技術研究面切入(例如: 分析 命名實體標記(NER) 方法的演進過程...等等)? --- 多聽 多看 多討論 - [G0V](https://g0v.tw/) - [Medium](https://medium.com/) --- :bird: ~休息一下~ --- #### Step 4 - 實驗/方法改良 :cactus: --- 首先介紹大名鼎鼎的 BERT ![](https://i.imgur.com/zR4BSBb.png) --- <img src="https://i.imgur.com/sUaf62t.png" width="60%" height="60%"> --- <img src="https://i.imgur.com/3tjOgWh.png" width="60%" height="60%"> --- <img src="https://i.imgur.com/bAlxz2B.png" width="60%" height="60%"> --- OK, 所以這樣可以幹嘛? --- <img src="https://i.imgur.com/NKsW4KE.jpg" width="35%" height="35%"> --- <img src="https://i.imgur.com/PdBT4C0.jpg" width="35%" height="35%"> --- <img src="https://i.imgur.com/XW4gM2G.jpg" width="35%" height="35%"> --- #### Step 5 - 實際應用/跨領域研究的難題 :cactus: --- 怎麼辦 ![](https://i.imgur.com/IwpfeB0.jpg) --- 看書 查資料 請教專家 --- 最後得到的結論: 先做最基礎能夠做到的分析工作開始做起 — 先從了解資料的統計特性開始 --- ![](https://i.imgur.com/VPT8R65.png) --- ![](https://i.imgur.com/br50KDe.png) --- ![](https://i.imgur.com/V8jmQV2.png) --- ![](https://i.imgur.com/FNhj04b.png) --- ![](https://i.imgur.com/glHcDeD.png) --- ![](https://i.imgur.com/16YBrv9.png) --- ![](https://i.imgur.com/130KJPS.png) --- ![](https://i.imgur.com/stvG0fJ.png) --- ![](https://i.imgur.com/wfRqyD4.png) --- ![](https://i.imgur.com/Cv1HRKO.png) --- ![](https://i.imgur.com/rbVKx92.png) --- ![](https://i.imgur.com/gcEP8YT.png) --- ![](https://i.imgur.com/pLyD2os.png) --- :apple: 根據目前 REACHES 的資料 (包含: 地理資訊、時間資訊(西元年)、文本內容、出處、分類結果) , 除了之前介紹的方法 - 還可能如何運用這些既有資料? - 還可以從文本內容中挖掘出什麼樣的資訊? (2選1) --- :bird: ~休息一下~ --- ### 實用資源整理 :bread: --- #### [學習資源] [資料集來源] [技術更新] #### [Paper With Code](https://paperswithcode.com/) --- #### [實用工具] #### [Git](https://git-scm.com/) #### [Github](https://github.com/) --- #### [實用工具] #### Python Notebook - Colab & Jupyter Notebook #### [Colab](https://colab.research.google.com/notebooks/intro.ipynb) #### [Jupyter Notebook](https://jupyter.org/) --- #### [資料集來源(?)] [學習資源] [應用實戰] #### [Kaggle Datasets](https://www.kaggle.com/datasets) #### [Kaggle Courses](https://www.kaggle.com/learn) #### [Kaggle Competitions](https://www.kaggle.com/competitions) --- #### [學習資源] #### [Hung-yi Lee](https://www.youtube.com/channel/UC2ggjtuuWvxrHHHiaDH1dlQ) {%youtube c9TwBeWAj_U %} --- #### [學習資源] [靈感來源(?)] #### [Medium](https://medium.com/) --- #### [資料集來源] #### [政府資料開放平台](https://data.gov.tw/) --- #### [應用範例-視覺化工具] #### [Plotly](https://plotly.com/python/) --- #### [學習資源] #### [Coursera](https://zh-tw.coursera.org/courses?query=free) --- #### [學習資源] #### [資料科學・機器・人](https://brohrer.mcknote.com/zh-Hant/) --- #### [學習資源] Data Science or Machine Learning? ###### 聽聽大神怎麼說↓ *(06:17-10:54)* :leaves: [Lee Meng's Blog](https://leemeng.tw/) {%youtube sCkn1PQciws%} --- :satellite: --- ### 蔡老師來跟大家說幾句話 :bread: <!-- --- --> <!-- :apple: :apple: :apple: 專題 Proposal/Workflow - Related work - 資料來源 - 定義任務類型 - 預計嘗試的演算法 - Rreference --> --- ### Thank you! :fish_cake: You can find me by e-mail: green780224@gmail.com
{"metaMigratedAt":"2023-06-16T00:35:57.266Z","metaMigratedFrom":"YAML","title":"Slide0728","breaks":true,"description":"View the slide with \"Slide Mode\".","contributors":"[{\"id\":\"95fec97c-620a-4069-8bed-0a49da31c70f\",\"add\":11574,\"del\":3917}]"}
    551 views