## 專題經驗分享
<!-- Put the link to this slide here so people can follow -->
slide: https://hackmd.io/@lf7JfGIKQGmL7QpJ2jHHDw/Hk8L3uGtd
---
這份簡報的目的是
幫助大家找到自己的專題方向
---
### Who am I?
:cat2:
~黃詩芸~
~中央資工碩剛畢業的菜鳥~
~現在在中研院GIS中心擔任專任助理~
---
### Outline
:star:
- 碩論專題經驗分享
- 實用資源整理
- 蔡老師來跟大家說幾句話
---
:fish: 有任何問題歡迎隨時發問~
---
### 碩論經驗分享 :bread:
---
#### 前情提要 :cactus:
---
**REACHES**
:earth_asia:
[~網頁DEMO連結~](http://reaches.rcec.sinica.edu.tw/)
[~論文連結~](https://www.nature.com/articles/sdata2018288)
<font size=3pt>#Domain Know How #資料來源 #方法參考</font>
---
REACHES Database
<img src="https://i.imgur.com/FIuz14M.png" width="55%" height="55%">
<font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font>
---
Source Data - 中國三千年氣象總集
<img src="https://i.imgur.com/9BCbbdw.jpg" width="30%" height="30%">
<font size=2pt>圖片來源: <I>三民網路書店</I></font>
---
原始資料分析
<img src="https://i.imgur.com/53JzLHE.png" width="60%" height="60%">
<font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font>
---
原始資料
<img src="https://i.imgur.com/FZsxshO.png" width="90%" height="90%">
<font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font>
---
資料分類
<img src="https://i.imgur.com/T2B7ePA.png" width="60%" height="60%">
<font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font>
---
統計分析

<font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font>
---
<img src="https://i.imgur.com/Wry1dqk.png" width="60%" height="60%">
<font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font>
---

<font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font>
---
<img src="https://i.imgur.com/1zGzgnZ.png" width="80%" height="80%">
<font size=2pt>圖片來源: <I>Construction of the REACHES climate database based on historical documents of China</I></font>
---
#### Step 1 - 確認資料 :cactus:
---

---
#### Step 2 - 資料可以怎麼用? :cactus:
---
**看看前輩們怎麼做?**
[中國歷史氣候時空地圖](http://iisrserv.csie.ncu.edu.tw:5000/index)
---
<p><font size=5pt>
<b> 方法:</b>
文本前處理(遮罩年、月、日、數字等) 後,
將文字向量化、經 K-MEANS 演算法分群。
</font></p>
<p><font size=2pt>
前處理例子:
「水,賑饑民四萬一千六百五十三口,給籽種麥三千一百九十四石七斗五升。」
→「水賑饑民n口給籽種麥n石n斗n升」
</font></p>
<br>
<font size=5pt>
<p><b> 優點:</b>
非監督式演算法,不用人工標記資料、計算速度快...</p>
<p><b> 缺點:</b>
須重複測試分群的數量、將每個群對應到目標類別時仍須人工</p>
</font>
</p>
---
#### Step 3 - 專案規劃 :cactus:
---
從初版 Proposal 到碩論定稿
---
##### 初版 Proposal
---
**目標:**
取代分群方法最後需要人工比對每個群的動作。
---

---
##### 二版 Proposal
---
**目標:**
**1. 將注意力機制(\*)運用在文本的多標籤分類任務上,用來計算類別標籤和字元間的注意力程度**
- 計算每個類別的特徵向量 → 用來計算注意力程度
- 利用注意力機制擷取出與各類別各自相關的關聯字列表
- 利用社群網路圖呈現各類別之間的關聯性
---
像這樣 ↓
<img src="https://i.imgur.com/NKsW4KE.jpg" width="35%" height="35%">
---
2. 視覺化呈現氣象類別之間的關聯性
---

---

---

---
##### 碩論定稿版 Research Process
---
**目標:**
分析文本、探索搭配氣候模式資料進行研究的方法
---
<img src="https://i.imgur.com/fk5dzoK.png" width="80%" height="80%">
---
<img src="https://i.imgur.com/UxmMYCx.png" width="80%" height="80%">
---
<img src="https://i.imgur.com/3NoySZF.png" width="80%" height="80%">
---
#### 回到 Step 0 - 沒有資料怎麼辦? :cactus:
---
:apple:
如果今天沒有 REACHES 的人工分類標記資料,有什麼替代方案可以達到分類的效果?
或是我們還能如何運用這份資料?
(2選1)
---
缺乏標記資料是許多機器學習專案都會遇到的問題
這時候可以嘗試:
- 自動/半自動化產生或增加標記資料
- 非監督式/半監督式學習
- 團結力量大、大家一起標(?)
- 其他
---
連未標記資料都沒有?該如何蒐集?
- 上網找現成的 → [Paper With Code](https://paperswithcode.com/), [Kaggle Datasets](https://www.kaggle.com/datasets), [政府資料開放平台](https://data.gov.tw/), ...
- 爬蟲
- 其他
<font size=3pt>※ 更重要的是要先充分了解手中資料的特性以及限制</font>
---
#### 回到 Step -1 - 毫無頭緒怎麼辦? :cactus:

---
- [機器學習可以回答的問題有哪些 - 五種可以用機器學習回答的問題](https://brohrer.mcknote.com/zh-Hant/using_machine_learning/five_questions_data_science_answers.html)
- [如何找出合適的機器學習演算法 - 挑選合適的演算法](https://brohrer.mcknote.com/zh-Hant/using_machine_learning/find_the_right_algorithm.html)
---
:apple:
設定專題方向時,打算先從設計應用開始?
(應用的定義:包含資料視覺化、資料分析、專門領域研究、網頁或手機APP...等等)
還是先從蒐集資料開始?
還是打算直接從技術研究面切入(例如: 分析 命名實體標記(NER) 方法的演進過程...等等)?
---
多聽 多看 多討論
- [G0V](https://g0v.tw/)
- [Medium](https://medium.com/)
---
:bird:
~休息一下~
---
#### Step 4 - 實驗/方法改良 :cactus:
---
首先介紹大名鼎鼎的 BERT

---
<img src="https://i.imgur.com/sUaf62t.png" width="60%" height="60%">
---
<img src="https://i.imgur.com/3tjOgWh.png" width="60%" height="60%">
---
<img src="https://i.imgur.com/bAlxz2B.png" width="60%" height="60%">
---
OK, 所以這樣可以幹嘛?
---
<img src="https://i.imgur.com/NKsW4KE.jpg" width="35%" height="35%">
---
<img src="https://i.imgur.com/PdBT4C0.jpg" width="35%" height="35%">
---
<img src="https://i.imgur.com/XW4gM2G.jpg" width="35%" height="35%">
---
#### Step 5 - 實際應用/跨領域研究的難題 :cactus:
---
怎麼辦

---
看書
查資料
請教專家
---
最後得到的結論:
先做最基礎能夠做到的分析工作開始做起
— 先從了解資料的統計特性開始
---

---

---

---

---

---

---

---

---

---

---

---

---

---
:apple:
根據目前 REACHES 的資料 (包含: 地理資訊、時間資訊(西元年)、文本內容、出處、分類結果) ,
除了之前介紹的方法
- 還可能如何運用這些既有資料?
- 還可以從文本內容中挖掘出什麼樣的資訊?
(2選1)
---
:bird:
~休息一下~
---
### 實用資源整理 :bread:
---
#### [學習資源] [資料集來源] [技術更新]
#### [Paper With Code](https://paperswithcode.com/)
---
#### [實用工具]
#### [Git](https://git-scm.com/)
#### [Github](https://github.com/)
---
#### [實用工具]
#### Python Notebook - Colab & Jupyter Notebook
#### [Colab](https://colab.research.google.com/notebooks/intro.ipynb)
#### [Jupyter Notebook](https://jupyter.org/)
---
#### [資料集來源(?)] [學習資源] [應用實戰]
#### [Kaggle Datasets](https://www.kaggle.com/datasets)
#### [Kaggle Courses](https://www.kaggle.com/learn)
#### [Kaggle Competitions](https://www.kaggle.com/competitions)
---
#### [學習資源]
#### [Hung-yi Lee](https://www.youtube.com/channel/UC2ggjtuuWvxrHHHiaDH1dlQ)
{%youtube c9TwBeWAj_U %}
---
#### [學習資源] [靈感來源(?)]
#### [Medium](https://medium.com/)
---
#### [資料集來源]
#### [政府資料開放平台](https://data.gov.tw/)
---
#### [應用範例-視覺化工具]
#### [Plotly](https://plotly.com/python/)
---
#### [學習資源]
#### [Coursera](https://zh-tw.coursera.org/courses?query=free)
---
#### [學習資源]
#### [資料科學・機器・人](https://brohrer.mcknote.com/zh-Hant/)
---
#### [學習資源] Data Science or Machine Learning?
###### 聽聽大神怎麼說↓ *(06:17-10:54)* :leaves: [Lee Meng's Blog](https://leemeng.tw/)
{%youtube sCkn1PQciws%}
---
:satellite:
---
### 蔡老師來跟大家說幾句話 :bread:
<!-- --- -->
<!--
:apple: :apple: :apple:
專題 Proposal/Workflow
- Related work
- 資料來源
- 定義任務類型
- 預計嘗試的演算法
- Rreference -->
---
### Thank you! :fish_cake:
You can find me by e-mail:
green780224@gmail.com
{"metaMigratedAt":"2023-06-16T00:35:57.266Z","metaMigratedFrom":"YAML","title":"Slide0728","breaks":true,"description":"View the slide with \"Slide Mode\".","contributors":"[{\"id\":\"95fec97c-620a-4069-8bed-0a49da31c70f\",\"add\":11574,\"del\":3917}]"}