# 【資料之眼】
# 爬蟲、文字探勘與HackMD
<!-- Put the link to this slide here so people can follow -->

slide: https://hackmd.io/@chiahua/20191011
---
# 資料
# Data
----
## 數值資料的價值
# 可程式化
# 可再利用
Note:
網路原生世代,比較不會有用舊工具的思維在使用新工具
----
門牌 + 距離矩陣 = 步行環境推估
<iframe width="100%" height="520" frameborder="0" src="https://chiahua.carto.com/builder/169e09d7-7150-4061-be94-42d891a3170a/embed" allowfullscreen webkitallowfullscreen mozallowfullscreen oallowfullscreen msallowfullscreen></iframe>
----
隨機散佈點 + Google Maps = 步行時距推估
<iframe width="100%" height="520" frameborder="0" src="https://chiahua.carto.com/builder/f4698f64-e4cf-4f29-b6f4-62fe5c0dec2f/embed" allowfullscreen webkitallowfullscreen mozallowfullscreen oallowfullscreen msallowfullscreen></iframe>
----

----
只能看 v.s. 再利用
看個案 v.s. 看整體

----
推薦書單
1. 個案訪談:[小數據獵人](https://share.readmoo.com/book/721338)
2. 數據分析:[精準預測](https://share.readmoo.com/book/140256)
3. 量化統計:[如何衡量萬事萬物](https://share.readmoo.com/book/13987)
---
工具 V.S. 規模
<img src="https://i.imgur.com/r6g0YL1.jpg" height=400>
<img src="https://i.imgur.com/nUWQ8GV.jpg" height=400>
----

----
純手工
<iframe width="560" height="315" src="https://www.youtube.com/embed/Vujo2R6TwSs?start=66" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>
神人
---
# 3種不同工作階段的工具
```flow
st=>start: 資料蒐集(爬蟲)
e=>end: 公開發佈(HackMD)
op1=>operation: 資料處理(文字探勘)
st->op1->e
```
----
在開始之前… Code 很重要
<iframe width="560" height="315" src="https://www.youtube.com/embed/lETazz7rulE?start=158" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>
低調 + 低負荷
----
## 實例操作
---
# 什麼是爬蟲?
----
一種自動化工具
+ 減少重複作業的時間
+ 在網路上蒐集資料
----
世界上最大隻的爬蟲:Google
----
# 常見用途
1. 自動收集大量資料 ex: 2014至2015的降雨
2. 自動更新特定資料 ex: 即時降雨
----
# API
# Open Data
# 機器可讀
Note:
抓不到的、小付費解決時間問題→地籍土地所有權部資料服務API
----
# 程式語言
現在的程式語言不難學
推薦:Python、R
Note:
結合 Markdown,能輸出定期報告(PDF、doc)。
----
# 學習資源
+ [認識網路爬蟲](https://pala.tw/what-is-web-crawler/)
+ [陳鐘誠的網站](http://ccckmit.wikidot.com/py:main)
+ [大數學堂](https://www.largitdata.com/course_list/1)
+ [公務員開放資料 Lesson 1](https://paper.dropbox.com/doc/Lesson-1-ver1.0-5weLXtdNsnY9BeCAGzqZJ)
Note:
學習程式語言的技巧:先照抄程式碼,然後一行行執行。
從ptt抓資料畫關係網圖。
資料格式很重要。不要再用合併欄位了。
---
# 什麼是文字探勘?
----
在文章裡尋找模式
----
分詞、詞頻、詞性
----
<iframe width="560" height="315" src="https://newtalk.tw/news/view/2013-07-17/38244" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>
> 「出乎意料的是,《杜鵑鳥的呼喚》雖然是本推理小說,但在文字使用習慣上,反而比較接近J.K.羅琳的非偵探小說,而不像後面的3位推理小說家。」
----
# 水很深
Note:
文字雲有線上版,但更進一步的就涉及詞性、NLP等。
----
# 學習資源
+ [五月天人生無限公司歌詞分析](https://medium.com/pyladies-taiwan/%E4%BB%A5-jieba-%E8%88%87-gensim-%E6%8E%A2%E7%B4%A2%E6%96%87%E6%9C%AC%E4%B8%BB%E9%A1%8C-%E4%BA%94%E6%9C%88%E5%A4%A9%E4%BA%BA%E7%94%9F%E7%84%A1%E9%99%90%E5%85%AC%E5%8F%B8%E6%AD%8C%E8%A9%9E%E5%88%86%E6%9E%90-i-cd2147b89083)
+ [用 Jieba 做文字探勘](https://ithelp.ithome.com.tw/articles/10191759?sc=iThelpR)
+ [HTML5文字雲](https://wordcloud.timdream.org/)
---
# 什麼是 HackMD?
----
一個免費工具(歡迎贊助)
Markdown 簡單語法
快速發佈
多格式輸出
----
# Markdown
+ 手不必離開鍵盤,就能寫作及排版
+ 不必懂程式
+ 有離線編輯器,極輕量、讓你專注在內容
+ 推薦: [Typora](https://typora.io/) (windows/Mac)
+ 可輸出 doc 或 pdf 等不同格式
+ 手機或平板上也有各家 app
Note:
示範大小標、GA
----
# 快速發佈
輸入完成 = 發佈完成
可設定閱讀與編輯權限
可多人共筆
可留言討論
Note:
抽獎公告、手冊
----
# 多格式輸出
一次編輯後
+ 線上
+ 一般模式
+ 書本模式
+ 簡報模式
+ 離線
+ 直接下載 markdown 原檔
+ 或下載 html 檔
markdown 還可以直接轉 epub、PDF。
----
# 學習資源
+ [Markdown 易編易讀,優雅的寫文吧!](https://ithelp.ithome.com.tw/articles/10203758?sc=iThelpR)
+ [HackMD 使用教學手冊](https://hackmd.io/c/tutorials-tw/%2Fs%2Ftutorials-tw)
---
使用 IT 資通科技工具,解決真實世界的問題。
----
特定使用情境的學習門檻
## <font color="lightblue">easy</font>
> 理解模型與限制
----
通用情境的學習門檻
## <font color="red">hard</font>
> 需學習資料架構與程式語言
---
# +1
----

----

----

----

----

---
<table style="margin-left: auto; margin-right: auto;">
<tr>
<td>
<!--左侧内容-->
## Thank you! :sheep:
</td>
<td>
<!--右侧内容-->
### Who am I?
- 王佳樺
- 政府部門約聘人員
- Data Scientist
- R and GIS User
You can find me on
- [GitHub](https://https://github.com/chiahuaw)
- chiahua3@gmail.com
</td>
</tr>
</table>
{"metaMigratedAt":"2023-06-14T23:47:12.704Z","metaMigratedFrom":"YAML","title":"資料之眼:爬蟲、文字探勘與HackMD","breaks":true,"description":"資料處理工具介紹.","GA":"UA-5395127-4","slideOptions":"{\"allottedMinutes\":52,\"autoPlayMedia\":true}","contributors":"[{\"id\":\"71fb4a18-056e-4c4d-a134-922e05d956b1\",\"add\":5573,\"del\":3016}]"}