# 【資料之眼】 # 爬蟲、文字探勘與HackMD <!-- Put the link to this slide here so people can follow --> ![簡報連結](https://i.imgur.com/UHi0qk5.png) slide: https://hackmd.io/@chiahua/20191011 --- # 資料 # Data ---- ## 數值資料的價值 # 可程式化 # 可再利用 Note: 網路原生世代,比較不會有用舊工具的思維在使用新工具 ---- 門牌 + 距離矩陣 = 步行環境推估 <iframe width="100%" height="520" frameborder="0" src="https://chiahua.carto.com/builder/169e09d7-7150-4061-be94-42d891a3170a/embed" allowfullscreen webkitallowfullscreen mozallowfullscreen oallowfullscreen msallowfullscreen></iframe> ---- 隨機散佈點 + Google Maps = 步行時距推估 <iframe width="100%" height="520" frameborder="0" src="https://chiahua.carto.com/builder/f4698f64-e4cf-4f29-b6f4-62fe5c0dec2f/embed" allowfullscreen webkitallowfullscreen mozallowfullscreen oallowfullscreen msallowfullscreen></iframe> ---- ![商業案例](https://i.imgur.com/TRA6OSw.jpg) ---- 只能看 v.s. 再利用 看個案 v.s. 看整體 ![馬祖](https://i.imgur.com/iSgrudu.png) ---- 推薦書單 1. 個案訪談:[小數據獵人](https://share.readmoo.com/book/721338) 2. 數據分析:[精準預測](https://share.readmoo.com/book/140256) 3. 量化統計:[如何衡量萬事萬物](https://share.readmoo.com/book/13987) --- 工具 V.S. 規模 <img src="https://i.imgur.com/r6g0YL1.jpg" height=400> <img src="https://i.imgur.com/nUWQ8GV.jpg" height=400> ---- ![外星人專用鎚](https://i.imgur.com/Cs9C77j.jpg) ---- 純手工 <iframe width="560" height="315" src="https://www.youtube.com/embed/Vujo2R6TwSs?start=66" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> 神人 --- # 3種不同工作階段的工具 ```flow st=>start: 資料蒐集(爬蟲) e=>end: 公開發佈(HackMD) op1=>operation: 資料處理(文字探勘) st->op1->e ``` ---- 在開始之前… Code 很重要 <iframe width="560" height="315" src="https://www.youtube.com/embed/lETazz7rulE?start=158" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> 低調 + 低負荷 ---- ## 實例操作 --- # 什麼是爬蟲? ---- 一種自動化工具 + 減少重複作業的時間 + 在網路上蒐集資料 ---- 世界上最大隻的爬蟲:Google ---- # 常見用途 1. 自動收集大量資料 ex: 2014至2015的降雨 2. 自動更新特定資料 ex: 即時降雨 ---- # API # Open Data # 機器可讀 Note: 抓不到的、小付費解決時間問題→地籍土地所有權部資料服務API ---- # 程式語言 現在的程式語言不難學 推薦:Python、R Note: 結合 Markdown,能輸出定期報告(PDF、doc)。 ---- # 學習資源 + [認識網路爬蟲](https://pala.tw/what-is-web-crawler/) + [陳鐘誠的網站](http://ccckmit.wikidot.com/py:main) + [大數學堂](https://www.largitdata.com/course_list/1) + [公務員開放資料 Lesson 1](https://paper.dropbox.com/doc/Lesson-1-ver1.0-5weLXtdNsnY9BeCAGzqZJ) Note: 學習程式語言的技巧:先照抄程式碼,然後一行行執行。 從ptt抓資料畫關係網圖。 資料格式很重要。不要再用合併欄位了。 --- # 什麼是文字探勘? ---- 在文章裡尋找模式 ---- 分詞、詞頻、詞性 ---- <iframe width="560" height="315" src="https://newtalk.tw/news/view/2013-07-17/38244" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> > 「出乎意料的是,《杜鵑鳥的呼喚》雖然是本推理小說,但在文字使用習慣上,反而比較接近J.K.羅琳的非偵探小說,而不像後面的3位推理小說家。」 ---- # 水很深 Note: 文字雲有線上版,但更進一步的就涉及詞性、NLP等。 ---- # 學習資源 + [五月天人生無限公司歌詞分析](https://medium.com/pyladies-taiwan/%E4%BB%A5-jieba-%E8%88%87-gensim-%E6%8E%A2%E7%B4%A2%E6%96%87%E6%9C%AC%E4%B8%BB%E9%A1%8C-%E4%BA%94%E6%9C%88%E5%A4%A9%E4%BA%BA%E7%94%9F%E7%84%A1%E9%99%90%E5%85%AC%E5%8F%B8%E6%AD%8C%E8%A9%9E%E5%88%86%E6%9E%90-i-cd2147b89083) + [用 Jieba 做文字探勘](https://ithelp.ithome.com.tw/articles/10191759?sc=iThelpR) + [HTML5文字雲](https://wordcloud.timdream.org/) --- # 什麼是 HackMD? ---- 一個免費工具(歡迎贊助) Markdown 簡單語法 快速發佈 多格式輸出 ---- # Markdown + 手不必離開鍵盤,就能寫作及排版 + 不必懂程式 + 有離線編輯器,極輕量、讓你專注在內容 + 推薦: [Typora](https://typora.io/) (windows/Mac) + 可輸出 doc 或 pdf 等不同格式 + 手機或平板上也有各家 app Note: 示範大小標、GA ---- # 快速發佈 輸入完成 = 發佈完成 可設定閱讀與編輯權限 可多人共筆 可留言討論 Note: 抽獎公告、手冊 ---- # 多格式輸出 一次編輯後 + 線上 + 一般模式 + 書本模式 + 簡報模式 + 離線 + 直接下載 markdown 原檔 + 或下載 html 檔 markdown 還可以直接轉 epub、PDF。 ---- # 學習資源 + [Markdown 易編易讀,優雅的寫文吧!](https://ithelp.ithome.com.tw/articles/10203758?sc=iThelpR) + [HackMD 使用教學手冊](https://hackmd.io/c/tutorials-tw/%2Fs%2Ftutorials-tw) --- 使用 IT 資通科技工具,解決真實世界的問題。 ---- 特定使用情境的學習門檻 ## <font color="lightblue">easy</font> > 理解模型與限制 ---- 通用情境的學習門檻 ## <font color="red">hard</font> > 需學習資料架構與程式語言 --- # +1 ---- ![年齡分佈圖](https://i.imgur.com/2ypWs35.png) ---- ![動機文字雲1](https://i.imgur.com/HUUqAnX.png) ---- ![動機文字雲2](https://i.imgur.com/IghhXE8.png) ---- ![動機文字雲3](https://i.imgur.com/2bILKLw.png) ---- ![動機年齡分群](https://i.imgur.com/hOERevP.png) --- <table style="margin-left: auto; margin-right: auto;"> <tr> <td> <!--左侧内容--> ## Thank you! :sheep: </td> <td> <!--右侧内容--> ### Who am I? - 王佳樺 - 政府部門約聘人員 - Data Scientist - R and GIS User You can find me on - [GitHub](https://https://github.com/chiahuaw) - chiahua3@gmail.com </td> </tr> </table>
{"metaMigratedAt":"2023-06-14T23:47:12.704Z","metaMigratedFrom":"YAML","title":"資料之眼:爬蟲、文字探勘與HackMD","breaks":true,"description":"資料處理工具介紹.","GA":"UA-5395127-4","slideOptions":"{\"allottedMinutes\":52,\"autoPlayMedia\":true}","contributors":"[{\"id\":\"71fb4a18-056e-4c4d-a134-922e05d956b1\",\"add\":5573,\"del\":3016}]"}
    2063 views