--- title: 從維基百科截取infobo資料-以台語地名為例 tags: Templates, Talk description: View the slide with "Slide Mode". --- # 從維基百科截取infobo資料-以台語地名為例 <!-- Put the link to this slide here so people can follow --> slide: https://hackmd.io/lsUG-ZqbSJ6iqB8sNBFrVg --- 知識本體論 Noy and McGuinness(2001),https://protege.stanford.edu/publications/ontology_development/ontology101.pdf 1.知識本體中的類別(Classes); 2.安排分類體系中的類別(Subclass–Superclass); 3.定義屬性(Slot)和描述這些屬性的允許值; 4.給實例(Instance)填入屬性的值。 --- ## 我是啥人? - Supaplex - OpenStreetMap :heart: Wikidata :heart: - Wikimedia Taiwan :cat: Note: 網路上ê名號sī Supaplex,攏佇OpenStreetMap kah Wikidata 社群走傱 mā-sī 台灣維基協會ê理事 --- ## 名詞解釋 * 維基百科:文章型式的人類知識 * infobox:維基百科中的表格,稍微有點結構 * Wikidata: 機器可讀的知識,仍持續成長~~缺東缺西~~的資料庫 --- ## infobox [加州大學柏克萊分校](https://en.wikipedia.org/wiki/University_of_California,_Berkeley) ![](https://i.imgur.com/8LPoUbE.png) --- ![](https://i.imgur.com/Elb6Z28.jpg) --- ### infobox 的特點 * 用表格型式相當易讀 * 仍不是結構化資料,無法用API呼叫,需用爬蟲抓取資料 * 截取的嘗試:知名的鏈結資料專案[DBpedia](https://en.wikipedia.org/wiki/DBpedia) * 最終應當在Wikidata建資料,然後infobox抓取來呈現資料 * 那就來抓infobox的資訊然後轉存到Wikidata吧! --- ### 網頁爬蟲的嘗試-Python * [Fetching text from Wikipedia’s Infobox in Python](https://www.tutorialspoint.com/fetching-text-from-wikipedia-s-infobox-in-python) * [How to extract Wikipedia infoboxes and wikitables using Pandas ](https://gist.github.com/aculich/b34868c098d94d614515) * [Fetching text from Wikipedia’s Infobox in Python](https://www.geeksforgeeks.org/fetching-text-wikipedias-infobox-python/) * [How to Scrape Wikipedia Articles with Python](https://www.freecodecamp.org/news/scraping-wikipedia-articles-with-python/) --- ### 爬蟲的策略 * requests + Beautifulsoup * Pandas + (lxml) * Pandas 最方便處理表格,是抓取infobox資訊最佳工具 * 解析網頁的工具如Beautifulsoup則要熟網頁,可以花時間練習 --- ## 批次處理 1. Petscan 取得特定分類下所有條目與Wikidata連結 2. 對所有條目執行迴圈取得infobox內資訊 3. 將轉存的資訊存檔,再用QuickStatement上傳Wikidata --- ## h2 * [Petscan](https://petscan.wmflabs.org/?psid=19571788)[源自台語的地名](https://zh.wikipedia.org/wiki/Category:源自閩南語的台灣地名) * 鎖定模版:[Infobox_Hokkien_name](https://zh.wikipedia.org/wiki/Template:Infobox_Hokkien_name) --- ![](https://i.imgur.com/WHpjCEb.png) --- [笨港](https://zh.wikipedia.org/wiki/笨港) ![](https://i.imgur.com/imgEhtq.png) --- ![](https://i.imgur.com/0DMw1M2.png) --- --- ### Thank you! :sheep: You can find me on - GitHub - Twitter - or email me