--- title: Wikidata 的歷史與簡介 A Brief History and Introduction to Wikidata - Wikidata Taiwan|臺灣維基數據社群 tags: Website, Wikidata, LOD, Linked Data, Open Data, Wikibase, ARL, 美國研究圖書館學會, White Paper, 白皮書 --- # Wikidata 的歷史與簡介 >A Brief History and Introduction to Wikidata * [回目錄](https://hackmd.io/@wikidata-tw/rycXnai5o) Wikidata 是一個結構化的鏈結資料知識庫。如同其他的維基媒體基金會專案,Wikidata 一樣是一個 Wiki,並且可以透過人工或機器 (使用”robot”或稱”bot”的自動化程序進行一系列特定的改動) 進行編輯。Wikidata 使用Creative Commons Public Domain Dedication 1.0,這代表其內容皆可被自由複製、改作、並發布;同時 Wikidata同時也是一個多語系專案,在這個平台上可以使用數百種的語言對項目進行標記。 Wikidata 的開發旨在連接並支援其他維基媒體專案,其中包含如維基百科 (已有292 種語言版本)、維基共享資源 (危機媒體專案的多媒體資料庫,截自 2019 二月已經有超過五千兩百萬個自由使用的圖片、影片以及其他多媒體檔案)、維基文庫 (一手資料與歷史文件的資料庫) 等。舉例來說,一個 Wikidata 項目中可以連接至多個語言版本的維基百科,同時與相關主題的維基共享資源圖片做連接,還可以連接到對應的維基字典條目,並且如果這個項目與某歷史文件相關,也可以與維基文庫連接查看其完整文件。而且這類的跨維基連接將會隨著新條目的創建被更新,使所有版本的維基百科都能互相連通。 圖1. Wikidata 的資料模型圖示,包含展開與收起的敘述組。 Wikidata 的結構化資料設計旨在使用如動態資訊欄 (許多維基百科頁面旁邊的資訊統整欄) 來統整、增修、並更新維基百科條目。Wikidata 提供了一個統一的平台來統整、更新那些具有變動性質的數據 (如人口統計數目),以確保在所有維基版本中的資料一致性,並提供使用者最新的資訊。雖然這項功能還沒有被全面化使用,維基媒體的志願開發者團隊與編輯者社群都在積極開發工具來使 Wikidata 使用起來更為簡易,我們可以預見對此豐富的結構化資料庫的新興應用方式在未來會在維基百科等專案間持續出現。而且這類對 Wikidata的應用其效果並不局限於維基生態系之中;比如說 Google 的搜尋引擎在其搜尋結果的資訊欄位就有使用 Wikidata 以及維基百科的內容,用以統整對搜尋結果的資訊。 Wikidata 的第一種使用方式便是蒐集並加強各語言版本維基百科之間的聯繫。具體而言,可以將 Wikidata 視作一個統一平台,將法語版本維基百科有關”法國大革命”的條目與其他130多個語言版本的維基百科中有關”法國大革命”這一事件相關的條目連接起來;如果今天有人決定使用一個新的語言來創建相關條目 (比如說使用伊博語來寫有關法國大革命的條目,在2018年時該條目還沒被創建),該條目的連結就可以被收錄進Wikidata 並自動與上述130多個語言本版連結。 "這類對 Wikidata 的應用其效果並不局限於維基生態系之中;比如說 Google 的搜尋引擎在其搜尋結果的資訊欄位就有使用 Wikidata 以及維基百科的內容,用以統整對搜尋結果的資訊。" 隨著對維基百科內容的覆蓋率以及 Wikidata 本身資料屬性的多樣性逐步完善,陸續增加的第三方資料來源與資料庫成為了豐富 Wikidata 內容的基礎,例如說將外部資歷庫的”標記”如 URI、名稱權威資料、控致詞表等進行對照並連接。每個維基百科條目在 Wikidata 中都至少有一個對應的項目;除此之外 Wikidata現在也包含了數百萬個項目缺乏對應的維基百科條目。原因有許多,比如在維基百科中缺乏相關的內容,又或者維基百科編輯者們並不覺得這些主題有足夠的重要性來創建相關條目。例如,開發維基數據項目是為了創建項目並提供與繪畫、紀念碑和期刊文章相關的數據(下文將進一步討論)。其中每一個子社群都對鏈接開放數據知識體做出貢獻。 圖 2. 維基數據項目創建頁面。任何人都可以,通過項目創建頁面或是批量創建項目的工具在維基數據中創建項目。 實體 為 Wikidata 知識庫的基礎元素,其具有兩類 項目 以及 屬性;其功能與控制詞表中的詞彙很相似。項目以及屬性在 Wikidata 中皆有獨立專屬的區塊,並且也有自己獨立的 Wikidata 頁面。他們被賦予專屬的標記英文字母”Q”來代表項目、”P”來帶表屬性,並在後面以不重複的數字組合來記錄。所有實體還可以擁有標籤 (對該實體的偏好名稱、俗稱等)、描述 (對該實體的簡短描述)、以及在其他語言中的別稱 (該實體的其他稱呼)。 項目 包和描述特定主題、客體或概念的數據。項目包含一系列的描述並以”屬性-數值”的方式呈現,同時還可以透過使用”限定標記”的方式來豐富其內容。舉例而言,下述於 Wikidata 中的陳述描述小說 The Able McLaughlins 贏得普立茲小說獎。該陳述可以使用限定標記來進一步紀錄得獎時間與獲獎人: The Able McLaughlins (項目) → award received (屬性) → Pulitzer Prize for Fiction (數值) → point in time (限定標記) → 1924 (數值) → winner (限定標記) → Margaret Wilson (數值) 其中每個屬性-數值陳述皆可以被標註資歷來源用以參考。同時每個項目也可以收錄網站連結,連往不懂的維基媒體專案。上述所有陳述皆可以被任何人來創建與編輯。 屬性 相較之下更為穩定,因為對其的編輯需要經過社群複審的流程。屬性其實就等同於metadata元素/字段 (metadata element/field) 其用途在於紀錄數值。Wikidata 的 屬性 等同於一般鏈結資料術語中的”謂詞”。屬性是用來描述某項目與其他項目之間的關係,可以是一種標記或是一段數值 (該數值可以是一段字符、日期等)。截自2019年二月 Wikidata 上已經有超過六千項屬性,包含一般領域或特定領域專用。 一個常被用來解釋”屬性描述兩個項目關係”的例子是”性質(P31)”;例如,The Able MeLaughlins(Q7712123) → 性質(P31)→ 書(Q571)。一個用來解釋”屬性描述項目與美國國會圖書館權威識別碼(P244) 關係”的例子如下:Margaret Wilson(Q6760032)→ 美國國會圖書館權威識別碼(P244)→ n86800547。用來描述項目與一段數值關係的例子有如:生日(P569) 以及 URL(P856)。 與現有或常用的metadata標準相關的屬性將會獲得社群的支持,因此創建圖書館所需要的新屬性應該不會太難。然而此刻,一般標準和圖書館以及其他社群的屬性使用並不一致,許多合作案的第一步就是要先將雙方的數據模型進行比對並尋找對應處。 特定屬性對於數值有特定的要求,例如說必須是其他的Wikidata項目或是需要使用特定的格式。舉例來說,美國國會圖書館權威識別碼就必須填入”一或二位小寫字母+二位或四位年碼+六位數字”。 這通常在屬性頁上用一般表達式語句的格式表示。 圖 3. 華盛頓大學圖書館所維護的結構數據庫屬性建議。大多數關於(Authorities)權威檔的主題很容易在與 Wikidata 社群的對話中推進,屬性建議是反饋和對話的寶貴機會,可以討論如何最好地重組屬性使其在 Wikidata 的現有結構中良好的運作。 Wikidata 所使用的軟體 Wikibase 擁有許多功能可以提供 Wikidata 和鏈結資歷專案更有彈性。該軟體提供了一個可人工編輯的介面,鼓勵並使缺乏完善鏈結資料知識的個人可以參與貢獻,同時也具有批量編輯 API,使如 QuickStatements 或是 OpenRefine 甚至是客製編輯的機器人這類批量上傳工具可以接入使用。該軟體也有多語言支援,使用者可以簡單的翻譯標籤;同時也有內建品管功能和許可。多個醫學資歷庫和 GLAM 專案中皆有使用 Wikibase 軟體。例如 OCLC所主導的先導專案,旨在探索 Wikibase 在圖書館環境下的鏈結資料工作流程。同時,許多新的特定領域鏈結資料專案皆已使用 Wikibase 或是認真地考慮使用 Wikibase 作為其鏈結資料專案的開發工具。由於第三方安裝 Wikibase 的需求不斷增加,該軟件已與許多實用程序打包在一起 (如QuickStatements以及SPARQL) 供伺服器管理員安裝,從而使該軟件可用於創建新的鏈結數據項目。 圖 4. QuickStatements 工具進行批量創建或編輯 Wikidata 項目。 QuickStatements 可以以分隔字符格式通過編輯命令或陳述來批量編輯 Wikidata 或是 Wikibase。要生成這類指令可以使用如 OpenRefine、CSV檔案、以及 Zotero。該介面使用 tab/newline 或是 逗號分隔(Comma-delimited) 數據進行批量上傳自 Wikidata 或是 Wikibase。QuickStatements 可與 Wikibase一同被安裝在伺服器上。 圖 5. OpenRefine 的 Wikidata reconciliation service (Wikidata一致性功能)。 OpenRefine 可以透過內建的 Wikidata reconciliation serveice 在上傳前批量比對字串與 Wikidata 項目集。OpenRefine 已經被一般化使其可以被用在其他的Wikibase專案上。 ## Wikidata 與 Wikibase 降低 LOD 的門檻,擴大其應用範圍 過去幾次大型化跨領域鏈結資料專案皆遭遇實務面的限制。DB百科,一個由小型學術團隊基於維基百科 (同時也使用了一些Wikidata資歷) 所開發的鏈結資料庫其發佈內容並不穩定,並且需要從各個維基百科來解析其資訊。Freebase,一個由 Google 所支持的鏈結資料專案因為缺乏所需的社群資源和投入而失敗。另一方面,像是Getty Vocabularies 以及 Library of Congress Name Authorities 這類封閉數據集皆是人工編造的權威系統僅專注於於博物館或圖書館內部的收藏,這意味著他們僅能代表世界整體文化的一小部分並且使貢獻時多了一層複雜因素。這些限制大幅的限制小型機構和獨立貢獻者參與這些計畫,對於蒐錄邊緣化的資料立起層層阻礙。 Wikidata 和 Wikibase 直接的處理了許多這些由其他鏈結資料環境創造的挑戰: * 提供可以透過人類與機器進行編輯的介面; * 保存了詳細的變動紀錄; * 其數據模型可以對每個數據點添加額外的註記以及特性; * Wikidata社群擴展了維基百科和維基媒體的貢獻者社群所貢獻的工作和知識,同時也鼓勵其他開放許可數據集的加入; * 以及透過極致的開放,遵循任何人皆可編輯的貢獻模式,鼓勵更廣泛的使用者一同加入參與貢獻。 此外,維基媒體社群持續的創建新的工具、教學、以及遊戲來協助參與者建立信心和專業技能以便更加全心的投入鏈結資料各個技術等級的創建流程。Wikibase 也在同一條船上,支持著快速改變與成長的數據結構。促使新的鏈結資料專案的產生而不用被技術性技能所困擾,如程式語言撰寫能力或是數據管理能力等,使更多具備專業知識的人們能夠一同參與。 ## Wikidata 的文化與政策 Wikidata 的社群與其所蒐錄的資料具備同等的重要性。Wikidata 與其他維基媒體專案擁有共同的理念,例如:Wikidata 相當重視資料的”可驗證性”,與維基百科一樣,相信在一個最理想的狀態下任何事實皆可以找到其他來源進行佐證。不過與維基百科相異的地方是,Wikidata 資料的質量極大的依賴於原始提供者的權威性,而不是通過其他次要來源來進行支持;除此之外 Wikidata 也允許資料僅通過單一外部來源進行支持並創建──這一舉措降低了搜納邊緣化主題的難度,不像英文維基百科中每個主題需要負數來源進行支持。 除以上之外,維基百科以共識為基礎的政策制訂模式大體上也被繼承至Wikidata社群之中。舉例來說:屬性創建 (以及後續的Wikidata書目資料建立) 通常是由社群成員所提出並推動;同樣的,如果有屬性或資料使用過少無法與更大的知識體連結,則社群成員也可以提議將其刪減。反之,只要能夠與知識體連結,那些來自特殊或是較不有名的資料及的內容便可以在 Wikidata 之中找到屬於他們的家。以上這些維基媒體專案社群的價值觀、工作習慣以及互動規則需要耐心來學習。至少就目前來說,Wikidata的生態圈比起某些其他維基媒體專案對新人更為友善。