# 簡介 > Introduction * [回目錄](https://hackmd.io/@wikidata-tw/oclc2019report) 數十年來圖書館通過 MARC (Machine-Readable Cataloging 機器可讀目錄) 格式來建立並分享書目資料。截至時今已有上億條 MARC 紀錄在網路上流通,協助大眾尋找並獲取圖書館的館藏。MARC 紀錄同時也是圖書館在分享以及拓展館藏的重要工具。然而 MARC 已是 50 年前的老舊標準,現今只有圖書館的系統才能讀取以 MARC 紀錄的資料,與一般的資料使用者完全脫節。 早自 2008 年,來自圖書館社群的專家們便視鏈結資料為未來潛在的轉型方向。鏈結資料,由 Tim Verners-Lee 於 2006 年所提出[^1],被視作是可以取代傳統 "紀錄主體 (Record-Based)" 模式的創新標準;取代將資料以 MARC 或其他以人類可讀為核心思想的通用標準進行編碼系統。鏈結資料主張將資料描述以知識圖譜之中的人事時地物,一般稱之為 "實體",來進行紀錄;並將各個實體以機器可理解的關係進行鍊接。如果全面鋪開,並妥善使用、知識圖譜將能取代現行只有圖書館才能讀取使用的知識庫。 在鏈結資料技術的眾多關注者中,美國國會圖書館 - 確立了 BIBFRAME 標準[^2]通過鏈結資料設計來取代 MARC,提升書目資料在圖書館社群之外的實用性。除此之外,PCC (Program for Cooperative Cataloging 合作目錄計畫) 為 2018-2021 年確立了六項策略方向[^3],其中三項內容便是專注於鏈結資料技術: * 提供實作機會或實驗探索來將圖書館社群對鏈結資料的知識化為具體成果。 * 通過增加永久識別碼的數量和體量以加速通用識別碼運動在跨機構層次的發展。 * 拓展鏈結資料術語的使用,並且,在適當的時機,取代現有的後設資料描述。 在轉換期間,圖書館必須分出有限的人力來處理增量的資料但是卻同時也造成人力的短缺來進行後設資料的建立。在這樣的情境下,鏈結資料同時是問題的解答以及製造者。鏈結資料系統到底是降低了人力的需求呢 (相較於傳統的紀錄建立模式) ?抑或將圖書館的工作拓展至更多元的資料建立、數據鏈結機會並終將導致人力需求的提升 ?至今為止對鏈結資料所做出的努力是否已經建立足夠的高品質資產 ?畢竟只有超越臨界數量,一般大眾才能在搜尋引擎上發現並體驗圖書館的蒐藏。 雖然這些年來從圖書館社群中所輸出的鏈結資料有著顯著提升 - 包括目錄來自國立圖書館以及識別碼中心如:美國國會圖書館的 id.clo.gov ,以及 OCLC 的 VIAF (Virtual International Authority File 虛擬國際權威檔案)。鏈結資料的採用需要花費大量的先期投資在建立 "資源-描述" 標準、系統環境、以及工作流程等基礎支援,其規模往往超出一般機構組織所能承擔。這問題困擾了大多數的圖書館在鏈結資料運動的努力。為了獲取所需之資源,領銜者必須先證明採用鏈結資料價值,而其價值的證明卻也需要先前投資才能進行。 ## 鏈結資料模式導入圖書館"資源-描述"工作流程的障礙 > BARRIERS TO ADOPTION OF LINKED DATA IN THE LIBRARY RESOURCE-DESCRIPTION WORKFLOW 始於 2015 年的 OCLC 鏈結資料工作者調查揭露多數的鏈結資料實驗大多與現行的傳統工作模式分軌而行,缺乏交流[^4]。 僅有在最近的結果中我們發現了第一批提供鏈結資料產品服務提供者[^5]。除此之外,鏈結資料在圖書館社群中的效益仍未明瞭,主因在於其應用支援生態尚未成熟。因此,後設資料圖書館員們回報說鏈結資料的編輯工具非常難用,並且要求使用者具備非常多的背景知識。在 Oslo Public Library (奧斯陸公共圖書館) 在 2018 年的調查中我們可以看到許多類似的重點: > 就我所知,Oslo Public Library (奧斯陸公共圖書館) 仍然是第一且唯一一間圖書館,採用鏈結資料模式來進行其目錄編輯工作。同時也在開發鏈結資料工具,我們推出了一套全新的系統概念。我們許多的工作前無古人,因此我們必須自己創造方法,許多科技甚至新到根本沒有完善的資料可以參考,開發者們,包括 UX 在內的所有人都在這趟學習旅程中感到十分的艱辛。[^6] 阻礙鏈結資料工作模式的障礙不僅僅是概念層面的同時也是技術層面的問題。舉例來說,Online Dictionary for Library and Information Science 將編目者定義為:準備書目資料,通過書目描述、主題分析、以及分類來對圖書館蒐藏再呈現的人[^7]。自從採納了 cultural heritage resource description theory (文化資產資源描述理論),編目逐漸成為了一個觀察多樣化的資源,並對書目資料中的實體進行關聯的工作,其最近也拓張至數位以及原生數位材料和研究資料集的觀察。 在鏈結資料環境下的資源描述工作需要針對編目有著大量的訓練以及培養,但其工作內容與當前分析並記錄其相關人物、企業實體、主題、事件、以及其他書目實體的工作程序沒有顯著差異。Murray 和 Tillett 將這一分析程序描述為在書目資料中發現 "資訊"[^8]。但至今我們所缺失的是可以建立並管理原生鏈結資料的環境與程序。 此報告中所述之前導研究專注於發現鏈結資料模式在圖書館的 "資源-描述" 工作流程中所引伸的概念性問題。該先導研究立足於後設資料圖書館員的終極問題:我要如何將我眼前所見的資源在鏈結資料模式中建立其描述?這個程序與我傳統的描述工作過程有何不同?然後這些成果可以拿來做甚麼?響應 PCC 所提出的策略方針,以上問題將在一個允許實務實驗的軟體環境中被探索。並且,該環境承諾超越其他現有的原型環境,為圖書館社群闡明更多有關鏈結資料的潛在益處。 ## Passage 專案:OCLC 鏈結資料沙盒 Wikibase 原型 > PROJECT PASSAGE: The OCLC Research Linked Data Wikibase Prototype 相較於從零開始建立一整套的鏈結資料工具,OCLC Passage 專案的成員受 Wikimedia Movement (維基媒體運動) 所啟發[^9],其所推出的一系列 "維基生態" 開源軟體,以及許多基於這些軟體套件所開發的著名的應用方案。這類維基專案有[^10]: * Wikipedia:免費的,多語系,網頁百科全書 * MediaWiki:免費開源的維基軟體套件 * Wikidata:共同編輯的結構化資料集,用於支援其他維基媒體姊妹專案和其他應用 * Wikibase:MediaWiki 的拓展套件,用於儲存並管理結構化資料 如同 Wikidata,Passage 將會建立於 MediaWiki 和 Wikibase 的技術之上。在該先導研究之初,OCLC 的專案團隊曾考慮直接通過 Wikidata 來操作,但是最後仍然選擇通過新建一個獨立的執行個體來管理專案的資料。該決定主因為: * 評估該軟體的使用,其客製化方案、設定選項、以及可規模性 * 期待該專案會對新穎的書目資料中的實體屬性進行探索,其可能無法與 Wikidata 當前的架構相容 * 研究者的隱私資料管理問題 * 理解 Wikidata 對資料 Notability (重要性)[^11]的認知可能有別於圖書館社群。 >Wikibase 提供一個開放的作業環境,有別於商業方案中專門為圖書館使用所設計的使用者介面 採用 Wikibase 作為該研究的開發環境選項非常具有吸引力,因為其設計哲學反映了其對於 "眾源" 工作的詳備理解;這是為甚麼 OCLC 以及其他許多圖書館將其視作現代化共同編目與權威管理工作的理想工具。Wikibase 環境可以接受不論是人工或是機器進行輸入。舉例來說,修改紀錄裡可以看到所有來自人工或是機器人進行的編輯,提供透明度的同時強化使用者體驗。討論頁面也能協助編輯者們討論如何對描述進行創建或編輯。除此之外,Wikibase 非常彈性的資料結構在這個先導研究中尤其重要。然而,雖然我們採用了 Wikibase 及其設計哲學,但我們仍對部分預設屬性進行了調整以更加符合圖書館員的需求,並且也在討論後增加了新的屬性。在這些面向上,Wikibase 提供了有別於一般商業方案的圖書館系統完全不一樣的自由度。 除此之外,在 "資源-描述" 工作的實驗上 Wikibase 也有許多的技術性優勢,如: * Wikibase 是個成熟且完整的系統,可以處理從資料輸入到編輯到最後的 RDF (Resource Description Framework 資料描述架構) 序列化的工作。 * Wikibase 內含 Unicode 原生支援多語言工作。使用者可以直接對非拉丁語系的內容進行搜尋與建立,不像大多數的商業方案。 * Wikibase 上的資料將會同步到一個鏈結資料庫,或稱 "Triplestore"。這使得如 SPARQL,一個用於 RDF 的資料庫查詢語言,或是其他第三方軟體的 API (Application Programming Interface 應用程式介面) 可以輕易的與之橋接。 * Wikidata (基於 Wikibase 技術) 已經蒐錄有成千上百個實體的鏈結資料紀錄,並且採用了許多如圖書館社群中所廣泛使用的識別碼系統。 * Wikidata 現有的本體論架構,由社群所共同設計,可以被直接套用至任何 Wikibase 執行個體。 最重要的是,Wikibase 有完善的使用者介面。使得任何熟悉現有工作流程的圖書館員皆可以輕易地透過編輯介面來為資料建立描述。換句話說,Wikibase 承諾,從 "人類可讀紀錄模式" 轉換到 "機器可讀知識圖譜模式" 的過程可以輕易的整合進原有的圖書館後設資料工作流程之中,並且不需要針對鏈結資料有任何的前置知識,不需要理解 RDF 的 Turtle, 三元組等技術到底是甚麼東西。 類似主題也在 Association of Research Libraries (研究圖書館學會 ARL) 於 2019 年四月所公開的白皮書中有所討論,其中便有提及 OCLC 的先導研究。報告中說: > Wikibase 提供了許多其他鏈結資料解決方案所沒有的優勢:靈活的機器/人類可用可讀的工作環境,支援多語系工作,並且擁有非常彈性的資料結構。越來越多的專案採用其技術... 顯示了其在學術以及 GLAM [畫廊、圖書館、檔案庫、以及博物館] 領域中作為通用資料儲存方案的潛力。投資社群基礎建設代表更不容易的被專用平台或系統所束縛。[^12] ## 專案細節 > The terms of the pilot Passage 專案為後設資料圖書館員們建立了一個沙盒環境,旨在協助進行質性的、實務的、互動性的資源描述工作探索。於 2017 年 OCLC 發現了拓展其與圖書館在實體描述討論的機會。2015 年的 Person Entity Pilot [^13]對搜尋與顯示工具進行了實驗,並引起 OCLC 以及專案參與者們對於在原生鏈結資料系統中探索改善實體描述與創建的興趣。 Passage 專案在招募參與者時便清楚的說明期將會需要進行高強度的探索與實驗。為了達到這一目標,OCLC 建立了一套互動架構來促進參與者們以及跨領域 OCLC 小組處理所遭遇的困難與挑戰,以及討論成員們額外進行的獨立實驗成果;OCLC 小組包含了 OCLC 研究員、產品管理員以及產品工程師等人。最終構成這次報告的討論主要通過三個方式來進行: 1. 每月進度溝通,並於結束時會蒐集一系列參與者們所提出的改進建議以便於下個月的期間進行。 1. 每週線上討論時間,由參與者們來主持討論,專注於重點主題或是個別使用情境。 1. 在 OCLC 社群中心空間[^14]裡參與者們可以互相詢問並討論彼此所遭遇到的問題,分享經驗、文件,並與 OCLC 的成員們進行溝通。 我們主要的目標是處理將鏈結資料模式引入現有工作流程所會遭遇的挑戰,為 "後 MARC" 後設資料標準的開發提供策略性觀點,並協助 OCLC 全球產品管理路程圖關注未來的後設資料應用與服務的開發。本專案截止於 2018 年九月,此時 OCLC 的 Wikibase 執行個體以及其延伸應用程式已無法使用。其資料已通過螢幕截圖以及 Internet Archive (網際網路檔案館) 所保存,並引用於本報告多處。[^15] 為了要設計專門給圖書館社群進行實驗的環境,OCLC 的 Wikibase/MediaWiki 軟體套件採用了 Wikidata 現有資料庫中一組使用了與圖書館社群現行類似的識別碼來源如 VIAF、FAST、id.loc.gov、和 WorldCAT 等的資料集來作為發展基礎。專案初期,OCLC 主要作為導師身分,帶領參與者們認識 Wikibase 系統的特色和功能,並展示如何進行簡單的資源描述工作。並且也會指派功課,以及建議的工作方式。隨著專案的進行,參與者們將會逐漸帶領討論,透過其進行資源描述工作的經驗,探索工具的可能性,並提供如何改進的回饋。OCLC 成員們便會以這些意見作為調整 Wikibase 環境的基礎以利下一輪的探索。 ## 專案成員 > The pilot study participants 來自 16 個學術、公共、以及國家圖書館投入了大量心力在 Passage 專案之中: * American University (美利堅大學) * Brigham Young University (楊百翰大學) * Cleveland Public Library (克利夫蘭公共圖書館) * Cornell University Library (康乃爾大學圖書館) * Harvard University (哈佛大學) * Michigan State University (密西根州立大學) * National Library of Medicine (美國國家醫學圖書館) * North Carolina State University (北卡羅來納州立大學) * Northwestern University (西北大學) * Princeton University (普林斯頓大學) * Smithsonian Library (史密森尼圖書館) * Temple University (天普大學) * University of California, Davis Library (加利福尼亞大學戴維斯分校圖書館) * University of Minnesota (明尼蘇達大學) * University of New Hampshire (新罕布夏大學) * Yale University (耶魯大學) 各自帶著獨特且多樣的動機前來參與,包括: * 獲取第一手在鏈結資料環境中進行編目工作的經驗,了解其運作方式,探索與現有的權威以及編目工作有何異同,並與同儕們進行分享。 * 探索在鏈結資料架構下,實體之間的聯繫如何影響其被搜尋、獲取、以及探索的能力。 * 學習如何在 Wikibase 的環境中使用 Wikidata 的屬性。 * 發現並想像鏈結資料模式可以如何地與其他現有的後設資料系統做整合。 * 參與專案的學習課程以及認識專案所用系統。 * 理解 OCLC 對鏈結資料的使用以及創建的認識,並一同參與探索。 除此之外,Passage 專案也專注於對新的描述進行探索,而非如同其他圖書館專案專注於對現有的書目或權威資料進行轉換 。然後 Passage 是一個開放式的專案,其對於結果並沒有一個具體的期望,而是重在對未知的摸索。在這樣的模式下參與者們自由的對各自的期望進行探索並提出問題,本專案由此發現了許多空缺有待未來的研究進行探索並開發。這樣的自由促使參與者們對 "機器可讀結構" 所能帶來的效益自行進行探索並獲取獨到的見解。 本專案中的許多參與者皆有著其他圖書館鏈結資料專案的經歷,如 BIBFRAME、 Andrew W. Mellon Foundation–funded Linked Data for Production[^16]、 Linked Data for Production: Pathway to Implementation[^17]、各式 PCC 工作小組,以及其各自機構所執行過的類似專案。於專案之初與結尾,參與者們被詢問,Passage 專案與他們過往的經歷有何異同。他們前來參與許多是基於 Wikibase 這一因素,因為 Wikidata 也是立基於該技術之上。在專案期間通過在專業研討會與 Wikidata 相關的議題在 2017 年與 2018 年間的增長可見其對於圖書館社群的重要性。並在 2018 年 International Survey of Linked Data for Implementers [^18]可以發現愈來愈多的專案採納 Wikidata 進入其研究之中。 然而,這些發展更多是代表對鏈結資料的興趣而非第一手的使用經驗。通過 Wikiscan [^19] 的即時數據所示,2019 年四月間,66% 的 Wikidata 編輯是通過通過自動化的程序或是機器人 [^20] 所進行。除此之外,機器人也創建了 89% 的 Wikidata 新頁面,或稱 "項目實體",同第 15 頁 "Wikibase 條目、頁面、與實體" 15 所定義。故此,Passage 專案也是對 Wikibase 編輯介面的一次使用性探索。 ## 報告結構 > How this report is organized 本報告剩餘的篇幅講述了一個簡單的故事。首先,我們對於在 Passage 專案中所使用的系統進行一個介紹,檢視這個環境如何協助我們進行 "資源-描述" 工作實驗,嘗試創建鏈結資料而非 "人類可讀" 的書目以及權威紀錄。並討論在這過程中所學到的重要發現。 在本報告的下一段落將會從 Wikibase/MediaWiki 的編輯介面開始,總覽其套件所能提供的功能。並進一步討論其高位的技術與構件,為 OCLC 在專案中對系統所做的調整打下一個背景認知。最後將會以介紹 Passage 專案的三個階段作結,簡介 OCLC 如何與圖書館社群的參與者們進行互動,並提供必要的知識來理解所做的調整。 27 頁的 "Passage 專案中的資源描述研究" 是整篇報告的核心。其中蒐集了來自參與者們在八個使用情境的探索後所提出的經驗與問題。這些情境包括了書目資料以及權威檔案的應用,用鏈結資料的術語來說就是對現實物件進行再現,包含創作與人物、組織、地點、事物、以及活動,通過 "作者"、"發布者"、"主題"、或其他名稱來進行關聯。分析與反思的主題包山包海。討論的內容包括如何選擇重要資料來進行描述、如何發現並修正 Wikidata 本體論的空缺、以及新舊工作流程的對比,好壞皆有。 本報告最後以重點回顧作結,反思 Passage 專案的經驗與對未來的展望。