# 學習成果與反思 > Lessons Learned and Reflections * [回目錄](https://hackmd.io/@wikidata-tw/oclc2019report) ## Passage 跟其他圖書館社群的鏈結資料專案有何不同 > How Passage Differs From Other Linked Data Projects in the Library Community Passage 專案協助編輯者獲得如何通過關係描述來建立結構化、機器可讀的資料,並藉由探索介面來及時獲得其工作的成果回饋;提供一個自由的沙盒環境給後設資料專家們自由探索並與其他人分享其經驗。不論是對於參與者或是 OCLC 而言這都是一個共贏的合作關係。如果成功的促使社群討論、探索工作條件、並為如 OCLC 等圖書館領域的服務提供者們訂下標準化工作流程的方向,該專案便可以視做一次成功的嘗試。 表五中列出了 OCLC 所蒐集來的 Passage 專案有別於其他圖書館鏈結資料專案的體驗回饋。通過蒐集來的回饋中可以看到針對沙盒環境以及專案工作方針的大量正面反響。 表五。參與者回饋針對 Passage 與其他圖書館鏈結資料專案的比較。 相比下較為少量的負面回饋由 Pace 與 Tomren [^102] 所統整,主要源由於 Passage 專案開放式的規劃。比如說,資料結構 (Ontology) 不夠豐富,或是 Explorer 以及 Retriever 等應用程式的功能需要完善。另一個問題是專案時間不足以讓最需要的參與者完整的探索從傳統紀錄轉換到知識圖譜系統對其工作方方面面的影響。但是專案的結束也提供了我們對整體工作進行回顧的機會。 Passage 專案的獨特性主要是在於其自由的探索環境,讓參與者們可以深入的在鏈結資料環境中探索他們的工作,協助他們進行直接新舊工作標準的對比。每個資源描述案例都有進行細膩的分析。 就算不看單個 Wikibase 實體之中的屬性或聲明,參與者們也可以在新的系統之中保存現行圖書館員工作最重要的許多價值。舉例來說,Fernsebner Eslao 等人便認為 Wikibase 通過個別聲明陳述來建立出處、權威、以及信任相較於現行的圖書館社群所採用的系統從技術層面來說更為高明。[^103] 通過這套系統,就算是技術能力較弱的圖書館員也可以完成鏈結資料系統中最重要的工作:通過鏈結現實世界物件來搭建事實來宣告一個項目的存在,並賦予其一個獨特的 URI 以進行識別;額外的項目或是屬性也可以同時被建立,支援多元的資源類型,以及多樣的語言與書寫系統。並且其中的描述也可以與圖書館社群或是其他外部系統的資源進行鏈結。 ## 七大課題 Passage 是一個研究型的專案,旨在針對鏈結資料工作流程的承諾與全面採用機器可讀資料系統前所需解決的挑戰進行實務性的探索與確認。以下是幾個在本專案中我們所學到的幾大重點。這些皆是統整自參與者們直接操作案例時所做出的反饋與經驗。 ### 第一課:Wikibase 項目實體可以被轉換為直觀的結構化資料創建流程並且擁有超越現行圖書館標準的精準度。但是這些資料所搭建的脈絡是否足以支持其為來的資源解讀與探索? 雖然 Wikibase 的編輯環境相當直覺且簡易使用,但是參與者們覺得其尚未準備好成為後設資料創建工作流程的主要媒介。 工作流程中最關鍵的部份便是發現愈進行編輯的關注項目,例如一個人物、組織、地點、事件、或創作,並對其進行符合事實的描述。但是如同該專案中的案例所示,針對單一關注項目的描述工作往往涉及其他相關項目的定義。並且有時候連最簡單的描述也需要對資料結構 (Ontology) 進行改進,進而導致一個原本線性的工作逐漸演變成一個跨領域的繁複工作,需要四處填補知識圖譜的空缺。 這是源於其系統尚未成熟,不論是資料結構 (Ontology) 或是其所呈現的資料。不過這個現象的發生並不平均,舉例來說,在 Nuper rosarum flores 以及其對應事件的案例中,這些空缺的填補相對簡單,因為 Wikidata 的資料結構 (Ontology) 中已經擁有豐富的相關概念。但是在檔案庫以及特殊蒐藏的案例則遭遇較多的挑戰,往往難以確定到底該如何最佳的進行資料的結構化,以及如何才能使其在探索介面中被以更加完善的呈現。 這個現象直指了在圖書館特殊蒐藏方面的資料建模,以及如 Passage Explorer 這類應用程式在針對部分資源的支援有所空缺。同時也顯示了人類可讀的純文字資料在未來就算全面接納了鏈結資料工作流程也依然有其用武之地。專家社群將會需要討論如何重新界定結構化資料與純文字資料之間的分工,尤其是如今如 Wikibase 這類工具已經結構化資料創建的門檻降至低點。 除了結構化資料之外,在 Wikibase 的編輯工作流程之中也需要建立指紋資料,如指紋標籤以及其陳述;這些資料需要針對使用者檢索時可能使用的文字來進行優化,同時也作為該項目在頁面頂端供人類使用者閱讀的項目概覽。 舉例來說,在 Sein und Zeit 以及其翻譯版本的案例中,我們發現了需要針對其語言有更明確的描述以及正確的建立流程。在結構化資料方面,由於其顯示的內容是從一個表格之中根據使用者瀏覽器語言設定所自動提取的結果,這使的英文的屬性 "Author" 將會根據語言轉變為,舉個例子,德文對應的 "Schriftsteller";並且如果使用的語言並非是羅馬字系統,這也會連帶地改變其書寫系統。但是指紋資料的部分卻是編輯者通過純文字手動編輯上去,如同 "Sun Yat-sen" 的案例中所顯提。指紋資料一般來說會對應顯示語言,但是並沒有特定的語言標籤。為了減少混淆,Passage 專案中我們也探索了有限的使用混和語言標籤。 除此之外,我們也針對了缺乏標籤資訊的圖像資料的描述工作有所探索,如海報、以及未公開的相片。為此,我們嘗試了通過向指紋資料內使用其他 Wikibase 項目或是真實世界物件的方式來協助理解關注項目的脈絡。但是指紋標籤的系統無法保證其一定是精簡、消歧義、並且對應一組獨特的識別碼。因此這個方案導致了需要額外去建立許多相關人事物的 Wikibase 實體,例如 Temple University 的民權示威相片案例。這就如同上述所提及的線性工作快速複雜化。在該案例中凸顯了因為 Wikibase 缺乏存放純文字敘述的欄位導致需要通過繁複的指紋描述來補充其不足。 綜上所述,指紋資料的創建,同結構化資料一樣可以非常的簡單或困難。如果資料集是 Passage 或是 Wikidata 的數倍之大,究竟多少的資訊才能確保指紋資料足夠獨特可以消岐義?在 Passage 專案之中我們所發展出來的指紋資料工作模式是不是已經足夠優化來確保資料的搜尋與獲取?在最糟的情況中,我們的參與者發現資料的獲取甚至需要靠猜的。話雖如此,建立能符合使用者搜尋的自然語言標籤對於 Wikibase 編輯流程依然是非常重要的起點。在專案過程中所遭遇的困難則是未來的研究可以進行探索的題目。 ### 第二課:Wikibase 使用者中心的本體論是個好的方向。但是就長期來看這該如何進行管理? 通過 Passage,我們發現針對關注項目來建立可查證的描述可以獲得非常精緻的細節。這需要感謝 Wikidata 的資料結構 (Ontology) 已經擁有豐富的內容來支持創新的應用,並且針對未來通過社群建議來進行擴展有預先設計。新的 Wikibase 項目與屬性可以非常簡單的被新增以應對新興的需求。舉例來說,在地圖、海報、與相片的案例中便隨著參與者們討論如何描述非正規出版渠道的產物因而產生了新的 "日期" 子類型 "inception (初現)" 與 "production (生產)"。類似的還有在音樂作品案例中催生了事件相關的屬性如 "date of first performance (首演日期)" 以及 "location of first performance (首演地點)" 以及音樂類型如 "Motet (經文歌)"。 參與者們也注意到從圖書館以外的領域採用新的用詞來做為屬性的依據的潛力。舉例來說,在社交媒體中的用語具有文化的即時性,並且必定比樹木描述之中所使用的詞彙更新的要快上許多。採用新的詞彙並確保其可以被正確的理解,在新詞彙應用與建立教學指引方面是非常重要的工作。除此之外,部分現行的權威控制工作可以被導入 Wikibase 之中如 "use for (用於)"、 "reference (參照)"、 "scope notes (範圍註記)"、 "follows (跟隨)"、 "supersedes (取代)"、以及 "superseded by (被取代)"。這些概念的應用可以建立一套時間性的脈絡來理解詞彙的意義是如何演變。 不論如何,通過 Passage 專案顯示了,未來本體論的管理將會是一個非常重要的課題。舉例來說,為了確保用詞不會衝突,必然會需要長期性的管理。更重要的是 Wikidata 的資料結構中 (Ontology) 需要對圖書館需求對創意作品有針對性的改進。在 Passage 專案中我們限定了針對創意作品的描述需要指向最早的創意產品。但是應該如何描述階級化的或是順序性的創意作品資料如 FRBR[^104]、RDA[^105]、或是 Library Reference Model[^106] 並沒有在本專案中被探索。最後,通過檔案庫的案例顯示了不論是圖書館社群或是 Wikidata 的用語皆在平等、多元、以及包容等方面有所不足並且需要進一步加強。 最後,參與者們肯定 Wikibase 民主化的名詞定義系統,但是對其依然有所保留。因為如此的民主化系統不可避免的會產生互相衝突或重疊的提案,且並不一定完整,這樣的模式不是長久之計。或是說,這樣的系統反而將會導致愈來愈多的規範來進行管理與限制。為了避免這些問題,本體論與用語的管理或許需要透過如 MARC 諮詢委員會或是 PCC 這類系統來進行治理。如此圖書館社群便可能會採取類似於維基媒體生態系的工作模式,任何人皆可以建立新的維基百科條目或是 Wikidata 項目,但是只有一小部份的人可以對更加重要的結構進行修編。然後是由編輯者來學習如何橋接不同資料庫文化的工作傳統。 ### 第三課:Wikibase 平台整合 OCLC 的改進與獨立工具可以讓圖書館員更有效的獲取工作成效的回饋 Passage 專案展示了如 Passage Explorer 這類探索介面工具在實體創見與編輯工作流程中的重要性。通過這類工具的使用,編目者們也能評估其工作將如何影響其使用者經驗並且調整其工作。並且 Explorer 也可以作為工作進度的提示,顯示距離完整到底還缺多少。舉例來說,Sein und Zeit 的案例顯示了原始德文版本的翻譯版本,這是從資料及之中探索出來的資料,並不需要由編輯者來添加。 ### 第四課:本地資料管理需要完備的工具 圖書館社群現行的系統如 MARC 都是相當直觀的系統,通過一個簡潔的介面顯示了所有過往的紀錄與資料。但是鏈結資料系統並非如此,其成果往往需要通過媒介來對資料及進行處理、採樣、檢索、最後才能生成其樣貌。因此編輯者如果想要看到自己工作的成果將會是相對困難的一件事;或許會找不到自己剛剛所添加的內容,也可能發現與自己編輯完全無關的內容。並且如果他們希望在後設資料工作流程更後期來查找這些資料,當民主化的資料庫紀錄不再能夠被取用時他們該如何獲取這些資料。 這個問題在 Sein und Zeit 案例中有所顯示,缺失翻譯自與翻譯至的鏈結。幸運的是這個問題可以通過 Passage Explorer 對整個資料庫進行 SPARQL 檢索來發現缺失的資料並將其修正。事實上 SPARQL 以及其視覺化工具可以作為更完善的本地資料管理工具被開發出來之前的替代品。SPARQL 檢索系統可以協助後設資料建立者探索知識、檢視資料子集、然後發現並修正錯誤。SPARQL 的系統可以協助工程師開發下一代的使用者介面。 ### 第五課:需要專門的工具來協助外部資料的攝取與輸出以輔助圖書館社群的資料導入工作 為了近一步與外部資源做連結,OCLC 團隊開發了 Retriever 工具來協助編輯者通過字串搜尋,發現外部資料庫如 Wikidata、VIAF、以及本地的或是國家圖書館的權威檔案之中與關注項目相關的資料;編輯者便可以將這些指向相同的真實世界物件的資料進行整合,並導入至 Wikibase 平台環境之中進行強化。在這樣的編輯環境之中,沒有人希望重複做相同的工作。期望可以減少重複工作的現象正是採用鏈結資料最大的誘因之一,並且在專案第一天就被參與者們的討論中被提及。 在狀況允許的情況下,圖書館的舊有蒐藏 (legacy data) 應該要優先被導入。舉個例子,如果有一個數學系的大學教授即將退休並決定將她的個人著作、教學檔案、以及出版作品捐贈給大學的檔案庫。她手上或許會有符合 046[Special Coded Dates] 欄位記錄了她出生與死亡日期的權威紀錄;這些屬於 Extended Date Time (EDTF) 格式[^107],以便他們可以被理解為日期。出生地點則是記錄於 370 $a [Place of birth],然後教授的研究領域,數論,則是記錄於 372 欄位 [Field of Activity]。因為這是屬於一個人物的名稱紀錄,因此也可以將教授的職業記錄於 374 欄位 [Occupation],至於她獲得學位的學校以及她任教的學校則可以記錄於 373 欄位 [Associated Group] 之中。 在現行的環境下,編目者記錄這些欄位是希望在未來這些可以協助精準的確定人或企業。這些資訊對於辨別同名的作者或是不同作品的作者是不是同一個人相當的重要。但是這些紀錄不僅僅是出於需求也是出於編目者的專業態度,花費額外的心力通過標準化的語詞與格式化的日期來進行紀錄,以期這些資料可以在未來的系統中被讀取。雖然那個未來尚未到來,但是 Passage 專案顯示這些紀錄已經可以被使用了。 目前 Wikibase 的編輯介面可以對人物或企業實體賦予這些屬性,但是尚不能自動地從 Retriever 所導入的權威資料之中自動擷取相關的資料。但是,有鑑於 Retriever 可以在如此短的時間內進行如此多次的迭代,我們相信類似的功能被提出來只是時間早晚的問題。如果 Retriever 在未來可以自動填入如美國國會圖書館名稱權威標準中所要求的 RDA 那麼那麼編目者將能夠更直觀的理解自己的工作到底有甚麼作用以及可以被如何使用;那麼我們可以期待更多的人便會更加願意地對這些有用的資料進行紀錄。這些有關作者與作品的關係可以協助強化相關的鏈結資料關係。 ### 第六課:跨資源的輸入與輸出需要被強化 在 Passage 專案期間不斷重複出現的一個議題便是如何將 Wikibase 之中精緻化的內容反向輸出回去原始的外部資源之中。這基本上就是資料發布者的資料同步問題的翻版,詳細的討論可以見 2018 年 National Strategy for Shareable Local Name Authorities 的 Section 5[^108]。 ### 第七課:Wikibase 消彌了傳統權威檔案與書目資料之間的區別 不論是描述人、地點、物品、組織、事件、或創意作品都可以被紀錄為 Wikibase 實體,都擁有一個系統生成的 Wikibase 項目識別碼,一般上叫做鏈結資料識別碼 (linked data URI),並且內含許多與其他實體鏈結的聲明描述。正是因為這樣的共同性,不論描述的主體是 Nuper rosarum flores 或是 Maria Josepha 或是 Sun Yat-sen 抑或是這些歷史人物的相片、又或是這些相片的數位版本以及這些相片的蒐藏集都可以使用同樣的一套工作流程。換句話說,傳統圖書館後設資料管理工作中最重要的分界標準將會因為脫離人類可讀紀錄轉而採用知識圖譜而消失。然而這樣的轉換背後所需要的教育訓練、專業化分工、工作流程建立、社群自治等方面的影響有待未來進行更進一步的分析。 發現這些跨案例在工作流程上的共通性可以被視作本專案已經可以功成身退的象徵,但是在這專案中我們也發現了許多迫切需要額外關注的議題。 ## 反思與觀點 > Refection and Perspective 在 Passage 專案的最後一個月期間本報告的作者們齊聚一堂,幾乎所有的作者也都有參與案例報告。隨著 Office Hour 結束,他們重新集合並針對在專案期間所遭遇的長期議題與採納鏈接資料工作流程進行圖書館資源描述進行討論。 ### 從人類可讀記錄到知識圖譜的典範轉移 >The Transition from Human-readable to Knowledge Graph as a Paradigm Shift 編目者在進行資源描述工作時所進行的工作在新舊流程中有許多相似之處,雖然成果看起來截然不同。這自然地引起了問題:從重統紀錄建立到知識圖譜管理的轉換是否能夠稱作一次典範轉移?簡單來說,是的。但是為了更加完整的回答這個問題,本報告的作者們將分三個部分來回答:新出現的工作、消失的舊工作、以及依然需要的工作、流程、與價值。 #### 新出現的工作 >New Tasks 新出現的最重要的工作便是具體化一個新的概念。Kalan Knudson Davis 當他在處理 Minnesota Memories 蒐藏集的艾佛利兄弟的演唱會海報時發現這個問題。"當我們在這個新的環境中進行編目時" 她說 "我們被迫要思考,到底有甚麼實體是對這個物件來說是重要的?" 發現並確認 "重要的實體" 將會引領未來書目領域的發展。這至關重要的概念或許會取代傳統 "僅專注於手上物件" 或是 Cutter 所稱的 "標題教徒 (cult of the title page)"[^109] 的書目編輯思維邏輯。在鏈結資料的生態中,最重要的是發現實體之間與關注項目的關係。Davis 將其定性為 "書目學概念的重新構想"。這是支持典範轉移論調最核心的觀點。 #### 消失的舊工作 > Disappeared Tasks 當前工作流程終將會消失的工作主要集中於在書目資料與權威檔案系統中建立與標準化自然語言資料的領域。舉例來說,部分本報告的共同作者們承認他們花在 MARC 系統中與 ISBD 語法的時間 "多得令人尷尬"[^110],並且他們歡迎任何可以讓這種工作消失的新的方案。但是有關對照、鏈結、消岐義的工作或許難以被取代。在鏈結資料的環境中,自然語言的描述主要是供人類閱讀,因此不需要過度填加為了協助機器識別的內容;這主要會由機器可讀的識別碼來負責。 舉例來說,詳細的 Wikibase 屬性可以將不同版本的同一實體建立聯繫,如印刷版與數位板。比如在 Everly Brothers 的海報中便有其數位圖像資源與其紙本物件的鏈結。以下第一個是從 Passage 資料集中截出的描述,第二個則是通過人類可讀的英文所呈現的指紋資料。 1. <https://reflections.mndigital.org/catalog/pch:57#/image/0>\\< Q1225138> 1. The Everly Brothers at the Lakeside Ballroom, Glennwood, Minnesota—digital representation—Everly Brothers performance poster, July 27, 1965 在 MARC 系統中,同樣的關係無法保證能被完整的記錄下來,因為其與主體或客體之間的關係往往並不明確,並且可能是以非標準化的語句所記錄。 但是或許最大的影響將會是在對非英語資源的描述工作。舉例來說,對非拉丁語系的資源進行音譯對於無法使用這些語言的使用者來說非常有幫助,但是對於可以使用這些語言的人來說沒有任何意義。在如 Wikibase 的鏈結資料系統中並不需要音譯,因為資料模型最開始就被設計為多語言服務。音譯的需求可以被其他工具如 Google 翻譯來處理,並且也順便可以提供發音的功能。 另一個可能會消失的東西便是 MARC 紀錄之中的 "編目語言 (language of cataloging)"。因為 Wikibase 的實體已經包含了多語言標籤,編輯者並不需要再額外記錄其編目語言,因為這些資料會自動與 Wikibase 所支援的語言進行對應。因此當英文編輯者建立了機器可讀的聲明 "Albert Einstein - occupation - physicist",西班牙文的使用者會看到 "Albert Einstein—ocupación—físico”,同樣的波瀾使用者則會看到 “Albert—Einstein—occupation—fizyk",其他語言同理。使用者可以非常簡單的通過更改編輯介面的瀏覽語言來在不同的語言版本之間切換。 然而不論如何,依然需要部份人類可讀的純文字串需要被手動輸入以作為指紋資料或是部分聲明的內如。這個部分偶爾造成了一些困惑,比如說一個英文使用者就會看到 "Being and Time 是譯自 Being and Time (而非顯示德文的 Sein und Zeit)"。但是就如同在 Sun Yet-sen 的案例所顯示,語言標籤是越多越能協助資料在搜尋中被發現。 這個案例也引起了識別碼是不是能夠取代權威控制工作的討論。還在一個鏈結資料的系統中,編目者不再需要針對每個語言建立一個消岐義的偏好名稱如 中華民國的國父 (Sun Yet-sen、孫中山、或孙中山)。區別化的工作將會由機器可讀的識別碼來處理。因此我們可以將 Wikibase 的識別碼視為 "描述並區別實體與其他實體之間的後設資料綜合體的代表" [^111]。針對這個現象的影響還有待研究者們進行。 #### 依然需要的工作 > What is still necessary 依然需要的編目工作是三者中最多的一個,這是好是因為這代表鏈結資料,或是更廣義的來說一個使機器系統可以更深度探索資料之間關係的資料結構,跟圖書館領域的資源描述工作相性良好,因為許多最重要的核心價值可以直接互通。但是轉換為知識圖譜工作模式也帶來了許多的複雜的新方案。話雖如此,但就如同 Christine Fernsebner 所說: > 我們發現轉換至 Wikibase 比起在 ILS (整合式圖書館系統)[^112]之間轉換要來的簡單。雖然在概念上需要轉換,但是這個轉換感覺相當自然,像是現行系統自然發展的結果。並且更加著重於 "具象化 (entification)" 以及超越 "終端 (access points)" 的再利用。 ##### 解釋性脈絡 > Interpretive Context 解釋性的脈絡在大多數的資源類型依然是重要的內容,特別是數位圖像以及檔案館蒐藏的資源。如同在 Temple University 的案例中所示,"描繪 (depicts)" 屬性並不能完全取代現行圖書館後設資料之中的 "主題 (subject)" 標籤,兩者各有其用途。針對圖像中所描繪的人、事、地的指紋標籤與結構化描述可以協助資源的分類與探索,但是這並不足以完整的呈現其文化與歷史脈絡。這個案例同時也顯示了在知識圖譜之中,重要的結構化資料可能會距離關注項目數個實體之外。為了有效地呈現這段關係,必然需要通過別的媒介或是通過查詢來獲得,遠比一頁人類可讀的資料來的複雜且容易出差錯。 ##### 結構化資料與陳述性資料 > Structured and Narrative Data 確實結構化資料可以使資料更好的被機器以及其他外部應用在做使用。但是我們需要更好的工具來協助結構化資料的建立並將這些精緻的資料呈現出來。或許這便是 Wikibase 是如此設計的原因之一。Wikidata 被設計來做為蒐錄所有有關項目或屬性可查證事實的結構化資料的知識圖譜。Wikipedia 則是專門蒐錄與關注項目相關的人類可讀的內容資料。而 Wikimedia Commoms 則包含了與數位資源相關的結構化數據如所有權聲明以及技術性後設資料。 這三者的分工可以通過對 Alfred Bierstadt's 畫作 "The Rocky Mountains, Lander's Peak" 來展示。在 Wikidata 項目中[^113]包含了有關這個畫作的結構化描述以及其目前除存在 Fogg Museum 之中。其他有關這個圖像資源的結構化資料則可以在 Wikimedia Commons 之中找到[^114],比如檔案大小以及版權資訊。最後在 Wikipedia 上面則是蒐錄了有關 Alfred Biestadt 的生平[^115],出生於德國並就讀了 Hudson River School 的畫家。於 1850 年至洛磯山脈出遊時因為突然理解了自己正在經歷 "全世界最好的藝術材料" 而有了藝術方面的突破。這些描述,雖然理論上可以通過結構化資料來被記錄,但是整個流程大概會需要額外針對許多較不重要的項目以及屬性進行額外定義。 結構化資料與敘事性資料之間的互動貫穿了整個 Passage 專案。專案的參與者們最終的結論雖然兩者對於圖書館領域的資源描述工作來說都是相當重要,但是結構化資料的建立具有更高的急迫性。不過 Washburn 以及 Mixter 認為 Wikipedia、Wikidata、以及 Wikimedia Commons 的三方合作結構依然可以被投射至圖書館領域的系統之中如 CONTENTdm[^116]。這個思想實驗需要稍待未來討論如何重新定義敘事資料時方可進行深入探索。 #### 最佳實踐依然重要 > Best Practice are Still Important 專案中的每個案例皆顯示了在 Wikibase 之中建立結構化資料並不是單純的輸入資料,還需要對其進行雕塑。OCLC 在協助頁面之中提供ˋ了一些指引,但是許多的建議是來自團體討論之中,比如以下: * 各個資源類型皆應要收錄包含其關鍵屬性的聲明。 * 每個結構化描述皆應該要連結至一個外部來源以提供其權威性或真實性的評估。 * 使用 Wikibase 內部所定義的用詞,如果有額外的需求出現才提出對其擴展的請求,但是這需要經過嚴謹的思考與檢視。 * 為解讀關注項目所需要的真實世界項目建立指紋標籤,如果項目不存在,請幫他建立。 * 當在描述翻譯作品時,使用 "亦稱 (also known as)" 來輸入其原始語言的標籤名稱。這樣可以確保如上述例子中英文使用者的搜尋結果可以正確揭露 Being and Time 是譯自 Sein und Zeit。 以上這些建議皆是在專案中通過一次次的討論自然的發展而來。不過這個清單還可以通過歸納現有工作流程的經驗來進行完善。舉例來說,統一化標題可以協助工作流程的標準化。在 Passage 之中,實體的指紋資料也有作為統整工作內容,協助避免重複建立實體的功能。另一個可以採納的書目學概念 "core" 則是用來定義一段描述的範圍。這個概念可以協助避免 Passage 蒐錄過多從書目學來說不重要的元素。Svenonuys (2000) 便點出了建立描述的成本與其中所包含的資料元素成正比[^117]。在未來 Lubetzky 的問題 "這條規則是否必要" 將會成為 "這個 [鏈結資料] 實體或關係是否必要?"[^118] Svenonius 也點出如果書目資料所描繪的事實與現實有所衝突要以現實世界為主。傳統上來說,編目者的工作便是通過註解來解釋或是釐清混雜錯誤的資訊。Wikibase 也有一個類似的建議 "Wikibase 並不在於建立事實,而是蒐錄聲明與其依據"[^119]。這個建議也經常在編目工作處理建議名稱的時候被採用。編目者知道建議名稱並不一定隨著不同的語言而有所變化,而是根據建立這些編目描述的國家書目系統所做的決定。在 Wikibase 之中的標籤會隨著瀏覽器介面的語言改變可以搭配一個出處聲明。未來或許編目工作者會主導決定這類參考與聲明何時以及如何失效。 一旦最佳實踐有所共識就可以轉會為一般性的指引來協助不是圖書館員的主題專家們來進行工作。如同以上數個案例所示,知識圖譜的工作流程模糊了圖書館員與學者之間的界線。如果主題專家們願意提供更多的細節,為何不通過 Wikibase 所支持的 "眾源" 模式來接納他們?如果工作流程可以通過模板化的指引其成果一定會更加有效。在 Passage 專案中這類最佳實踐的建議是 OCLC 工作人員們通過扮演導師撰寫教學或是提供不同資源類型的關鍵屬性的建議來進行。但是在更大規模的環境下,這些指引應當由專家社群來建立。 #### 圖書館員依然會為權威性與品質來把關 > Librarians Will Still Uphold the Values of Authoritativeness and Quality 與維基媒體的內容建立文化的初接觸讓許多人有一種 "任何人都可以對任何事做出任何評價" 的印象,這與圖書館員建立信任、事實、權威、以及品質的需求有所衝突,所謂 "權威檔案" 正是這些需求下出現的產物。OCLC 的工程師們通過簡介參與者們 Wikibase 確保資料品質的機制來挑戰這一印象。他們強調,這些機制與圖書館員所追求的目標是一致的,並且建議在進行編輯時將其納入工作流程之中。舉例來說,OCLC 建議在每個聲明之中都要標註其來源。通過這些來源資料 Wikibase 邊可以進行可信度的評比來解決互相衝突的聲明。同時類似的工作也可以針對個別聲明來使其失效。 除此之外,Wikibase 對於外部識別碼採取開放性的態度,可以將多個外部標識碼合併到單一實體之中,這可以推斷出,一個完善的現實世界物件比一個記錄不全的物件有被蒐錄於更多的資料集之中。然後,Wikibase 通過編輯紀錄與討論頁面來提供人類可讀的紀錄來協助評估資料的可信度。通過這些機制的介紹部分參與者們對於維基編輯文化的印象稍有改觀。 ### 重新定義 "眾源" 工作 > Reinventing Crowd-sourcing 通過 Wikibase 的編輯介面 Passage 的參與者們看見了以眾源工作模式豐富知識圖譜的潛力。這個工作通過討論頁面以及編輯紀錄來強化,其中編輯紀錄註記了使用者名稱以及進行編輯的時間戳記。反觀在現行的資源描述工作的 MARC 系統中僅能以 "touched (修改)" 標記,卻沒有記錄到底做了何種修改以及由誰進行修改。相關的討論都在編及環境之外進行,藉由專業 Listservs 來進行,與被修改的內容完全脫節。並且需要花費額外的心力來蒐集來自博物館人員、主題專家、以及其他相關第三方團體的意見,其並不常加入圖書館社群的 Listserv 討論之中。 雖然編輯紀錄的系統非常完善,但是參與者們依然擔心 Wikibase 的眾源工作模式所蒐集的較低品質的資訊會稀釋圖書館領域精心規劃的資料。這個問題的核心在於,一群人當中每個人都將有著自己的專業與知識,但是不是所有人都適合進行特定的工作。但是不可否認的是,這群人當中或許有著可以輔助圖書館員的資訊,舉例來說,熟悉非英語或是非拉丁語系的學者可以協助豐富圖書館員以及檔案館人員所建立的後設資料。如果這些社群專家可以進一步地與工作人員互動必定能夠更加整體工作效益。 另一個更加理論性質的問題是眾源工作模式所產生的用詞可能無法即時反應至圖書館社群所管理的控制詞彙庫之中,導致其缺乏使其可以被機器閱讀的識別碼。比如說社群可能會從社交媒體中擷取新的詞彙,但是這些詞彙可能需要數年後才能被收入圖書館社群的控制詞彙庫,或是這些社群提供的詞彙使用了較為少見的縮寫。但是這些用詞可以被出現在所謂的 LibGuides 或是蒐錄與管理圖書館領域特定資源的網頁中。 為了最大化眾源工作模式的效益並最小化其風險,參與者們總結了幾個新舊方針。 最基本的方向便是看看舊有的研究怎麼說。比如說 Social metadata for Libraries, Archieves and Museums[^120],一份 OCLC 的報告建議眾源工作需要有清楚的目的性並且有明確的規範來主導。圖書館需要利用志願者們對於貢獻的興趣。反直覺的,該報告的作者點出圖書館社群並不太需要擔心洗板或是濫用的問題因為根據他們的經驗顯示大多數的志願者是帶著善意來進行貢獻。最後該報告建議追蹤眾源內容的使用情形來代表成功度的資訊。 另一個方向則是 Wikibase 本身。如在本報告 15 頁所提到的 Wikibase 編輯介面對於非圖書館員且沒有其他輔助工具協助的普通貢獻者來說到底能有多好的表現?這個議題超出了 Passage 所要探索的範圍,但是這會是個非常具有潛力的方向。其中一個相當吸引人的假說是 Wikipedia 以及 Wikidata 的自治工作模型可以被採納進圖書館領域的資源描述工作流程,因為其顯示了高品質的內容會獲得更多的吸引力並且透過眾源流程改善其內容,而較低品質或是內容不佳的 然而,在這類眾源環境之中的爭議調解一直都是爭議性的因為就算是在一個強調權威性與客觀性的編輯環境之中也無可厚非的將會具有強勢社會群體的偏見,導致無法接受不一樣的觀點。這個議題是源至於天普大學 (Temple University) 的同志學生社團照片的案例。因為在操作這個案例的資源描述時無法完整建立結構化的描述,因為 Wikidata 的資料結構 (Ontology) 之中缺乏與 LGBTQ 相關的概念與詞彙。缺乏代表性的問題也在 WikiConference North America 2018 之中於弱勢族群、性別平等的段落被特別關注與討論[^121]。 如果 Wikipedia/Wikidata 模式在管理眾源資料的成效不彰,更精準的,針對第三方貢獻的管理與檢視可能會是更加滿意的方案。舉例來說,為了解決非控制詞彙的問題,圖書館社群的眾源倡議者可能會建議指紋資料的描述限定使用已經在資料庫中有被定義的項目。如此的決定將可以為變體標籤與已經有識別碼的描述建立集中點。 如果眾源的貢獻有超越結構化資料所能記錄的細節資料並且也無法被放入指紋資料之中則可以視作補充資料另外被儲存圖書館後設資料專家來進行檢視與整理。如此,眾源資料的管理便可以被理解為輔助結構化資料的敘述性資料管理工作。在更大的規模上,眾源資料可以通過治理結構或是共同協議來進行。PCC 在 NACO 的 Identity Management 工作團隊已經在調查可以如何的與 Wikidata 建立策略性合作[^122]。 但是當鏈結資料工作模式被採納之後,不論圖書館社群如何接受眾源工作模式,Wikibase 生態系上成熟的工具與應用程式只會提供更多的方法來進行資料的接收、評估、與管理。 ### Wikidata 與其他外部鏈結資料來源的互通性 > Interoperability with Wikidata and Other Sources of Linked Data 在 Passage 之始,OCLC 的工程師便下了兩個決定:使用 Wikibase 作為主要工具,以及通過本地部屬 Wikibase 套件來進行實驗而非直接在 Wikidata 上進行編輯。在本篇報告的簡介便有說明為何要使用 Wikibase:因為 Wikibase 比起現行的圖書館社群鏈結資料解決方案能更好的展示鏈結資料的優勢;已經擁有相對成熟的體系,就算是相對不諳技術的人員也可以快速上手;再來就是他已經有許多內建的功能來協助跨語言的眾源工作。但是要與 Wikidata 作分割的決定對於一個短期專案來說只是權宜之計。因為一個完全獨立的運行個體可以擁有相對獨立的空間來進行實驗與調整並最小化失敗的風險。 #### 本地的 Wikibase 運行個體 > Local Wikibase Instances 隨著專案的推進,愈來愈多的跡象顯示獨立的 Wikibase 運行個體或許也可以作為一個長期的方案。比如說重要性、權威性、以及可信度方面圖書館的需求與 Wikidata 社群的標準有著明顯的落差。並且 Wikibase 的編輯介面也不完全符合圖書館的資源描述工作流程;指紋資料在幾乎每個案例的操作中都有著不小的困擾。另外在 Wikidata 社群之中的一些討論也暗示著 Wikidata 或許不適合做為圖書館社群對鏈結資料需求的靠山,因為 Wikidata 是希望成為能夠蒐納全人類知識集合的資料庫[^123]。 另外這並不是 Wikbase 第一次被本地佈署於圖書館社群的脈絡之中。比如 Mellon 資助的由 Michigan State University 研究員所主導的數位人類學專案 Enslaved.org[^124] 便是以本地佈署的 Wikibase 套件作為其技術骨幹。另外法國的 ABES 以及 Bibliothèque nationale de France[^125] 以及 Deutche Nationalbibliothek[^126] 都有在計畫進行 Wikibase 相關的實驗。另一個相關的計畫是最近由 Universität Erfurt 研究員所宣布的 FactGrid 專案[^127],這是一個使用本地 Wikibase 套件來蒐集史實資料的計畫。在 2019 年四月,該大學宣布了與 Deutsche Nationalbibliothek 簽署的一份備忘錄[^128],同意 FactGrid 將會基於 GND 之上[^129] ,一個由 Deutsche Nationalbibliothek、德語圖書館聯盟、以及其他相關圖書館所共同管理的一套權威資料整合系統。 如果這個潮流繼續加速,就算已經從人類閱讀的紀錄轉換為知識圖譜的工作模式,圖書館的資源描述工作依然會基於各個相互獨立的資料集之中。如果真是如此,現在我們便可以開始設想未來各個資料集之間應當如何互通。在 Passage 的案例中,從 Wikidata 所導入的各個實體皆有被額外加工改善。那這些資料是否應該被導回 Wikidata 之中?或是對應的 Wikidata 應該要鏈結至這些外部的圖書館資源,就如同 FAST、VIAF、以及 id.loc.gov 一樣? #### 與 Wikidata 的直接合作 > Direct Collaboration with Wikidata 上述的議題其實也可以被視作治理以及名譽管理的議題,而非資料管理的後勤問題。如果從這個角度來切入,那我們便應該要注意到 Wikidata URI 其獨特的地位,那便是其實他早已被圖書館領域的鏈結資料庫所接納成為其參考資料的一份子;如 Albert Einstein、New York City、以及許多其他書目世界中所蒐錄的真實世界物件皆有使用。這個地位是在一個 2017 年被 MARC 諮詢委員會所採納的提案[^130],其中定義 $1 子欄位將會提供符合 RDF 格式的真實世界物件描述來做使用。在該提案中的討論例子以及後續的文件[^131] $1 子欄位往往都被填入 Wikidata 的 URI。 另外一個接納 Wikidata 的例子是在 PCC 的 2018-2021 策略方向 (PCC's Strategic Directions for 2018-2021)[^132],其中有這麼一個方針 "加速獨特識別碼的建立以及聯盟等級的身分管理工作"。這個聲明符合 PCC-sponsored Linked Data Advisory Committee 2017 年白皮書 Linked Data Infrastructure Models: Areas of Focus for PCC Strategies[^133] 的內容,其中指名 Wikidata 作為 "資料集中轉站",並在連結各個識別碼的工作上扮演著 "重要的角色"。Wikidata 也在 OCLC Research Library Partners Metadata Managers Focus Group[^134] 中被點名作為識別碼名稱的參考對象。[^135] 在 2018 年,Andrew W, Mellon 基金會資助了 Linked Data for Production: Pathway to Implementation 專案,或是 LD4P 第二階段。其中與 PCC 合作計畫要發展一個 "雲端運行的編輯沙盒來協助各個圖書館來進行鏈結資料的建立與重用",並且將會 "通過與 Wikidata 合作來整合網路以及圖書館的後設資料和識別碼"。[^136] 綜上所述,這些趨勢顯示 Wikidata 以及本地佈署的 Wikibase 個體之間的關係是相當重要且值得進一步研究的主題。部分提示暗示了一個解決方案便是將圖書館資料中重要的人事物資料紀錄於 Wikidata,然後通過本地個體來管理其他的資源內容。但是另外一個方案便是提議更進一步地將圖書館社群和 Wikidata 以及維基媒體社群做整合。兩個方案的論述皆有列於上述提及的 ARL 白皮書之中[^137]。為了找到最有效的合作關係以便建立更多更好的資源描述仍然需要許多的探索。 從技術性的角度來看,這個討論只是經典問題中央集中或是分散式資源管理的再現。這個議題在 IMLS 所贊助的 National Strategy for Shareable Local Name Authorities National Forum 中有所探索,並且被蒐錄於 2018 年的報告與參考模型之中[^138]。不論結果如何,開發中的資料及必定會有可以與鏈結資料相容的結構,保證了遠高於現行圖書館標準所能達到的資源互通性。 ## 未來展望 > Looking Forward 2019 年四月,當這篇報告即將發布,於 13 頁 "專案成員" 段落所提及的圖書館社群對 Wikidata 的興趣愈發明顯。舉例來說,PCC 便計畫在國會圖書館舉行一場研討會 Intro to Wikidata[^139],由 National Library of Medicine、數個美國的維基媒體社群、以及 University of Virginia 和 National Institution of Occupational Safety and Health 的常駐維基人所協助。該工作坊的目標是協助署名圖書館社群的成員認識 Wikidata 針對人物或企業實體的建立工作,並將結果與現行的圖書館社群工作流程做比較。 在 2019 年四月 23 日,Hilary K. Thorsen,Linked Data for Production 專案[^140]的常駐維基人將會舉行 LD4 Wikidata Affinity Group[^141] 的就職會議。他將會協助進行 Wikidata 項目實體的貢獻工作,並與專注於重要性、本體論發展、以及工具開發等議題的 Wikidata 社群進行接洽。許多 Passage 專案圖書館員們皆有參加這類的活動。 OCLC 的研究員們也在圖書館與維基媒體社群之間積極擔任領銜人的角色。比如說在 Klein 與 Kyrios (2013) 的專案報告中[^142] 便建立了成千上百的鏈結,連接維基百科與 VIAF。作者們表示這個成果 "展示了圖書館通過開放的網路平台來將其原本孤立化的知識如編目資料或權威紀錄向大眾開放的機會"。近期 OCLC Research program Libraries Leverage Wikimedia[^143] 收到了來自維基媒體基金會的資助來為圖書館社群建立一套教學課程。在 2016 年 OCLC 通過 Wikipedia + Libraries: Better Together 專題贏得了 John S and James L. Knight Foundation 的 2016 年 News Challenge for Libraries 獎項[^144]。並於 2018 年六月 OCLC 研究員與來自哥倫比亞特區維基媒體分會的Andrew Lih 以及 Robert Fernandez 一同合作建立了 Introduction to Wikidata for Librarians: Structuring Wikipedia and Beyond[^145] 的網路研討會。 作為 Passage 專案的後續,OCLC 繼續在技術領域探索如何通過 Wikibase 進行圖書館的資源描述工作。研究員們針對他們安裝並佈署 Wikibase 的經驗做了報告[^146],後續還有更多的知識分享活動正在計畫中。 受到 Passage 所啟發資源描述專案在 OCLC 中也有持續與圖書館社群合作進行,比如: * 結構化資料、敘事資料、與圖像資源的關係,啟發自 Wikidata、Wikipedia、以及 Wikimedia Commons 之間的互動;這在 CONTENTdm® 之中有所探索,這個專案在 2018 年收到來自_國際圖像互通架構 (IIIF) 的支援[^147]。IIIF 是在應用程式介面設計的業界標準,旨在為數位圖像建立更加豐富更加詳盡的體驗。IIIF 與本報告中所提的機器可讀文字資料完全相容。 * 一套由社群所開發的檔案庫本體論[^148]被提議作為 Schema.org 的擴展,其設計有與 Wikidata 的本體論進行調和,並且已經被 ArchiveGrid 所採納。在 Schema.org 中許多擴展項目已經被推進至 "等待中" 的階段。(1758 與 1759 期)[^149]。 * 有關如何流暢的從現行圖書館資料資源轉換至實體/關係基礎的結構的研究正在進行中。舉例來說,根據 MARC 諮詢委員會在 2017 年通過的一項提議,Wikidata 以及其他 Wikibase URI 可以通過 $1 被加入至 MARC 紀錄之中[^150]。這項提案正是藉由 OCLC 的研究以及產品管理人員的建議所開發。 Passage 專案為參與者們提供了獲取親手建立結構化資料並將期輸出為鏈結資料的的經驗。專案的成果除了數百個新的 Wikibase 項目之外還有許多新的工具來協助建立與審視成果的工作。除此之外,通過這段經驗也帶來了許多的知識與智慧可以與大家分享,以及許多可以在未來進一步探索的具體目標。這些成果都會協助將這個專案所代表的典範轉移具現化,建立道路將社群從 1960 年代沿用至今的標準帶向 21 世紀,採用全新的結構化文字資料,承諾將會建立更加強健的鏈結來連接圖書館社群與世界。