# Passage 專案中的資源描述研究 > Studies of Resource Description in Passage * [回目錄](https://hackmd.io/@wikidata-tw/oclc2019report) ## Wikibase 編輯介面進行後設資料創建案例 >Use Cases in Library Metadata Creation Using the Wikibase Editing Interface 在專案的過程中,OCLC 團隊開發了兩個工具來強化其編輯工作流程:Explorer 與 Retriever。Explorer 是一個專門用來進行探索工作的使用者介面;Retriever 則是一個外部資源探索工具,發現 (與項目) 相關的描述並將其導入 Wikibase 環境準備進一步修整。兩者皆是為了因應專案參與者的需求而開發,只在減輕資源描述工作的負擔並更佳的展示工作成果。 以下的使用案例皆是來自本報告的作者們;皆是節錄自專案期間 20 多小時的虛擬會議,並以 OCLC 社群中心和線下內部討論的報告進行補充。 部分參與者在專案前便已經有鏈結資料的工作經驗,並熟悉 Wikimedia 以及 Wikidata 生態環境。但是 Passage 專案的目的並非僅僅學習如何進行編輯,而是有著更為挑戰性的目標;他們被挑戰要用創新的格式,不同的模型,依據不同的需求對手上的資源進行描述工作,將他們所擁有的知識與經驗通過嶄新的形式來使用。這樣的實務實驗激發了許多針對新舊工作流程的想法與討論,詳細的內容我們將保留到最後的 "學習與反思"(57頁) 段落進行討論。 參與者們對於鏈結資料領域的經驗在專案初期也造成了一定程度的術語混亂,因為 Wikidata 的術語[^55]對部分鏈結資料的用語提出了新的定義,使的原本就已經相當抽象的用語更添混亂。舉例來說,Wikibase 的 Item(項目) 其實系指鏈結資料 Entity (實體),或稱 Real-World Object (現實世界對象);而在 Wikibase 之中 Entity (實體) 則是指稱通過 RDF 編碼並擁有統一識別碼的現實世界對象頁面。本報告中以 Wikidata 的術語為主,除非另有定義之。 這些使用案例並非事前規劃,而是來自參與者們自行決定的議題,並在會議期間自行主導其討論。OCLC 成員主要通過教學以及根據現有文件提出屬性的使用建議來從旁協助討論的進行[^56];OCLC 的工程師們也會協助尋找 "Item of Interest (關注項目)" 來促使實務實驗的進行,其可能是個人物、地點、組織、物體、事件、又或是創作作品。當關注項目被確定後,參與者們便通過上述的編輯工作流程來對其進行描述。通過編輯介面的操作,使用者宣告項目,系統便根據宣告生成 HTML 頁面並隨之安排一個獨特的 URL,然後通過添加指紋描述與一兩筆聲明結束項目創建工作。在專案後期,另一個工作流程也被提出並被實驗:通過 Retriever 來在外部資源中搜尋並導入既存的描述,然後此之上進行項目創建。 以下案例報告為整理並標準化之結果以便閱讀。第一步將會定義其關注項目,確立其真實世界標的,並討論其重要性。下一步是根據 Wikibase 編輯器的要求建立其指紋描述。第三步同時也是難度最高的部分便是通過 Wikibase 聲明來連接新建的項目與其他項目。因為其成效是碎片化的知識圖譜,為了方便視覺化閱讀,我們將其整理為類似以下圖八的形式:白色方框代表項目實體資料,而黃色方框則是關注項目的資料;其下屬性也都與其他項目實體進行鏈結。 圖八。知識圖譜片段結構圖 根據現有的工作流程,以下案例分別進行了有關書目資料、權威描述與整合的實驗: * 兩所機構分別進行了有關非英語語系描述創建的研究 * 四所機構進行了有關圖像資源的研究 * 兩筆有關檔案庫與特殊蒐藏的研究 * 以及一筆有關 15 世紀與教會活動相關的音樂作品研究 以上研究,依據主題進行歸類,搭建起了專案的主要成果以及反思 (見 59 頁)。最先檢視之兩筆研究主要涉及編輯工作以及資料本體論 (Ontology) 的設計,其內容將貫穿剩餘的所有案例。 如同最初所預見,Passage 專案的編輯工作流程將會建立在 Wikidata 資料本體論 (Ontology from Wikidata) 之上,但是依然需要使用者操作來為項目添加指紋描述與標籤。對於一個廣為人知的作者如 Douglass Adams 來說這樣的工作相當直觀,只需要為其添加別名 ("Douglass Noel Adams"、"Douglass Noël Adams"、以及 "Douglass N. Adams") 和其職業 (英國幽默作家) 即可。然而事情總是沒有想像中的簡單。 雖然在描述建立的任務上我們並沒有預期明確的成果,OCLC 團隊依然針對創意作品相關的項目設下了兩個關鍵性的決定。由於這在圖書館領域的後設資料創建工作中是相當重要的題目,我們沒辦法在短時間內對其鉅細靡遺的進行規劃;而是訂下了方針,希望參與者們可以著重於鏈結資料的特色,主要關注於 "第一個透過創意而被產生的作品,其具有至少一種物理載體供人進行體驗" 。 對於一個翻譯書籍而言,如 "Works, translations, and Chinese-Languages descriptions (創作、翻譯、以及中文描述)" 所提及的情況,這個方針促使了大家針對 "原始版本" 進行了許多思考;其可以通過 "translated from (譯自)" 這一屬性與譯品進行關聯。至於圖片資源的部分,相關討論在 "Visual Resources (圖像資源)" (39 頁) 找到;其工作主要涉及針對原始地圖、相片、或海報等實體載體進行描述,並且可以通過 "digital representation(P6243)(數位描繪物)" 這一屬性來與網頁資源做關聯。這些議題對於建立一個創意作品的資料模型至關重要,並且也與 OCLC 先前的研究成果[^57]相呼應。然而這樣的工作需要整個社群一同努力才能獲得更完整的成效,詳細於第 61 頁的討論中。 ## 創作、翻譯、以及中文描述 > Works, translations, and Chinese-Language Description 兩個案例關注於 Wikibase/MediaWiki 的多語言資源描述工作能力。不過在深入細節之前先讓我們後退一步。 在如 Wikidata 這類的軟體中,其目標是為單一實體 -- 如 Douglass Adams 建立一個獨特的項目來讓全世界的資訊消費者所查找並使用。通過編輯介面,Douglass Adams 的英文編輯者可以創建一系列結構化的聲明來讓不同語言的讀者來閱讀,不論這些讀者使用的是德文 (de)、中文 ((zh)、沃洛夫文 (wol)、他加祿語 (tgl),或是其他 300 多種語言。編輯者完全不需要具備其他語系的任何知識,只需要讀者在閱讀時將頁面切換成自己的語言即可。 這樣的效果只有當系統中沒有重複存在的項目時才能達到最大化,當然這只是期望值,事實是可能有不同的編輯者使用不同的語言同時針對同一個實體編撰不同的項目頁面。所幸的是 Wikibase/MediaWiki 軟體套件之中支援使用自動化程序 (或稱機器人[^58]) 來對整個資料庫進行搜索並發現重複項目然後進行處理;同樣的工作也可以通過人工來進行。 當通過 Wikibase 來進行多語言資源描述工作時,至少需要執行以下之一的工作: * 相關專家或後設資料圖書館員宣告了一個項目,並通過數個語翻譯或多語系工作高度相關的結構化資料對其進行描述。 * 編輯者將瀏覽器設定為特定語言,並向項目添加指紋資料。舉例來說,Douglass Adams[^59] 的 Wikidata 項目頁面便有被德國編輯者們添加了德文的指紋描述 "britischer Schriftsteller";但是截至 2019 年四月,其沒有任何亞拉岡語 (arg) 的紀錄因而默認至英文的 "No description defined"。 * 將瀏覽器顯示設定至期望的語言,並對關注項目進行編輯,為可認證的事實編輯結構化描述。讀者可以自由地通過更改瀏覽器語言來在期望的語言中閱讀這些資料。 第一種便是 Karen Smith-Yoshimura (研究員) 以及其 OCLC 同事們所希望研究的目標。而另外兩種則是由 Xiaoli Li (研究員) 以及其在加利福尼亞大學戴維斯分校圖書館 (University of California Davis Library) 的同事們所探索。他們的研究展示了通過 Wikibase 的系統,中文編目者可以非常輕易的將中文史中的重要人事物實體之中添加描述與資訊。這幾個探索顯示了機器可讀的資料集可以產生準確的結果,並且這很有可能取代部份現在的工作模式。其中的內容也在 Li (2018)[^60]有所討論。 ### 哲學著作的翻譯 > A translated Work of Philosophy 世界文化與知識遺產的精隨是通過翻譯來進行分享,一個經過歷史考驗的文化交流渠道。2013 年由 OCLC 所發起的 WorldCat 分析發現,四千五百萬的作家中有 7% 的作家的作品有被翻譯成為至少一種其他語言[^61]。在 2017 年的一個 OCLC 研究中發現 Wikidata 已經蒐錄了超過一百八十萬本書籍的資料[^62],其中大多數有數個翻譯版本,這是最適合評估其全球影響力的最佳指標之一。 因為其大多數也都有 OCLC 識別碼 (即 OCN),這些資料可以非常輕易的被跟來自 WorldCat 的 MARC 資料進行對照。通過節果我們發現 WorldCat 對於部分書寫系統有很完善的支援如中文或日文,但是其他的非拉丁語系的內容則大多僅有羅馬拼音化的描述。尤其在俄文與印度文方面的後設資料的內容甚至只有通過音譯來描述,就算是母語使用者也很難對他們進行搜索並獲取其資訊。相較之下,Wikidata 的實體資料可以通過 Wikibase 的多語言系統來呈現,因此比起 MARC 紀錄更容易被非拉丁語言的母語使用者通過自然語言來檢索。 相較之下,Wikidata 的實體資料可以通過 Wikibase 的多語言系統來呈現,因此比起 MARC 紀錄更容易被非拉丁語言的母語使用者通過自然語言來檢索。 編輯一本書以及其翻譯作品是 Passage 專案中的第一個使用情境,同時也是指派給參與者們的第一份作業。為了協助新使用者進行探索,OCLC 事先向 Passage 專案中的 Wikidata 協助頁面添加了一份新的文件,如表二所示,其中為創意作品以及其翻譯作品的編輯提出了諸多建議。 表二。創意作品與其翻譯作品的建議屬性。(原始資料)[^63] 參與者們也在這個主題中討論了有關 "音譯" 屬性的可能性,因為不是所以人皆可以閱讀非拉丁語系的內容。因此,作為實驗性探索的一部份 "音譯" 這個新屬性被添加進了 Passage 專案之中,並伴有副屬性 "ALA/LC 羅馬拼音"、"Wade-Giles (威妥瑪) 拼音"、和假名拼音;並保留添加新的拼音系統的可能性。 被選作關注項目的書籍是 Sein und Zeit (存在與時間),由德國哲學家 Martin Heidegger 於 1927 年所著的一本重要哲學作品。根據英文維基百科的條目內容[^64],*Sein und Zeit 是 20 世紀最具突破性的哲學作品之一,影響諸多後世的哲學思想如存在主義、解構主義、詮釋學 (hermenuetics) 等著重於人類觀點研究的學術思想。因此這本書有著相當豐富的出版史,包含各種的翻譯與再版;並且也是許多分析、研究、以及學術著作的主題。 OCLC 早在 Passage 專案之前就對 Sein und Zeit 的書目資料有著高度興趣。舉例來說,Sein und Zeit 便與一眾其他哲學著作一同從 WorldCat 中擷取出來,選入 CatVis[^65] 專案的資料集之一;CatVis 專案是由 The Netherlands Organisation for Scientific Research (荷蘭科學研究組織)[^66] 所贊助的研究計畫,旨在建立一套先進的視覺分析工具來協助數位人文研究者對圖書館的蒐藏進行研究。 最初的分析顯示,表二的內容雖然技術上來說可以直接從 MARC 格式的紀錄中提取,但是因為空缺或錯誤的資料數值,以及大量的多語言書目描述,導致自動化的工作難以進行[^67]。綜上因素,從 MARC 紀錄對其建立可視覺化的探索性知識圖譜工作並不順利。 如同於本章節之導論所述,OCLC 針對作品相關議題有定方針:專注於具體、可觀察的特徵,而非如同 FRBR 以及相關模型所重視的抽象的概念。因此在此我們所關注的便是原始版的 Sein und Zeit,以及由此而出的翻譯作品。圖九便是在 1927 年所出版的第一版 Sein und Zeit 的照片。 圖九。由 Martin Heidegger 所著,第一版 Sein und Zeit 的照片;以及作者的親筆簽名。照片來源。詳情請見 Passage Explorer 或是 Passage Wikidata UI 的內容。 在對關注項目進行宣告之後,人類編輯便開始對其建立指紋資料,以協助其他使用者可以通過 Wikibase 的編輯介面發現並且通過自己的語言對其進行描述。這一工作流程在這一情境中出現了一些困難,英文編輯者對德文著作進行描述,導致其描述混雜了兩種語言。OCLC 針對該問題提的解決方案是通過再 Wikidata 協助頁面中發布教學文件,協助使用者們對項目添加多語言的 "標籤"、"描述"、以及 "別名"[^68]。以下表三的指紋資料便是該方案的範例;英文的指紋資料被集中於第二排。 表三。Sein und Zeit 的英文指紋資料以及英文翻譯。 * 可以增加更多來自不同語言的別名。 指紋資料是被設計為單以語言的使用者可以理解為核心目標,但是當涉及書本名稱時可能造成一些困惑,以為 Being and Time 是翻譯自 Being and Time 而非 Sein und Zeit。雖然指紋描述中有隱隱指涉正確的關係,但是不如其機器可讀的描述來的明瞭:作品語言是德文、標題為 Sein und Zeit、並且由 Max Niemeyer Verlag 出版。並且還有附上參考照片如圖九所示來強化其真實性[^69]。 圖十是原始德文版本的 Sein und Zeit 與其翻譯版本 (英文、匈牙利文、義大利文) 之間的實體關係圖。每個方塊中最上方的標題為當瀏覽器語言設定為英文時所顯示之指紋標籤,並且在每個語言版本中皆為相同的 "Being and Time"。而黃色方塊所代表的關注項目便是其原始的德文版本,其標題為 Sein und Zeit";並以副標 "German" 來提示其標題名稱與顯示的標籤名稱是屬不同語言。同樣的模式也套用至義大利文以及匈牙利文的版本。圖十中的箭頭表示三個翻譯版本皆是議自原始的德文版本。而其中 "Translation (翻譯)" 實體則是提示了其使用了 "翻譯作品" 的模板,並使用了在表二中所示之屬性:"translate from (譯自)"、"language (of translation) (翻譯語言)"、以及 "translator (譯者)"。 圖十。在英文瀏覽器環境下 Sein und Zeit 與其三本譯本的實體關係圖。 "translated from (譯自)" 這個屬性建立了一個明確的關係來鏈結英文版本與德文版本;但是其反向屬性 "translated to (譯為)" 則沒有被定義。不論如何,這些鏈結關係皆可以在 Passage Explorer 之中 Sein und Zeit 的英文版本葉面中所被看見,如圖十一所示。右側的 "Translated (翻譯)" 列表是通過 SPARQL 對整個 Passage 資料庫進行檢索而即時呈現的結果。只有通過探索介面來檢視這些實體之間的關係時,我們在編輯介面所做出的貢獻才真正的顯現其意義與價值。 圖十一。Sein und Zeit 在 Passage Explorer 之中有關翻譯版本的資料。大圖請見 來源 在專案期間參與者們針對是否為每個翻譯版本都添加上雙向的屬性作鏈結有所討論,但是這提議最終被否決;因為每當有新的譯本被蒐錄至資料集之中時就需要針對這個新的譯本對原版內容中的 "translated to (譯為)" 屬性作更新,工作過於繁複。而且通過 Explorer 可見,就算沒有對其進行雙向的描述,其關係也可以被順利捕捉[^70]。 另一個有關知識探索的操作中,OCLC 展示了如何向 Passage 的 RDF 資料集通過與 Wikibase 平台一起安裝的 SPARQL 檢索介面來進行資料搜索的工作;搜尋所有是 Sein und Zeit 翻譯版本的實體。每筆結果,如果有相關資訊,都會提供其標題以及其譯者 (以其自身的語言做顯示),並顯示是翻譯至哪個語言 (以英文顯示),最後還有期最早與原版關聯的紀錄。搜尋的結果通過 Wikibase 的視覺化工具進行整理,並通過時間線的方式來呈現;如下圖十二。 圖十二。Sein und Zeit 與其在 Passage 資料集中之譯本的歷史紀錄。圖片 來源 這個視覺化工具可以協助我們獲得許多學術性的重要資訊,比如說這部作品是如何跨文化 (以及語言) 的進行傳播。其次,這個搜尋結果也顯示了這部作品被重複翻進同一個語言數次,比如說日文;在圖片中四個被進行黃色標記的實體,皆是被翻譯進入日文之中,差異在於是通過不同的譯者所進行的翻譯。在語系差異之大的情況下 (德-日),其譯本內容必然也隨之有著非常巨大的落差,因此確立不同譯本的譯者是非常重要的資訊。最後,同時或許也是最重要的,在每個實體之中皆有呈現其非拉丁語系的紀錄,如 Είναι και Χρόνος (希臘文) [^71] 以及 ناز موىهست(波斯文)[^72]。這一細節再次顯現了 Wikibase 多語言工作的內涵,強調不同語言的使用者皆有用自己的母語來獲取知識的權利。 與之相比,在 WorldCat 的紀錄之中,這些翻譯版本的資訊皆只有以羅馬拚一的形式所蒐錄,相對之下對母語使用者較為不友善。 總的來說,在 Passage 專案中以 SPARQL 檢索有關作品以及其翻譯作描述的視覺化工具已經非常成熟,並且超越了以往 MARC 紀錄所能做到的程度。 ### Wikibase 與中文的人和地 > Wikibase "Person" and "Place" Entities in Chinese 來自加利福尼亞大學戴維斯分校圖書館 (University of California Davis) 的編目者們對 Wikibase 在非英語系資源的權威控制工作流程進行了探索。 #### 人:孫中山 > A Person: Sun Yat-sen 在初期的探索之中,一名來自加利福尼亞大學戴維斯分校的編目者為孫中山 (孫逸仙) 建立了一個項目實體;一名醫師、作家、哲學家、以及中華民國的國父。首先在英文介面之中進行工作,然後才作中文的描述,這名編目者對孫中山的項目之中添加了許多的別名,以及將其蒐錄至項目的指紋資料之中。並且也對這個項目豐富了許多英文聲明如:"occupation (職業)"、"sex or gender (性別)"、"birth date (生日)"、"death date (死亡日期)"、以及 "death place (死亡地點)",但這些英文聲明同時也會以中文的形式做呈現。除了上述的聲明之外,該項目也添加了如圖十三所示之圖片,使用屬性 (Wikimedia Commons) 來做關聯。在完成中英文的描述工作之後,加利福尼亞大學戴維斯分校團隊便在編輯介面之中對其進行搜尋與獲取的工作來檢視其工作成果。 其中最為重要的要點來自於 Wikibase 對多語系工作的原生支持,對現行圖書館權威控制的工作,為每個項目表定一個字串,提出了挑戰。對於 Q459121 (譯者注:Wikidata 之中孫中山的 QID 為 Q8573),加利福尼亞大學戴維斯分校的團隊發現不論是使用中英的標籤,"Sun Yat-Sen" 或是 "孫中山" 皆可以根據使用介面的語言不同而被檢索系統捕獲。 圖十三。孫中山的照片。圖片來源 Wikimedia Commons。項目內容請見 Passage Explorer 或 Passage Wikidata UI。 圖十四顯示了在中英英文介面下該項目所呈現的樣貌。如果使用英文瀏覽器介面 "Sun Yet-sen" 將會被顯示為預設標籤,但如果是以中文進行查閱則其標籤則會顯示 "孫 中山";並且中英的描述,其順位也會根據瀏覽器語言而發生調整,以應對其偏好語言,同時簡體中文的別名 "孙中山" 也列在其中。 圖十四。在 Wikibase 編輯介面之中 Sun Yet-sen 的項目頁面,英文版和中文版。 這個案例協助加利福尼亞大學戴維斯分校團隊的成員理解,或許並不需要花費過多的時間在每一個語言皆建立一個統一的描述,而是專注於盡可能地在多語言的環境下對每一個語言建立獨屬於那個語言的指紋描述,以便這些語言的使用者可以在自己所熟一的環境中獲取資訊。同時這個案例也展示說單一語言的使用者並不需要花費其心力去將自己的語言做羅馬字拼音,因為只要項目重要性足夠,如印度語、韓語、俄語等其他語言的使用者便會自己對項目進行翻譯轉換,如下: सन यात-सेन (Hindi) 쑨원 (Korean) Сунь Ятсен (Russian) 圖十五中顯示了知識圖譜之中的空缺。從 Wikidata 之中所導入的資料顯示在西班牙文 (es) 與德文之中已經有其語言相對地指紋描述,但是卻沒有 "Also known as (別名)" 的資料。而波蘭文 (pl) 的部分則是只有描述,但是卻是直接繼承自英文的資料 (默認語言);而巴布亞皮欽語 (tpi) 的資料則是只有英文的標籤與描述,顯示其應該並沒有被其母語使用者編輯過。 圖十五。除了中英之外其他語言在 Sun Yet-sen 項目的指紋資料。來源 請見。 強化指紋資料可以直接的改善使用者對資料的搜索與獲取體驗。對名稱進行權威管理的工作不再是後設資料創建時消岐義所需要的必要流程,因為 Wikibase 的多語言功能就可以完成這份工作。通過將更多的心力花費在為 "中華民國國父" 建立更多的描述上,編目者可以有效的提升其被資訊消費者發現的可能。 總結來說,Sun Yet-sen 這一案例是由非常低經驗的使用者所進行,但是根據她的回饋表示,Wikibase 的編輯介面對於創建新的項目工作來說非常的直觀。主要只需要確立一個人物的重要特徵,並使用最佳的方式進行描述,並且所有的前置工作皆已經在 Wikidata 的資料結構 (Ontology from Wikidata) 之中有所定義。並且在項目創建之後,對於雙語使用者來說,來回切換不同的語言並對其指紋資料進行加強是非常簡單的工作。 #### 地:汴梁 > A Place: Bianliang 第二個案例中,加利福尼亞大學戴維斯分校的團隊將注意力轉向中國歷史地名,將新舊權威控制的工作流程做比對。在其漫長的歷史中,中國有著許多古地名的紀錄;雖然如今已不再使用,編目者們依然會在文學、圖像以及其他圖書館資源之中接觸到。在這主題中有一點特別的麻煩,因為許多這類古地名僅於其存在時期被使用,而這一特徵無法在舊有的 MARC 權威紀錄中以機器可讀的方式所紀錄。但是在 Passage 之中可以,就如同以下二圖所示。圖十六來自 OCLC Connexion 介面,其中顯示在 MARC 權威記錄之中有 670 筆 "來源" 欄位中填入了 "汴梁" 的地名。 圖十六。OCLC Connexion 介面顯示有關 "汴梁" 的 MARC 權威紀錄。 與之對比,同樣的內容在 Passage 之中,如圖十七所示,完全以機器可讀的格式進行紀錄。其中一筆聲明使用 "instance of (隸屬於)(P31)" 來陳述汴梁是一座城市;合用另一個屬性 "time period (時期)(P2348)" 來限定其使用僅限於北宋時期 (960-1127)。 圖十七。在中文 Wikibase 編輯介面中查看中國歷史地名 "Bianliang" 的指紋資料以及其時期聲明。詳細請見 中文版或 英文版。 建立了該項目的參與者表示,在 Passage 編輯介面之中進行後設資料的創建工作比起 MARC 權威紀錄要簡單的多。Passage 的實體描述看起來也更細緻更有用。除此之外最重要的是 Wikibase 內建的多言系統讓中文使用者/編輯者們可以更直覺地進行操作。 雖然這只是單一地名的實驗案例,但是從中卻是非常重要的經驗,涉及各科學派,從歷史到考古到地圖學的研究都能從中獲得助益。中國,如同大多數擁有豐厚人類歷史的地點,其往往有著非常多的名稱,但是這個細節卻在現有的結構資料中並不常見。 ## 圖像資源 > Visual Resources 四個與圖像資源有關的案例涉及了:地圖、海報、明信片、以及一張相片。每個案例的原始資源皆屬於圖書館的特殊蒐藏之中,並且其資料比起文字更多是圖像性的;如果有被數位化保存,我們的重點依然更多放在其原始物件而非其數位化的檔案 -- 遵從前述 OCLC 所訂下的方針。除此之外 OCLC 也訂下了一系列描述創意作品相關的建議[^73],包含了一系列與地圖、以及其他圖像性質資源相關的建議屬性以及創作者角色;以上大部分的特性皆是引用自 Wikidata 的定義: * instance of (隸屬於) (地圖、海報、明信片、照片、剪貼簿、電影) * publish title and subtitle (發布標題與副標題);如果沒有相關資訊,請使用像描述 (image caption) 替代 * photographer (攝影者)、cartographer (製圖者)、surveyor (測量者)、engraver (刻板者)、designer (設計者) * depicts (描繪內容) * 代表數位資產的統一資源定位符 (URL);如果有,請指向 Wikimedia Commons * 著作日期,或最早紀錄日期 * owned by (所有者) * 來自 id.loc.gov、VIAF、以及其他圖書館社群或相關來源的識別碼 首先從地圖開始,再來是海報、明信片以及照片。這個組織了解地圖與其他三者各自有著自己獨特的挑戰。舉例來說,地圖以及其他製圖類圖片有著相當完備的資料規範可以輕易的被輸入 MARC 紀錄之中,並包含許多的結構化資料屬性如 "projection (投影)" 或 "relief(地貌)" 以及其他製圖資源,皆可以直接映射至 Wikibase 的項目與屬性。然而,其他非地圖類的圖像資源則往往沒有單一的 MARC 紀錄,或其他機器可讀的後設資料。尤其是海報,在傳統的書目描述工作中特別棘手,因為其短時效性的特徵導致對其知識或實體的控制工作十分困難。除此之外海報對於其圖像特性的依賴導致其十分困難通過文字來進行記錄。另外,海報明信片以及照片這三者皆涉及另一個在本體論層面相對複雜的議題 "event (事件)",而地圖往往不需要考量這一層面的內容。 ### 歷史地圖 > A Historical Map 由 Marc McGee 所領導的哈佛團隊分享了他們描述一份來自 Harvard Map Collection [^74]通過數位掃描所保存的地圖,出版於 1852年。圖十八為其縮圖。 這份地圖為城鎮範圍,並繪有自然地徵、人造建築、地主姓名、道路、以及地界。並且附有康科德鎮中心的地圖,舊北橋紀念碑的小插圖,以及重要居民的住宅特徵,包括作家 Ralph Waldo Emerson 以及 Nathaniel Hawthorne。除此之外其中還有由 Henry David Thoreau 測量 White Pond 以及 Walden Pond 結果的附註。 圖十八。康科德 (麻薩諸塞州) 地圖:由 H.F. Walling 於 1852 年受託於鎮政府所繪。大圖 請見。項目請見 Passage Explorer 或 Passage Wikibase Editing UI。 下方的指紋資料是專門希望讓不熟悉這個蒐藏的使用者也能找到而做的設計。在本案例中,其指紋資料所提及的其他資料已經事先在 Wikidata 中有所定義並且導入至 Passage 專案裡,如 Concord (康科德)、Middlesex County (密德瑟斯郡)、以及 Henry Francis Walling[^75],並將這些資源與該地圖的 Wikibase 項目實體頁面進行關聯。再分析中這樣的系統可以通過 "實體-關係對偶" 來理解,如 "(隸屬於) 地圖"、"(製圖者) H.F. Walling"、"(描繪) 麻薩諸塞州,密德瑟斯郡,康科德"。實務層面上指紋資料為人類使用者提供了這個實體的消岐義概覽以及其重點資料;這些重點資料則主要通過更為完善的結構化資料來進行描述。同樣的經驗我們也在 Sein und Zeit (存在與時間) 的案例中有所體會。 標籤:Map of Concord, Massachusetts, 1852, by H.F. Walling 描述:Map of the town of Concord, Mass. 1852—showing landowners and distinct boundaries 別名:Map of the town of Concord, Middlesex County 我們在指紋資料之中省略了其公開名稱 "Map of the town of Concord, Middlesex County, Mass" 主要因為這個名稱相對抽象,對於不熟悉這類資源的使用者們來說實用性不高;然而我們依然通過 "title (標題)" 來對這個名稱進行紀錄,以供透過 SPARQL 檢索來進行更深入的探索活動。 Wikibase 在有關其實體的 (physical) 以及技術性的 (technical) 後設資料皆遵守了 MARC 的編目操作,舉來來說,如地理座標以及比例尺皆是對於地圖來說非常重要的結構化資料並有被傳統的 MARC 編目系統所蒐錄;在 Passage 專案之中則是通過從 Wikidata 中所導入的 "比例尺" 以及 "地理座標" 來進行聲明。其比例尺的分母 "18400" 則是通過 "quantity(數量)" 資料類型來進行紀錄使其可以被機器所閱讀並且可以在後續通過尺寸來進行分類整理。座標的經緯度則是通過標準的 "地理座標" 資料類型來進行聲明,確保其可以被其他底理資訊系統應用程式所讀取。這個資料便是用來在 Explorer 頁面中通過 Google Map 來呈現康科德的位置。 除此之外,傳統來說 MARC 地圖編目也會通過四個地理座標 (東南西北) 記錄其地圖外框的範圍 (W 71°26’30”—W 71°14’36”/N 42°31’12”—N 42°24’0)。通過這個外框資料我們可以進一步地將該地圖描述為一個面,而非僅僅一個點。圖十九所示便是通過 Leaflet map 插件[^76]來製作的地圖疊加圖;該圖與 Harvard Library 的一筆 MARC 紀錄有作關聯。 圖十九。通過來自 Harvard Library 的編目資料所作的麻薩諸塞州康科德地圖範圍疊加圖。原始資料 來源 在 Wikibase 的地圖實體頁面中紀錄其外框範圍的工作並非一帆風順,因為其用來記錄座標位置的屬性只能接收 "地理座標" 類型的資料,其無法接收由四個座標所組成的外框資料。該問題最後是通過 OCLC 的工程師新增了一個 "地理形狀 (geographic shape)" 資料類型,以及 "geoshape" 屬性才得以解決。"geoshape" 屬性通過從 Wikidata Commons 來獲取相關實體的地理形狀,比如說麻薩諸塞州的形狀。然而這個解決方案最終並沒有使用在該案例之中,因為 Wikimedia Commons 之中並沒有麻薩諸塞州康科德的地理形狀資料。不論結果如何,通過該案例我們發現了展示地圖資料的一個潛在方法。 OCLC 額外還有增加了可以描述原始地圖實體 (physical) 描述的屬性,比如其 "長"、"寬" 的相關資訊;這是在工作討論時所獲得的反饋。 其實體關係的資訊是通過屬性 "描繪 (depicts)" 來進行描述,然而這一概念在傳統的 MARC 系統中並沒有明確的對應。在 Passage 這一先導研究的以下幾個與圖像資源相關關案例皆使用了這一屬性來進行描述。傳統的 MARC 紀錄中與其最相近的是 "主題 (subject)",但是其使用情境又與 Wikibase 之中的 "描述" 並不相同,詳細我們將在下數的三個案例進行探討。 回到康科德的案例 "描繪" 可以被用在兩個面向。第一個是 "描繪" 康科德鎮以及一部份的密德瑟斯郡以及 Emerson 所擁有的一處住所;但是除此之外這份地圖還有額外的插圖。由於這個插圖是並列於主要地圖之旁,我們可以通過限定詞 "image caption (媒體說明)" 來將 "Obelisk Monument (Concord, Massachusetts)" 加入到地圖的 "描繪" 屬性之中。另外康科德鎮 (Concord Village) 的地圖 (插入在主圖一旁) 也可以通過 "描繪" 屬性來進行描述,指向更精準的康科德鎮實體 (而非整個康科德行政區),並通過一個 "媒體說明" 限定詞來記錄其標題 "Concord Village"。通過這些機器可讀的關係描述將單一圖片實體中的各個圖片進行關聯,我們得以建立一套超越傳統 MARC 系統所能達到的細緻度。 除此之外這份地圖還有另一個經常在老地圖或是其他資源中見到,並且可以通過結構化資料來描述的細節:發行、印刷、或出售者的地址 (如這份地圖中所記載波士頓華盛頓街 81 號)。當在處理有關機構或企業實體時,地址以及日期是非常重要的資訊。通過這些來自圖書館的紀錄我們可以搭建相關實體的歷史地理資訊系統。 在教學期間,OCLC 團隊建議為發行者 (Henry Francis Walling) 宣告一個實體頁面並添加 "located at street address (所在街道地址)" 屬性來進行描述。除此之外,其地址資訊還有通過 "時期" 來進行限定;建立詳細的描述結構來陳述 "在 1852 年,Henry Francis Walling ,該地圖的出版者,的地址是 波士頓華盛頓街 81 號"。至此,這份地圖的地點、時期、以及其出版者的資訊已經被詳細的記錄下來,儘管其出版者以及其地址早已不復存在。以上這些資料皆可以在 Henry Francis Walling 的 Passage Explorer 頁面中進行查閱[^77]。 圖廿是以圖八模式所統整的有關這份地圖的結構化資料概覽。如同前面的範例,關注項目以黃色方框所表示,其他與其相關的項目則是以白色方框所表示,並通過箭頭符號表示鏈結關係。方框中引號內的內容為其對應的指紋資料;其描述則是通過與其他項目鏈結而來,部分是導入自 Wikidata 的資料集如 Henry David Thoreau 以及 Ralph Waldo Emerson,部分是新建立的如 Henry Francis Walling 以及 Obelisk Monument。 圖廿。麻薩諸塞州康科德地圖與其他 Wikibase 項目的關係圖。詳細請見 Passage Wikibase Editing UI 為了更好的捕捉其他與這張地圖有關的資料,Passage 團隊也對 Wikidata 的資料結構 (Ontology from Wikidata) 做出了一些改良。舉例來說,測量了地圖中兩個池塘的 Thoreau,最初是被以 "貢獻者 (contributor)" 屬性進行關聯,因為沒有 "測量者 (surveyor)" 這一屬性。地圖,尤其是較早的資源,往往是許多專業人員共同工作的結果,如製圖者 (cartographer)、測量者 (surveyor)、刻板者 (engraver)、販售者 (bookseller) 等,因此我們希望可以在 "貢獻者" 這塊有更加細膩的分類。OCLC 的工程師們便針對此需求,新增了 "測量者" 與 "刻板者" 這兩個屬性以便更加準確的紀錄 Thoreau 在這份資源之中的貢獻。 這份案例同時也是第一個在工作討論中提起有關日期關係的案例。因為其出版年份有清楚印刷在地圖上 (1852),我們可以使用 "earliest known publication date (最早出版日期)" 屬性來進行描述。但是這並不是唯一可以使用的日期: * inception date (成立或建立時間, P571): 用來描述一個事物通過任意方式被產生的時間;如果我們無從得知地圖的來源可以適用這個屬性。 * production date (完成日期): 在這個案例之後被從 Wikidata 加入至 Passage 專案之中;用以描述一件創意作品的完成時間 (如果與發佈時間不相同的話使用)。比起 inception date 更加適合創意作品來使用因為其創作過程往往容易追溯。 * date of situation (記錄日): 在地圖編目領域中這代表地圖中內容所記錄的日期。Wikidata 的 "depicts date (描繪日期)" 被引入來記錄該資訊。 * point in time (時間點): 是 "描繪" 屬性的限定詞,用來指定明確的 "描繪" 日期。 這些屬性顯示了一些可以在 Wikibase 編輯介面中所捕捉的後設資料。就這份地圖來說,我們是照著現有的 MARC 紀錄來進行操作,但是其他參與者選擇使用不同的資源來進行操作。舉例來說 "瑪麗亞·約瑟法 (Maria Josepha)" 的案例中展示了 "point in time" 限定詞的使用,另外典藏庫的案例中則是使用了 "inception date" 的屬性。 總結來說,在本案例中,我們保留了近乎所有的 MARC 紀錄進入 Passage 專案之中,並且還蒐錄了更多 MARC 紀錄中難以透過結構化資料進行捕捉的細節,如圖像資源之中所呈現的其他圖像。 ### 相片、明信片與海報 > Photographs, a postcard, and a poster 在接下來的工作討論中由來自明尼蘇達大學 (University of Minnesota)、美國國家醫學圖書館 (National Library of Medicine)、以及天普大學 (Temple University) 的圖書館員們繼續有關圖像資源的探索。如同地圖時所述,以下這些對於圖像資源的探索主要專注於其實體物件的資料而非其數位複品;如果有數位化的資源,將會使用 "digital representation (數位描繪物)" 屬性來做關聯。 來自明尼蘇達大學的團隊將他們的重點放在了活動與海報上面。Kalan Knudson Davis 與她的同事們從 Minnesota Reflections[^78] 蒐藏集中選出了兩個資源來做操作;Minnesota Reflections 是由明尼蘇達州的文化遺產組織所共同籌辦的數位資料庫。在這個討論中被選作操作範例的是一張艾佛利兄弟二重唱 1965 年在格倫伍德 Lakeside Ballroom 的演唱會海報。圖廿一是該演唱會海報的縮圖,蒐藏集的連結以及相關的 Passage 描述可以在下方描述中找到。 圖廿一。艾佛利兄弟二重唱 1965 年在格倫伍德 Lakeside Ballroom 演唱會海報的圖片。圖片來源:Minnesota Reflection。大圖請見 來源。項目內容請見 Passage Explorer 或 Passage Wikibase Editing UI Karan Detling 與她美國國家醫學圖書館 (NLM) 的同事們針對一張明信片來進行操作,這封明信片來自 NLM 歷史部門下轄的 Zwerdling Postcard Collection 之中[^79]。其中包含了超過 2588 張有關護士的明信片,其蒐藏始於 1890 年到 2020,主要集中於明信片的黃金年代,也就是 1907 到 1920 之間。NLM 因為一個線上展覽而對部分蒐藏進行數位化的工作,其中便包含了這個案例的關注項目。 圖廿二中所示的明信片是薩克森公主瑪麗亞·約瑟法 (Maria Josepha) 的照片。在她嫁給奧地利的 Otto Franz 大公後其頭銜變為奧地利公爵夫人,而其兄長便是因為在 1914 年於賽拉耶佛遇刺身亡進而導致了第一次世界大戰的 Franz Ferdinand 大公。瑪麗亞·約瑟法 (Maria Josepha) 在一次世界大戰中作為護士協助照顧傷患,圖中便是他身著制服的照片。 圖廿二。薩克森公主瑪麗亞·約瑟法 (Maria Josepha) 身著護士制服的照片。圖片來源:美國國家醫學圖書館數位典藏 Erzherxogin Maria Josefa。大圖請見 來源。項目內容請見 Passage Explorer 或 Passage Wikibase Editing UI 由 Holly Tomren 所領導的來自天普大學圖書館團隊選擇了其圖書館中所蒐藏的兩張照片來進行操作:馬丁·路德·金恩博士 (Reverend Dr. Martin Luther King Jr.) 與 Cecil B. Moore 在吉拉德學院 (Girard College) 參加抗議遊行[^80],如圖廿三所示;Temple University 的同志學生社團,如圖廿六所示。 圖廿三。1965年賓州費城 吉拉德學院 (Girard College) 抗議遊行的照片。圖片來源:Temple Digital Collections。大圖請見 來源。項目內容請見 Passage Explorer 或 Passage Wikibase Editing UI。 下方是上述三個圖片的指紋資料以及其指紋標籤,並且為了檢索應用程式如 Wikibase 編輯介面或是 Passage Explorer 豐富了其標籤的內容。就如同上述地圖的案例我們同意項目的標籤資料應該要通過結構化資訊來描述解讀該項目時所涉及的相關人事時地物。部分值得關注的事物已經存在於 Wikidata 的資料庫之中,如:艾佛利兄弟二重唱、瑪麗亞·約瑟法 (Maria Josepha)、馬丁·路德·金恩博士 (Reverend Dr. Martin Luther King Jr.)、費城、吉拉德學院 (Girard College) 、以及明尼蘇達州。但是也有許多事物沒有在資料庫內如:Lakeside Ballroom、明尼蘇達州格倫伍德、以及在 吉拉德學院 (Girard College) 的抗議遊行。以下是我們描述這幾張圖片資源時所建立的資料。 標籤:艾佛利兄弟二重唱演唱會海報、Lakeside Ballroom、明尼蘇達州格倫伍德、1965 年七月 27 描述:艾佛利兄弟二重唱與 Burch Ray and the Walker 共演海報,在明尼蘇達州格倫伍德 Lakeside Ballroom,1965 年七月 27 別名:In person, the Everly Brothers 標籤:瑪麗亞·約瑟法 (Maria Josepha) 的明信片 描述:瑪麗亞·約瑟法 (Maria Josepha) 在一戰時期身著護士制服的明信片 別名:Postkarte von Erzherzogin Maria Josefa;Postcard of Archduchess Maria Josepha;Postcard of Princess Maria Josepha;Postkarte von Prinzessin Maria Josef 標籤:馬丁·路德·金恩博士 (Reverend Dr. Martin Luther King Jr.) 與 Cecil B. Moore 在 吉拉德學院 (Girard College) 參加抗議遊行 描述:1965 年賓州費城,馬丁·路德·金恩博士 (Reverend Dr. Martin Luther King Jr.) 與 Cecil B. Moore 在 吉拉德學院 (Girard College) 參加抗議遊行的照片 通過這些案例我們發現,指紋資料所填入的名稱對於人類使用者來說非常難以消岐義或是難以理解。這個問題就算在項目創建後也依然沒有改善,因為某些人名、地名實在太過相近。舉例而言,根據 Wikipedia 消岐義頁面,歷史上就有超過五個 "薩克森的瑪麗亞·約瑟法 (Maria Josepha of Saxony)",並且可能被叫做 "瑪麗亞·約瑟法 (Maria Josepha)" 或是其他類似拼法[^81]。在 NLM 案例中的關注項目是於第一次世界大戰中作為一名護士的瑪麗亞·約瑟法 (Maria Josepha)。這個問題顯示了指紋資料的侷限性。當我們使用 "愛因斯坦 (Einstein)" 來進行檢索時,通過指紋資料我們可以輕易地區別出德裔物理學家 "阿爾伯特·愛因斯坦 (Albert Einstein)" 跟美國喜劇藝人 "哈里·愛因斯坦 (Harry Einstein)"。但是如果多個項目有著相似的性質時,使用者便需要花費更多的心力來區別他們。 當我們結束指紋資料的建立後便開始著手對其進行聲明描述。這工作與現有的工作流程相比有更簡單之處也有其獨特的挑戰。明尼蘇達大學 (University of Minnesota) 的團隊回報說該工作迫使後設資料專家們更加關注不同項目之間的連結,這在 Passage 的系統中更為容易。因為 Passage 的編輯介面使的項目宣告的工作,相較現行的圖書館權威管理系統如 NACO (譯者注:此處應是指國會圖書館的名稱權威紀錄合作計畫 Name Authority Cooperative Program),更為輕便與民主。但是這對後設資料工作者的腦力有著不小的需求,因為我們需要自己判斷要鑽的多深,停損點到底在哪。在這過程中,圍繞著以上三個關注項目的次要項目被建立如以下: * 海報:Lakeside Ballroom;艾佛利兄弟二重唱演唱會;明尼蘇達州格倫伍德[^82] * 明信片:護士、Michael Zwerdling、以及護士明信片[^83] * 民權示威照片:吉拉德學院 (Girard College) 1965 年八月三號的民權示威;Charles L. Blockson Afro-American Collection;John W. Mosley 照片集;John W. Mosley[^84] 這些新的項目對於為關注項目建立一個機器可讀的知識圖譜來說非常重要。 #### 通過獨特的識別資料來建立參照點 > Establishing a Reference with Uniquely Identifying Data "薩克森的瑪麗亞·約瑟法 (Maria Josepha of Saxon)" 這一實體通過 "描繪" 這一屬性來連結至上述的明信片實體。在圖片中,瑪麗亞·約瑟法 (Maria Josepha) 穿著護士制服,顯示其在一次世界大戰作為一名護士的身分。最初我們提議將 "護士" 通過屬性 "職業" 來與瑪麗亞·約瑟法 (Maria Josepha) 這一實體做連結。但是 NLM 團隊覺得這樣的描述不足以描述這個明信片的歷史脈絡。最後這一問題通過了對 "描繪" 添加額外的限定詞,如圖廿四所示;在圖例中,被添加的限定詞是虛框之中的描述。 這些額外的資料拓展了 "描繪" 薩克森的瑪麗亞·約瑟法 (Maria Josepha of Saxony) 公主的內容,並建立了以下陳述:"這張明信片描繪了薩克森的瑪麗亞·約瑟法 (Maria Josepha of Saxony) 公主在 1914-1918 年間作為一名護士";在這描述之中說明了護士這一職業在他做為王族的漫長時光中只是簡短的一筆。 圖廿四。明信片案例中的 Wikibase 實體關係圖。見 Passage Wikibase Editing UI。 #### 定義與命名事件 > Defining and Naming Events 在協助頁面中針對事件該如何處理與描述有著明確的指引[^85]。部份事件已經在 Wikidata 的資料集中有所描述,如第一次世界大戰[^86],並且可能已經有圖書館社群所建立的定義。因此如圖廿四所示,在明信片的案例中,第一次世界大戰可以通過 "重大事件 (Significant Event)" 屬性來與其關聯。在 MARC 的系統中,事件是通過較新的 X47 系列標籤來描述,歷史事件用 650,或是透過 X11 系列標籤來描述活動、會議、以及會議名稱。 在 2016 年 OCLC 向 MARC 諮詢委員會提呈了一篇討論報告[^87],其中涉及了有關 FAST 的設計,要求主題需要被分別出多個面向,其中包括了事件。這個討論報告涉及了事件相關的 MARC 21 的權威和書目格式。其中之一的成果就是 MARC 權威和書目格式中新的 X47 欄位用來描述事件。舉例來說 MARC 647 欄位適用在 FAST 標題中定義事件。這些欄位尚未在 NACO 權威紀錄中被採用 但是這些之前沒有被蒐錄的活動如艾佛利兄弟二重唱或是 吉拉德學院 (Girard College) 的民權示威運動,其描述在傳統圖書館編目系統或是 MARC 結構資料體系中並不完善。幸運的是這個工作在 Wikibase 的編輯介面中相當容易。"事件" 項目的定義從指紋邊謙與描述開始,接著通過結構化的聲明來定義其時間與地點。主題也可以被納入其中,比如說示威運動的主題:學校統合、非裔美國人的民權運動、以及民權與政治權力。以上資訊定義後,這個事件項目便能讓對於關注項目的定義更加簡易化;現在我們可以說這些照片描繪了一個 "事件" 以及關鍵人士如:艾佛利兄弟、馬丁·路德·金恩博士、以及 Cecil B. Moore。這些關係在圖廿五中可以看到。 #### 建立脈絡 > Building a Context for Interpretation 在海報的實體頁面中我們連結了全國知名的人士與樂團如艾佛利兄弟二重唱,與較為冷門的地點如 Lakeside Ballroom,這樣的連結可以協助使用者們發現意外的驚喜;另外兩個圖片也有一樣的效果。因此與這三張圖像相關的項目都可以定義在在 Passage 之中,並且唯一的純文字描述只有其指紋資料,其餘的都是結構化、機器可讀的描述資料,並且可以通過 SPARQL 檢索系統來發現;如同在 29 頁 “創作、翻譯、以及中文描述” 段落中的 Sein und Zeit 案例用來生成時間線時所使用的工具。類似的應用也在下述的教會音樂案例中也有探索,並且還有更多如何描述事件的細節探討。 這些成果向我們揭示了,在現有的圖書館後設資料中有多少的資料是可以通過同樣的工作流程編譯成結構化的資料。但是這一工作有時候也是非常的反直覺並為參與者們帶來許多的困惑。舉例來說,來自天普大學 (Temple University) 的數位圖書館典藏中的照片中有包含許多的主題。在 Passage 之中,這些主題,有時候無法直接鏈結至該照片項目之中,而是鏈結至該照片之中所描繪之其他人、事、時、地、物。在部分案例中,甚至需要通過三四次這樣的 "跳躍" 才能鏈結回原本的關注項目之中。舉例來說,在上述抗議遊行的照片,並沒有直接與費城鏈結,因為這個抗議遊行是在 吉拉德學院 (Girard College) 之中舉行,然後這間學校是位於費城之中。因此這張照片需要通過先關聯至其他主題的項目然後才能完整的描述其 "民權運動"、"廢除校園種族隔離"、最後才是連結至 "費城"。 這個例子的部分關鍵鏈結可以在下方圖廿五中所看到。就如同前面的知識圖譜例子,關注項目將以黃色方框所表示,其他相關的項目則是白色方框;指紋資料為引號內的文字;其他所有代表項目,或屬性的文字則是通過關係描述鏈結至其他相關的 Wikibase 實體。通過該圖我們可以發現,該案例中解釋性的脈絡大多以 "描繪" 這一屬性來做聲明,並且其效果往往會向外拓展這一圖譜數個階層。圖廿五中也顯示了,不同於前述的地圖案例,"描繪" 屬性並沒有取代其主題,而是補充了這個圖片原本的後設資料內容。 圖廿五。描繪一個事件的 Wikibase 實體。詳細請見 Passage Wikidata Editing UI。 很顯然的,通過民權示威的案例中我們發現了 "描繪" 以及 "主題" 屬性為項目搭建脈絡的有限性,並引發了我們的討論,究竟這一問題是否能在結構化資料的系統中被解決。舉例來說,天普大學 (Temple University) 團隊所討論的第二個照片--圖廿六--是一群 1974 年天普大學 (Temple University) 同性戀運動成員的照片[^88]。因為缺乏足夠的資訊為照片中每一名成員建立獨立的實體,抑或是他們所參與的社團,因此在這張照片的 Passage 頁面中只列有 "描繪" "天普大學 (Temple University)" 以及 "活動團體",並沒有成功擷取到其 LGBTQ 的活動脈絡;只有在指紋資料中以純文字的方式被記錄: "天普大學 (Temple University) 的同志運動成員們在情人節發起了親吻小販的活動" 。 圖廿六。1974 年天普大學 (Temple University) 的同志運動社團的數位化照片。圖片來源:Temple Digital Collections。大圖請見 來源。 另外,來自 NLM 的團隊也提出了需要改善針對他們明信片蒐藏描述的建議,如 MARC 的 520 欄位[^89]。舉例來說,NLM 的明信片蒐藏中有這麼一張,標題為 "Ces anges des champs de bataille(戰場天使)",其標題並沒辦法完整的體現這張圖片的內涵。然而 520 欄位則可以提供充分的資訊: 這張明信片是源於一張手工上色的法國照片。他描繪了一名法國修女,同時也是一名護士,離開一間軍事醫院。她身著灰色長裙,腰間綁著腰帶,並戴著一件白色的大領巾與灰色長頭巾。她的右手提著用布包著的私人物品,左手拿著一條手帕,並沮喪地看著下方;一名法國士兵身著紅藍雙色的制服向她敬禮。這張明信片的圖片是在記錄於一戰初期,軍方認為修女並不適合參與戰地醫療系統的這一歷史。[^90] 在 Passage 這一先導研究之中對於創意作品描述的工作著重於對於結構化描述的創建,捕捉資源的可驗證事實,並將相關的資源鏈結,然後為其添加可促進關鍵字搜索的標籤資料。但是一段完整的敘事或是說明文字也有其價值,協助釐清脈絡、探索內容、以及做出評論。那麼這些文字又該如何被紀錄呢?這個問題在後續 64 頁的 "反思與觀點" 中有更多的探索,其中討論了有關敘事文字語結構化資料,在圖書館社群全面接納鏈結資料系統之後,是否依然有存在的必要。 ## 檔案館 > Archives 有關 Passage 檔案館的描述工作我們可以從天普大學 (Temple University) 的民權示威蒐藏開始,在這個案例中,關注項目不再是單一照片而是整個機構 (如檔案館的概念),也就是 Charles L. Blockson Afro-American Collection[^91];一間專注於研究非裔美國人歷史與文化的權威研究機構。在這個蒐藏庫中藏有超做五百萬份各式資源,從藏書到手稿到樂譜、手冊、日記、新聞、海報、照片、傳單、以及稀有的短期印刷品 (ephemera)。 其中便有一部 "John W. Mosley" 的攝影集蒐藏,專注於紀錄費城附近非裔美國人的生活。根據 Mosley Collection 數位蒐藏的描述[^92]:"這是一部非常重要並且非常卓越的地區史蒐藏,記錄了非裔美國人社群 20 世紀中葉各行各業生活政治文化等各個面向"。同上方圖廿四所示,John W. Mosley 便是拍下吉拉德學院 (Girard College) 民權示威的攝影者。 這並非巧合,而是因為這些檔案庫的描述工作正是源自於對這些圖像資源建立結構化描述時而產生的副產品。如 John W. Mosley, Blockson 與 Mosely 典藏都是因為這個原因而出現的 Wikibase 實體;兩者皆與各自的官方網站做鏈結,並且通過 "策展人 (curator of)" 屬性互相鏈結。並且,通過其他結構化描述來定義 Blockson 是坐落於於費城 Temple University 之中的檔案館。而且,由於這兩個項目皆與圖廿四 (譯者注:此處應該是誤植,正確圖片應為圖廿五) 所示的知識圖譜相關,因此兩者可以在此連結合為一體。 圖廿七便展示了這一組關係圖的結構。我們省略了與圖廿五相關的細節,而是著重於顯示圖片到底如何蒐藏於檔案館之中。如同結構圖所示,通過結構化的描述我們可以陳述該圖像資源是被蒐藏於 John W. Mosley 攝影集之中,並且該攝影集則是 Charles L Blockson 檔案館之中的一部份。 圖廿七。Charles L. Blockson 非裔美國人檔案館與其他 Wikibase 項目的關係。 實務層面,兩張圖片所顯示的結構圖展示通過結構畫描述建立了兩個不同的資料脈絡。圖廿五所強調的是圖像資源的主題與描繪物,而圖廿七所強調的是其資源管理的足跡,使我們能夠層層尋獲資源的確切蒐藏點。雖然這個只是一個簡易的示範,但是這個案例的系統理論來說可以通過對這個檔案館蒐藏中的圖像資源建立結構化描述來逐步擴大。 如同其他使用案例,此處對蒐藏集的描述也是建立在現有的後設資料標準工作流程之上。針對美國的檔案館的描述可以參考 "檔案館描述標準 (Describing Archives, a Content Standard (DACS)[^93])" 的規範,其中往往富含陳述性內容,並且難以被解構為鏈結資料以及與其他實體的關係。另一個問題是,資源之中的關鍵項目關係,並非總是非常明確地被記錄下來,比如說一個人物與相片的關係究竟是拍攝者,抑或是被拍攝者有時難以被斷明。除此之外,檔案館的描述往往並不局限於物質層面,並且需要一定曾度的批判性思考與推理才能發現其中的重點資源。 因此,如天普大學 (Temple University) 的案例,雖然我們成功地獲得了正向的成果,但是這並非表示 "資源-描述" 的工作沒有遭遇任何的挑戰,比如在其他面向的討論就沒有獲得決定性的結論。舉例來說,參與者們定義了數種不同的蒐藏:物理蒐藏、數位蒐藏、部分蒐藏、或虛擬蒐藏 (通過擷取來自不同蒐藏的物件而成),但是以上皆沒有在實作時被使用。針對屬性的分析也是類似結果。舉例來說,檔案館常見的屬性:"時間範圍 (inclusive dates)" 或是 "主要時間 (bulk dates)" 便被提議加入 Passage 的資料結構 (Passage Ontology) 之中,但是遭到參與者們的阻擋,因為這會使人誤會未被發布的資源曾被發布過。 另外一組更為根本性的問題是在討論兩部來自 Harvard University 的蒐藏時由 Honor Moody 以及 Christine Fernsebner Eslao 和他們的同事們所提出。Harvard Total Abstinence Society 是在 1841-1843 年間一個在大學中提倡禁酒的學生社團,是 Harvard Anti-Wine Society 的後繼者,其活動於 1836-1840 年。這些社團的檔案紀錄是由一個蒐藏於 HOLLIS 之中的書目資料;HOLLIS 是 Harvard 圖書館目錄[^94]。Passage 項目之中的的結構化資料是源自於本地一份舊有權威紀錄之上。 在編輯有關 Harvard Total Abstinence Society 以及 Harvard Anti-Wine Society[^95] 的項目時包括了以下描述: * 起始與結束日期 * 通過雙向描述 "取代" 以及 "被取代" 來鏈結兩個社團 * 使用 "母組織" 來定義 Harvard University 與他們的關係 * 坐落於麻薩諸塞州劍橋 * 通過 "隸屬於 (instance of)" 來陳述其與 "禁酒運動" 有所關聯;禁酒運動也有被蒐錄於 Wikibase 之中。 這些聲明看似為解讀這兩個學生社團的重要性提供了結構性與歷史性的脈絡,與天普大學 (Temple University) 所提供的案例有著類似的架構。但是在這裡,結構化描述有時候產生了超出原始紀錄所提供的 "確定性"。在本地的 MARC 紀錄之中有至少一筆 410 描述該社團作為 Harvard University 的下屬實體;510 記錄了其原始名稱與後來的名稱;以及 678 以純文字的方式記錄了其組織歷史筆記。 在 410 當中所記載的 "下屬實體" 尤為惱人,因為這一紀錄促使了在 Passage 之中使用 "母組織" 屬性來與 Harvard University 來鏈結兩者。在權威紀錄之中其他類似的紀錄法主要是因為方便索引查找作為主要搜索工具而為之。並且 Harvard University 作為其 "母組織" 的說法並沒有被其組織歷史筆記所支持。這兩個組織在國會圖書館名稱權威檔案 (Library of Congress Name Authority File) [^96] 之中的紀錄也否認了 Harvard University 是其直屬母組織的描述。以上這些紀錄皆指向了這兩個社團與 Harvard University 之間是一個非正式的關係,Wikidata 屬性 "母組織" 並沒有辦法準確的描述這樣的關係;另一個更為 "不定" 的屬性 "相關組織" 或許才能更好的描述其之間的關係,但是這種概括性的屬性在大體量的資料集中並沒有太大的價值。 另外,在原始的權威紀錄裡面將兩個社團以先後關係鏈結,這一關係在 Passage 裡面通過雙向描述 "取代" 以及 "被取代" 來記錄。但是在原始的書面資料之中所描述的關係並非如此簡單。雖然兩個社團皆被記錄於同一份 MARC 資料之中,兩者也擁有各自的歷史紀錄,然而其中的細節卻不一致。舉例來說,Harvard Anti-Wine Society 的筆記中記載其後繼者為 Harvard Total Abstinence Society,但是在後者的紀錄中卻是寫作 "原始於 1841 年十月,似乎是取代當時已經停止運作的 Harvard Anti-Wine Society,並且與其成員有部分重疊",這段描述明顯飽含更多修飾。在本段落中的許多案例皆有展示可以如何使用 Wikibase 屬性限定符來進行此類描述的轉換。但是這類型的問題似乎還是更適合通過純文字來進行記錄,然而卻也遭遇到了資料不移置不準確不完整等問題的阻礙。 總而言之,在 Passage 專案中針對檔案館的描述遭遇了許多困難。雖然檔案館看似十分適合這類將各類資源做為基底進而建立結構化資料的工作流程,因為其資源大多只有文字描述。但通過 Passage 專案我們發現事實並非如此單純,為了更好的進行此類工作需要大量的社群討論來建立如何劃分結構化資料與純文字描述的界線,以及規劃創建兩者的最佳工作流程。 ### 與事件相關的音樂作品 > A Musical Work Associated with an Event 佛羅倫斯的聖母百花大教堂 (Santa Maria del Fiore) 祝聖儀式是在 1436 年三月 25 日的聖母領報節 (Feast of the Annunciation) 舉行,隨著聖母百花大教堂的總工程師 Filippo Brunelleschi 完成其穹頂。該事件與 Nuper rosarum flores 這一部經文歌有著緊密的關聯,由文藝復興作曲家 Guillaume Dufay 所著並在祝聖儀上所演奏。該作曲是在俗稱 "Modena B" 的手稿中所發現,如圖廿八所示。 圖廿八。來源於 "Modena B" 手稿的 Nuper rosarum flores 再製版。大圖請見 來源。來源:Wikimedia Commons,公領域。 Dufay 的經文歌與佛羅倫斯大教堂的祝聖儀式之間互為主體,該案例是由 哈佛大學圖書館的 Craig Thomas 所提供。 Nuper rosarum flores 是 Dufay 比較為人所熟知的作品,其中內含了部分致給另一座教堂葛利果聖歌:Terribilis est locus iste。音樂學家們對於該作品的音樂結構比例有著長久的辯論:6:4:2:3。其中一個已經被推翻的理論,試圖將這個比例與佛羅倫斯大教堂的穹頂進行關聯;另外一個理論則是試圖聯繫這個比例與所羅門聖殿 (Soloman's Temple) 的容積,紀載於 Kings 6:1–20。除此之外,這部經文歌的歌詞則是參考了教宗安日納四世以及其所贈與的黃金玫瑰,這個玫瑰象徵了聖母瑪利亞,也就是這座聖殿主要奉獻的對象。 有鑑於兩者在歷史性以及音樂性的重要性,兩者之間豐富的聯繫網,哈佛團隊認定這個案例會是絕佳的機會來測試鏈結資料的系統可以如合得來處理這樣複雜的關係。從 Passage 專案的角度來看,該案例展示了在建立並鏈結實體的時候所需要思考的一些決定。該案例探索了在 Passage 專案中如何處理事件類的資料 (大教堂的祝聖儀式以及音樂表演)。不過這個案例並沒有涉及定期重複性的事件如會議或體育活動。同時這個案例也討論了項目之間逆向聲明的實用性 (依據原始 RDF 三元組的描述)。 ### 項目的建立與編輯 > Creating and Editing Items in Passage 整個工作流程始於對該祝聖活動宣告一個新的實體,其指紋資料如下: 語言:英文 標籤:Consecration of Florence Cathedral 描述:佛羅倫斯大教堂,1436 年三月 25 日,在 Filippo Brunelleschi 的監督下完成其穹頂的工程 別名:Dedication of dome (Florence Cathedral); Dedication of Florence Cathedral; Consecration of dome (Florence Cathedral) 在初期的腦力激盪階段,哈佛團隊原本想要使用標籤:"Dedication of dome (Florence Cathedral)",然而這個標籤後續便被更改為 "Consecration of Florence Cathedral"。雖然這個項目使用 Consecration 或是 Dedication 都是正確描述 (因此兩者皆在後續的聲明部分納入 "隸屬於 (instance of) 之中),但是因為使用過於模糊容易造成困惑。Consecration 與 Dedication 皆是在 Passage 專案最初導入的 Wikidata (Ontology) 的一部分 [^97];其指紋資料包含了許多重複的語言。Consecration 是如此被定義:"A solemn dedication to a special purpose or service (一個莊嚴的儀式奉獻給一個特殊的目的或事物)";Dedication 則是:"The act of consecrating an altar, temple, church, or other sacred building (祝福一座祭壇、聖殿、教堂、或其他神聖建築物的行為)"。 在該事件中,聖母百花大教堂被祝聖成為一個奉獻給聖母瑪利亞的信仰場所。在兩者之間 (Consecration 以及 Dedication),"consecration" 顯然是比較好的用詞,因為其性質屬於一個 "祝聖活動 (consecration)",其又是屬於一個 "典禮(ceremony)",最後屬於一個 "事件 (event)";通過這串關係我們可以推得這是一個事件,而 "dedication" 則是屬一個 "temporal item (短時項目)"。並且因為 consecration 與 dedication 經常被混用,以及對大教堂的祝聖儀式也經常被與對其穹頂的祝聖儀式搞混,該案例中通過 "別名" 的方式將所有可能的組合一併列入以便使用者可以更容易地發現該項目,也能協助降低未來重複項目的可能性。 在聲明則是試著同時捕捉時間與空間的資訊。通過 Wikidata 資料結構 (Ontology) 之中的屬性限定符來使結構化描述更加明確;如同上述地圖以及明信片的案例一樣。Consecration of Florence Cathedral "起始 (incept)" 於 1436 年三月 25 日,"隸屬於" Fest if the Annunciation (選擇這個日期正是因為與聖母瑪利亞有關),並且該活動選擇在佛羅倫斯大教堂舉行。該活動的 "紀念對象 (commemorates)" 是 Brunelleschi 的圓頂 (通過 Passage Retriever 從 Wikidata 中所導入的項目),以及佛羅倫斯大教堂 (該項目已經在 Passage 中被建立)。 樂曲作品的部分,哈佛團隊注意到雖然 Passage 資料庫裏面沒有 Nuper rosarum flores,但是可以通過 Retriever 從 Wikidata 中被導入。編輯的工作主要是為其添加樂曲的重要資訊 (如作曲家、標題、語言、類別、以及主題) 以及其首演時事件相關的資訊。OCLC 的 Passage 團隊根據參與者的需求從 Wikidata 中導入了 "date of first performance (首演日期)"、以及 "location of first performance (首演地點)" 。該項目中也包含了以下聲明: * 連結至 Wikimedia Commons 的圖像資源如圖廿八 * 通過 Wikidata 屬性 "commemorates (紀念對象)" 連結該樂曲作品至其原初的事件;通過 "has part (可分為)" 來說明其與葛利果聖歌Terribilis est locus iste 有關。 * 連結至對應的外部權威後設資料資源如原始的 Wikidata 實體、LCCN、以及 VIAF 識別碼。[^98] 圖廿九展示了兩個關注項目在上述所提及的部分的重要鏈結。其成果是本專案報告所提及的案例中最密集的知識圖譜。可以有此成果或許可以歸功於歷史與音樂學家們針對這兩個項目搭建了豐富的可驗證資訊,顯示於黃色方框中 (樂曲與祝聖活動),以及 Wikidata 資料結構 (Wikidata Ontology) 中豐富的事件與樂曲內容,期可以非常容易的通過該案例中所探索的描述來進行擴展。 圖廿九。Nuper rosarum flores (在 Passage Wikibase Editing UI 中檢視) 與 Consecration of Florence Cathedral (在 Passage Wikibase Editing UI 中檢視) 通過 Wikibase 項目實體來顯示其關係。 事實上這個知識圖譜比圖廿九中所顯示的還要複雜因為這只有顯示單向的連結。如圖所示 Nuper rosarum flores 紀念了佛羅倫斯大教堂的祝聖儀式,但是這段關係也可以反向紀錄;佛羅倫斯大教堂的祝聖儀式是通過經文歌曲來被紀念[^99]。如同 Sein und Zeit 的案例,這類逆向關係可以通過 SPARQL 檢索來並在 Passage Explorer 中被探索如圖卅所示。 圖卅。Consecration of Florence Cathedral 的 Passage Explorer 頁面,生成 "被紀念 (Commemorated by)" 關係連結至 Nuper rosarum flores。 該案例再次顯示了 Passage 以及 Wikidata 與傳統上 Library of Congress Subject Headings (LCSH)(國會圖書館標題表) 和 Library of Congress Genre/Form Terms (LCGFT)(國會圖書館分類表) 的規範。舉例而言,"choral music (合唱)"、"religious music (宗教音樂)"、"vocal music (聲樂)"、以及 "Renaissance music (文藝復興音樂)" 皆是從 Wikidata 中導入的 "genre (分類)";更為明確的用詞 "Motet (經文歌)" 卻同時是 "musical composition (音樂著作)" 的 "instance (隸屬個體)"、以及 "musical composition (音樂著作)" 的一員。反觀在 LCGFT 之中 "motets (經文歌)" 與 "musical composition (音樂著作)" (概念上同 "music[音樂]") 皆是屬於分類標題。[^100] "motetes (經文歌)" 在 LCGFT 系統中同時也是一個主題標題,用來代表一種廣義的音樂形式。正是因為 "motetes (經文歌)" 在 Passage/Wikidata 資料結構 (Ontology) 中的定位,Nuper rosarum flores 需要使用 "隸屬於 (instance of)" 經文歌,而非通過 "genre (類型)" 來與經文歌進行關聯,因為這會產生限定錯誤 (constrain violation)。 這個論點再次強調了屬性的使用必須格外小心,需要確保所使用的術語或概念在資料結構 (Ontology) 中的正確性。 表四統整了描述該事件 (與著作) 所使用 (以及編輯) 的 Wikidata 實體: 表四。從 Wikidata 中所導入的實體。 除此之外,為了描述該事件 (與著作),新的實體針對事件 "Consecration of Florence Cathedral" 以及葛利果聖歌:"Terribilis est locus iste" 也在該案例之中被建立。另外,"首演日期" 以及 "首演地點" 這兩個 Wikidata 的屬性也由 OCLC 團隊導入 Passage 專案之中。通過上述的這些內容搭建起了一套精細度遠超圖書館現行的 MARC 權威檔案系統所能描述的關係網絡。 舉例來說,"motetes (sh 85087515)" 在國會圖書館主題權威紀錄將其在知識系統中定位與 "sacred vocal music"(550欄位,"Part songs, Sacred") 關聯。但是這是一組靜態的描述,通過詞彙的狹義與廣義被定義。但是 Wikibase 的實體關聯是動態的,通過命名關係來直接將實體之間的鏈結記錄下來,將 "motetes (經文歌)"、"religious (宗教音樂)、以及其他相關概念鏈結並拓展。 權威紀錄系統缺乏機器可讀的細節來紀錄該音樂著作與 15 世紀佛羅倫斯的祝聖活動的關係、或是其歌詞與其他主題如 Brunelleschi 的穹頂、佛羅倫斯大教堂、聖母瑪利亞、以及教宗安日納四世之間的關聯。這些資訊或許會在註記欄為中以純文字的方式被記錄,但是這些紀錄往往在歲月中四散或是遺失。但是 Wikibase 實體,不論是 "Nuper rosarum flores" 或是 "Consecration of Florence Cathedral",皆可以蒐藏其關係資料,並且可以通過 SPARQL 來進行關鍵字搜尋。 以上這些關係顯示了專業編目者可以通過 Wikibase 編輯介面來為圖書館資訊描述工作添加的內容。然而,就算只看現行的工作流程,其資料描述依然可以更進一步地去蒐錄有關作者、作品、以及其關聯的細節。舉例來說,"Dufay, Guillaume, 1397-1474.‡t Terribilis est locus iste” 這段描述在國會圖書館名稱權威紀錄 (no 98013583) 列為別名。(譯者注:此處應該是指這段描述是 Nuper rosarum flores 的別名)。然而這段描述不如 Passage 所擁有的描述,即 Dufay 是 Nuper rosarum flores 的作曲者,並且他將另一部葛利果聖歌的片段納入其中。雖然在權威紀錄中將針對 Dufay 進行消岐義工作時的副產品將其標示為兩部作品的 "Creator(作者"),這段關係僅僅是在個人名稱權威資料準則 MARC 21 系統中的 100 欄位被暗示。[^101] 但是在 Passage 的系統中,Dufay 是被明確的以 "Composer(作曲者)" 屬性與 "Nuper rosarum florese" 做鏈結。 ## 案例總結與第一印象 > Summary of Use Cases and Frist Impression 以上這些案例中,部分明顯較為成功且沒有遭遇到過多的困難,確立了建立結構化資料的工作在圖書館資源描述工作流程中是具有可行性的。然而其他遭遇到更多困難且難以處理的案例則是顯示了建立結構化資料的環境尚不成熟,或是這項工作並不適用於每一種情形。這些問題都可以在後續的研究中被更進一步的探索。 其中一個適用於所有案例的觀察是,這些議題皆是起源於為了要最佳的描述一個有趣的 "事物",並記錄其事實。但是在開始著手後便發現,這項工作沒有明確的終點。如同其中一名參與者所說,Wikibase 所建立的架構非常的具有彈性,並且最令人苦惱的問題是到底何時應該停止描述的工作。其中一個結果是在 Passage 中的紀錄或許跟其原始的圖書館資源看起來截然不同,就如同 Nuper rosarum flores 的案例。因此,圖書館員與學者之間的界線不再清晰,這對圖書館的資源描述工作流程來說有著非常重大的意義。