# [ TaiBIF 工作坊 ] 開放資料類型與資料標準化 Darwin Core <font size="1px" color="gray">上課筆記,自己參考用</font> ## 決定要發佈的資料類型 Darwin Core Archive 依照三種不同資料收集情況,分別有三種資料類型(core),這三種資料類型分別搭配不同的延伸表單(Extension) #### 核心表單 Core **1. Taxon Core** **2. Occurrence Core** **3. Event Core** | | Taxon | Occurrence | Event | | ------------------------------------------------ |:----------------------------------------------------------------------------------------- |:------------------------------------------------------------------------------ |:------------------------------------------------------------------------------------------------------------- | | 描述 | <ol><li>某地區擁有特定屬性 <br/>(ex:藥用植物、入侵種)</li><li>較不要求時間地點</li></ol> | <ol><li>看什麼記什麼:<br/>時間、地點、生物</li><li>紀錄方式不太一樣</li></ol> | <ol><li>跨地區、時間生物組成比較<br/>(明確定義樣區)</li><li>**努力量**</li><li>明確且固定採集方法</li></ol> | | 舉例 | 台灣物種名錄<br/>checklist data | 標本典藏資料<br/>specimen data | 群聚調查資料<br/>community survey data | | 應用 | 圖鑑、教學手冊 | 分佈預測模式 | 族群監測、族群研究 | | 座標<br/>pattern | 大方向地點描述 | 隨機且分散 | 明顯樣區區塊 | | 資料詳細度 | 較粗略 | 中等 | 較詳細 | | [Extension](https://rs.gbif.org/extensions.html) | Vernacular Names | MeasurementOrFact<br/>(MoF) | Occurrence、<br/>MeasurementOrFact、<br/>ExtendedMeasurementOrFact | <br/> <br/> ## 資料標準化 Darwin Core 標準 定義可以來這邊找:[Darwin Core Quick Reference Guide](https://dwc.tdwg.org/terms/) 依照 **DwC 標準**來替換掉舊有的資料欄位名稱,並將資料內容正確的修正或對應到 DwC ### 物種名錄 Checklist 對應欄位(<font color="red">必備欄位</font>) | DwC 欄位名稱 | 常見對應名稱 | 範例 | | ------------------------------------------- | ------------ | ------------------------------------------------- | | <font color="red">**taxonID**</font> | ID、編號 | 8fa58e08-08<br/>1314 | | <font color="red">**scientificName**</font> | 學名 | Ctenomys sociabilis<br/>(genus + specificEpithet) | | <font color="red">**taxonRank**</font> | 物種分類階層 | species | | acceptedNameUsageID | 有效名 ID | 338874 | | kingdom | 界 | Animalia | | phylum | 門 | Chordata | | class | 綱 | Reptilia | | order | 目 | Testudines | | family | 科 | Cheloniidae | | genus | 屬 | Chelonia | | specificEpithet | 種名 | mydas | | vernacularName | 中文名(俗名) | 綠蠵龜 | | infraspecificEpithet | 種下階層名 | | <br/> ### 出現紀錄 Occurrence 對應欄位(<font color="red">必備欄位</font>) | DwC 欄位名稱 | 常見對應名稱 | 範例 | | ----------------------------------------------------- | ----------------------- | --------------------------------------------------- | | <font color="red">**occurrenceID**</font> | ID、編號 | occ_HL20070207_001<br/>建議:有意義編號<br/>+流水號 | | <font color="red">**basisOfRecord**</font> | 記錄類型、<br/>樣本來源 | HumanObservation<br/>MachineObservation | | <font color="red">**eventDate**</font> | 記錄日期、時間 | 2023-10-12 | | <font color="red">**individualCount**</font> | 數量、個體數 | 26 | | <font color="red">**scientificName**</font> | 學名 | Homo sapiens | | <font color="red">**locality**</font> | 地區名 | 鳳林 | | <font color="red">**verbatimLatitude**</font> | 字面緯度 | 23.12°20'5" | | <font color="red">**verbatimLongitude**</font> | 字面經度 | 121°40'24" | | <font color="red">**verbatimCoordinateSystem**</font> | 座標單位 | degrees minutes seconds | | <font color="red">**geodeticDatum**</font> | 座標大地基準 | WGS84 | | <font color="red">**countryCode**</font> | ISO標準國碼 | TW | | decimalLatitude | 十進位緯度 | 23.21345 | | decimalLongitude | 十進位經度 | 121.65432 | | taxonRank | 分類階層 | subspecies | | vernacularName | 中文名(俗名) | 水獺 | | taxonID | 類群 ID | MAM16 | | lifeStage | 生活史階段 | adult | | behavior | 行為 | swimming | | habitat | 棲地 | river bank forest | | associatedMedia | 相關多媒體連結 | http://example.org/images101.jpg | | recordedBy | 記錄者/調查者 | Chi-Chien Kuo \| Jing-Lun Huang | <br/> ### 調查活動 Sampling event 對應欄位(<font color="red">必備欄位</font>) | DwC 欄位名稱 | 常見對應名稱 | 範例 | | --------------------------------------------- | ----------------------------------------------- | ---------------------------------------------------- | | <font color="red">**eventID**</font> | ID、編號 | 56789 | | <font color="red">**eventDate**</font> | 調查日期 | 2023-09-14T15:19 | | <font color="red">**samplingProtocol**</font> | 調查方法或流程的名稱、<br/>描述,或其參考文獻。 | ad hoc observation \| point count | | <font color="red">**sampleSizeValue**</font> | 採樣量、取樣大小 | 5 (sampleSizeValue) with <br/>metre (sampleSizeUnit) | | <font color="red">**sampleSizeUnit**</font> | 採樣量單位 | metre | | <font color="red">**samplingEffort**</font> | 一次調查的努力量 | 10 km by foot | | habitat | 棲地 | river bank forest | | eventType | 採樣類型 | Observation、<br/>Site Visit、Survey | | fieldNumber | 調查區域/區域編號 | 生態研究區 | | eventRemarks | 調查備註:天氣、調查狀況等 | 陣雨 | | verbatimEventDate | 字面上的日子 | spring 1999 | <br/> <br/> ## 實際操作 <font size="1px" color="gray">原始資料記得備份,且可以先用 openrefine 清理成即置換 DwC 的另一份檔案</font> **Step1.** 將原始資料依照對應欄位置換成 Darwin Core 名詞,可參考 [Darwin Core Quick Reference Guide](https://dwc.tdwg.org/terms/#dwc:basisOfRecord) **Step2.** 加上 ID 並將資料分類成 Core 和其他 Extension ps. Extension 那邊也要有 Core 的 ID **Step3.** 將檔案 (Excel or CSV)上傳至 [GBIF DATA VALIDATOR](https://www.gbif.org/tools/data-validator) 找出待解決 Issue **Step4.** 依照出現的 Issue 判斷需不需要處理,可參考 [GBIF Issues & Flags](https://data-blog.gbif.org/post/issues-and-flags/) <br/> <br/> <br/> <br/> <br/> <br/> <br/> <br/>