Try   HackMD

[ TaiBIF 工作坊 ] 開放資料類型與資料標準化 Darwin Core

上課筆記,自己參考用

決定要發佈的資料類型 Darwin Core Archive

依照三種不同資料收集情況,分別有三種資料類型(core),這三種資料類型分別搭配不同的延伸表單(Extension)

核心表單 Core

1. Taxon Core
2. Occurrence Core
3. Event Core

Taxon Occurrence Event
描述
  1. 某地區擁有特定屬性
    (ex:藥用植物、入侵種)
  2. 較不要求時間地點
  1. 看什麼記什麼:
    時間、地點、生物
  2. 紀錄方式不太一樣
  1. 跨地區、時間生物組成比較
    (明確定義樣區)
  2. 努力量
  3. 明確且固定採集方法
舉例 台灣物種名錄
checklist data
標本典藏資料
specimen data
群聚調查資料
community survey data
應用 圖鑑、教學手冊 分佈預測模式 族群監測、族群研究
座標
pattern
大方向地點描述 隨機且分散 明顯樣區區塊
資料詳細度 較粗略 中等 較詳細
Extension Vernacular Names MeasurementOrFact
(MoF)
Occurrence、
MeasurementOrFact、
ExtendedMeasurementOrFact


資料標準化 Darwin Core 標準

定義可以來這邊找:Darwin Core Quick Reference Guide

依照 DwC 標準來替換掉舊有的資料欄位名稱,並將資料內容正確的修正或對應到 DwC

物種名錄 Checklist 對應欄位(必備欄位

DwC 欄位名稱 常見對應名稱 範例
taxonID ID、編號 8fa58e08-08
1314
scientificName 學名 Ctenomys sociabilis
(genus + specificEpithet)
taxonRank 物種分類階層 species
acceptedNameUsageID 有效名 ID 338874
kingdom Animalia
phylum Chordata
class Reptilia
order Testudines
family Cheloniidae
genus Chelonia
specificEpithet 種名 mydas
vernacularName 中文名(俗名) 綠蠵龜
infraspecificEpithet 種下階層名

出現紀錄 Occurrence 對應欄位(必備欄位

DwC 欄位名稱 常見對應名稱 範例
occurrenceID ID、編號 occ_HL20070207_001
建議:有意義編號
+流水號
basisOfRecord 記錄類型、
樣本來源
HumanObservation
MachineObservation
eventDate 記錄日期、時間 2023-10-12
individualCount 數量、個體數 26
scientificName 學名 Homo sapiens
locality 地區名 鳳林
verbatimLatitude 字面緯度 23.12°20'5"
verbatimLongitude 字面經度 121°40'24"
verbatimCoordinateSystem 座標單位 degrees minutes seconds
geodeticDatum 座標大地基準 WGS84
countryCode ISO標準國碼 TW
decimalLatitude 十進位緯度 23.21345
decimalLongitude 十進位經度 121.65432
taxonRank 分類階層 subspecies
vernacularName 中文名(俗名) 水獺
taxonID 類群 ID MAM16
lifeStage 生活史階段 adult
behavior 行為 swimming
habitat 棲地 river bank forest
associatedMedia 相關多媒體連結 http://example.org/images101.jpg
recordedBy 記錄者/調查者 Chi-Chien Kuo | Jing-Lun Huang

調查活動 Sampling event 對應欄位(必備欄位

DwC 欄位名稱 常見對應名稱 範例
eventID ID、編號 56789
eventDate 調查日期 2023-09-14T15:19
samplingProtocol 調查方法或流程的名稱、
描述,或其參考文獻。
ad hoc observation | point count
sampleSizeValue 採樣量、取樣大小 5 (sampleSizeValue) with
metre (sampleSizeUnit)
sampleSizeUnit 採樣量單位 metre
samplingEffort 一次調查的努力量 10 km by foot
habitat 棲地 river bank forest
eventType 採樣類型 Observation、
Site Visit、Survey
fieldNumber 調查區域/區域編號 生態研究區
eventRemarks 調查備註:天氣、調查狀況等 陣雨
verbatimEventDate 字面上的日子 spring 1999


實際操作

原始資料記得備份,且可以先用 openrefine 清理成即置換 DwC 的另一份檔案

Step1. 將原始資料依照對應欄位置換成 Darwin Core 名詞,可參考 Darwin Core Quick Reference Guide

Step2. 加上 ID 並將資料分類成 Core 和其他 Extension
ps. Extension 那邊也要有 Core 的 ID

Step3. 將檔案 (Excel or CSV)上傳至 GBIF DATA VALIDATOR 找出待解決 Issue

Step4. 依照出現的 Issue 判斷需不需要處理,可參考 GBIF Issues & Flags