--- GA: G-VT2C6LW0QY --- # 第一章 緒論 這份報告旨在介紹什麼是 AI-Ready 資料,其能為創新與民主治理帶來什麼貢獻,如何達成,以及世界各國的實踐為何,並從這些經驗歸納出法規與實務上的能促進更多AI-Ready 資料的方法。 本研究期待公務人員閱讀過這份報告後,能夠理解 AI-Reday 資料的產出將不影響現有資料開放流程,也無需增加額外資訊人力或採購軟體工具。其產出僅需注重資料格式和更新時間註記,因此不用擔憂增加業務量。 為鼓舞各國公務機關勇於開放高品質資料,提升全球跨文化與國家的 AI-Ready 資料量,以促進人類多元文明發展,本研究不是要對於 AI-Ready 資料、開放資料或 AI 模型進行狹隘地定義,而是想討論什麼樣的開放資料可以供單一或全部 AI 模型合法合規地利用。 同時,對於任何公民科技或開源社群的參與者,本研究也很樂見您藉由閱讀認識不同國家在 AI-Ready 資料的公私協力發展歷程後,參考其經驗、使用工具或合作方式,將本份研究輔助用於您與公務機關對話。 ## 1.1 為什麼需要這份案例研究 隨著 AI 技術在 2022 年後的極速發展, LLM 對於獲取資料以進行訓練的需求逐步上升。長期以來,政府開放資料因具備公共性、可近用性,以及相對明確的授權條件,常被視為 AI 訓練的重要資料來源之一。同時,許多國家亦將 AI 視為提升國家競爭力與發展潛力的關鍵要素,使開放資料與 AI 發展之間逐漸形成一種相互影響、彼此依賴的治理循環。 然而,傳統開放資料在內容結構與資料格式等面向,未必能直接回應不同 AI 訓練與應用的需求。如何在維持開放資料持續釋出的同時,加速 AI 訓練流程,並確保資料在品質、結構與規格上更適合被 AI 系統理解與使用,成為各國政府與資料治理者必須面對的重要課題。怎樣從既有開放資料的提升到 AI-Ready 可用的開放資料,是本研究嘗試檢視各國的案例中,找到其可用、可參考的實務方向。 ### 1.1.1 傳統開放資料和 AI-Ready 的異同 比較 AI-Ready 資料和傳統政府釋出開放資料,如果以 Tim Berners-Lee (2006)[^1] 的開放資料評等定義的一星等級資料為比較的基準,會發現其基礎均是以「開放」授權為核心。但是,因為不同的 AI有不同的訓練需求,就會需要不同格式的資料,尤其是與比較常見的初級開放資料不同的格式與要求。以 LLM 大型語言訓練需求為例,過往臺灣政府資料開放平臺中各機關以釋出 CSV 格式為大宗,但因許多欄位名稱、詮釋資料 (Metadata) 的建置不精準,導致在訓練過程中,易導致訓練出來的模型解讀資料時語意模糊;反之 LLM 所需的 Markdown (MD) 格式甚至被稱之 LLM 的原生語言,則可以方便處理大量文章、報告類型的文字的結構化,還不那麼被臺灣政府單位所接受。同樣地,在四星、五星評等下的開放資料,政府機關如要產製有其門檻,但其賦予固定 URI 位置或具備語意的鏈結資料網絡,這些的特性亦是發展多元 AI 助理時,極具價值的技術基礎。 另外再以多模態 AI 的訓練需求為例:圖片、聲音、地圖圖資、多媒體的資料,亦是發展成主權 AI 所需乘載更多文化內涵的資料,然而怎有好的詮釋資料的建構,亦是發展主權 AI 重要核心。以往台灣有很多有價值的文史或政府報告資料,其常見的原始留存檔案多為 PDF 檔案,而因為要符合政府開放資料的規範,公務機關會盡可能希望再將這類檔案轉成其他的可機讀格式。在這個過程中,那些因為排版需求,內崁無法機讀圖片、混雜表格、多欄版面的設計,會造成機器解讀不易得問題。但是因為近年隨著 AI 技術成熟,光學字元辨識(OCR)與自動版面判讀等開源工具的進展,讓此類資料更有機會納入訓練流程。若能再進一步搭配更完善的詮釋資料建置,例如在這些類型的資料的詮釋資料中清楚標示文件結構與目錄資訊,將能進一步提升自動判讀的準確性,讓 AI 訓練與應用有更豐富的來源。 綜合上述所言,在本研究中,「AI-Ready 的開放資料」指的是:資料在釋出階段即能考量其未來可能的應用情境,選擇合適的資料格式,並同步建置必要的詮釋資料,必要時進一步提升其開放等級,以確保其作為 AI 訓練資料時,在準確度、完整度與信效度上具備可用性與延展性。 ### 1.1.2 開放資料與 AI-Ready 要注意的事項 若網路資訊涉及侵權或隱私爭議,為了停止傳播,可以透過移除原始網頁或要求搜尋引擎移除索引,讓資訊隨連結失效而逐漸消逝。不過在訓練 AI 模型時,資料會被轉化為數以億計的參數權重,將資訊深度內化於其複雜的神經結構中,導致 AI 有著「無法遺忘」的特性[^2],因此在進行資料訓練前,仍需注意訓練資料是否有違反作權或合理使用規範,及含有個人隱私資料等潛在風險。 ## 1.2 AI-Ready 開放資料具體效益 史丹佛大學李飛飛教授團隊過去曾建立 ImageNet 開放資料集,涵蓋超過 2 萬個類別,共 1400 多萬張被標註的圖片[^3]。這個資料集改變了 AI 影像辨識的發展,圖片分類準確率在 7 年內從 71.8% 到超過 95%,更成為醫學影像、自動駕駛、臉部辨識應用的訓練基礎。[^4]由此顯示高品質、良好標註的公開資料集能夠催化整個產業的技術突破,更能預期 AI-Ready 資料將對人類文明的發展帶來的實質幫助。 ### 1.2.1 產業發展 創造價值 依據麥肯錫顧問公司資料,開放資料每年可在全球七大產業創造高達 5 兆美元的經濟價值。這個龐大的經濟價值源自於開放資料在 AI 訓練的運用,可見 AI-Ready 資料的巨額產業效益。[^5] 同時報告也指出, LLM 研究人員花費高達 80% 時間將政府開放資料轉換為適合 AI 訓練的格式。這反映出,若政府能直接產出 AI-Ready 資料,不只能加速國家科技發展,更能減輕該國企業高額的資料處理成本。 ### 1.2.2 文化保存 穩固主權 當一個國家語言資料在公開的訓練集中的佔比極低,該國民眾在使用主流 AI 模型時,將無法獲取符合該國國情的資訊,將面臨「被邊緣化」與「被錯誤解讀」的問題。若長期處於這樣的使用情境,恐怕會潛移默化地影響使用者本身的認知,導致民眾及下一代對自身國家政治、歷史等領域產生認知偏差。這不僅對國家文史保存極具威脅,更對國家本身認同產生危機。 {%hackmd 2VNQvvY9T_WjKiN1hgd-vA %} [^1]: Berners-Lee, T. (2006). Linked data: Design issues, [http://www.w3.org/DesignIssues/LinkedData.html](http://www.w3.org/DesignIssues/LinkedData.html). 並詳見後續的說明 [https://5stardata.info/zh-TW/](https://5stardata.info/zh-TW/) [^2]: Schlarmann, Julian, and coauthors. “What Should LLMs Forget? Quantifying Personal Data in Large Language Models.” arXiv, June 1, 2025, https://arxiv.org/abs/2507.11128. [^3]: Deng, Jia, Wei Dong, Richard Socher, Li‑Jia Li, Kai Li, and Li Fei‑Fei. “ImageNet: A Large-Scale Hierarchical Image Database.” In 2009 IEEE Conference on Computer Vision and Pattern Recognition, 248–255. IEEE, 2009\. [^4]: Blaivas, Michael, and Leslie Blaivas. “Are Convolutional Neural Networks Trained on ImageNet on Par with Humans for Point-of-Care Ultrasound Classification?” Journal of Ultrasound in Medicine 40, no. 6 (2021): 1099–1107. [^5]: Manyika, James, Michael Chui, Diana Farrell, Steve Van Kuiken, Peter Groves, and Elizabeth Almasi Doshi. “Open Data: Unlocking Innovation and Performance with Liquid Information.” McKinsey & Company, October 2013, https://www.mckinsey.com/capabilities/tech-and-ai/our-insights/open-data-unlocking-innovation-and-performance-with-liquid-information.