--- GA: G-VT2C6LW0QY --- # 第四章 推動 AI-Ready Data 需要那些環境、政策與調適行動 本章旨在透過 TOE 分析框架,分析本研究所蒐集之案例,說明在何種制度、組織與環境脈絡下,得以促使開放資料逐步邁向 AI 整合運用。透過不同國家與案例的交叉比較,本研究團隊希望呈現並非僅有「具備最佳條件的環境」方能推動 AI-Ready 資料,而是各種不同治理情境中,皆可能發展出相對適切的推動模式。本章亦進一步探討,各案例如何在既有治理限制、法規規範與政策支持條件下,透過制度設計與組織協作等實務調整,推動 AI-Ready 資料相關作法。 ## 4.1 法律框架與其社會制度發展 本節聚焦於 TOE 分析框架中的環境脈絡(Environmental Context),探討法律制度與社會治理結構如何形塑開放資料邁向 AI-Ready 的發展條件。環境脈絡關注的不僅是單純法規或制度的存在與否,而是更廣泛的社會脈絡,包括資料法制觀念的完備程度、普羅大眾對於隱私與個資保護的認識和要求、著作權與授權制度執行的落實情形,以及社會對資料使用與 AI 發展的信任基礎等。在本節中透過案例分析,說明不同法律框架與社會制度如何影響資料釋出的可行性、組織的行動空間,以及 AI-Ready 開放資料在實務上的推動方式。 ### 4.1.1 清晰的開放資料法律框架 #### 4.1.1.1 支持政府資訊公開的政策或具體立法 CroissantLLM 和 Parla 在資料取得的過程,清楚展現了完善的開放資料法律框架能降低開發者溝通成本並提升開發效率,為 AI 研究鋪平道路。CroissantLLM 團隊的研究者 Manuel Faysse 受訪時指出, 法國政府推行的開放資料倡議讓資料取得過程變得極為單純,由於政府已釋出大量具備寬鬆授權條款的資料,團隊成員直言資料授權「對我們來說並不困難,模型開發過程只需對這些開放資料集進行少量的清理工作」。Parla 的產品負責人 Ingo Hinterding 則強調,「只要研究團隊處理的是無需特殊保護的公開資料,開發進程將會顯著加速」,有些國家會要求想取得政府資料的民眾做出由機關開立書面授權的要求,但在實務上,民眾不一定能夠找到正確的授權機關,因此無法取得資料。在少數情況下,開發者即便取得機關的口頭許可,但這樣的口頭約定所帶來的不確定性,反而帶來無形的壓力。 #### 4.1.1.2 正確選擇適切的條款 國家的政策或法律架構固然重要,但實務上更關鍵的基礎在於如何為資料集標示「對」的授權條款。每一種授權條款對於資料利用的規範與限制都不同,這些差異會直接影響資料後續被轉化為訓練語料的可能性。常見的授權條款內容包括資料是否可以用於商業目的、是否可以進行修改或衍生利用或是否需要標註出處等。經過長期演進,目前國際間也有標準化的授權條款,例如創用 CC 授權(Creative Commons)、開放政府資料授權條款等,政府需要對於公民社會或企業的需求充分考量,選擇能對大眾帶來最大利益的授權。 法國 CroissantLLM 案例中可以觀察到,法國政府在釋出開放資料時,已經預先為平台上的資料集的授權條款完成了標註作業。這讓研發團隊能夠迅速在龐雜的政府開放資料平台中,透過授權條款的差異,精確篩選出符合模型訓練需求的資料集,大幅降低了研究團隊法律風險。 #### 4.1.1.3 簡明連貫的法規架構 在前面兩個小節,本研究談論到授權條款和支持性政策與立法的重要性,現在我們則要到更大面向的法規架構。公務機關在推動政策或立法時,如果沒有注意到明確不同法案間的競合關係,反而會讓公務人員在執行時無所適從。 例如西班牙的公共機構必須同時遵守 「公部門資訊再利用指令」(The Directive on the re-use of public sector information,PSI Directive)、《一般資料保護規則》(General Data Protection Regulation,GDPR)、《資料治理法》(Data Governance Act,DGA)、歐洲資料法》(European Data Act)以及新興的 AI 法(AI Act)等多個框架,在沒有明確優先層級的情況下,「義大利麵碗式的法遵困境」(Spaghetti Bowl of Compliance)便產生了。機關對於法規的困惑與恐懼,使他們拒絕資料開放。 歐盟執委會為了解決這個問題,開始了「立法整合」(Legislative Consolidation)計畫。歐盟將來渴望透過統一各項法規中的定義(例如釐清在 GDPR 下「合法利益」如何適用於 AI 訓練)、以及簡化報告義務(推行「報告一次」原則),減低開放資料推動的障礙。 #### 4.1.1.4 小結 以上分析案例證明,當開放資料制度與開放授權條款進行整合,且有清楚且連貫的立法,研究團隊能將重心回歸 AI 技術開發,不需耗費額外資源於繁瑣的授權申請程序。明確且一致的開放授權資料集往往比規模龐大卻授權條款不清晰的資料集更具價值。 相對而言,在西班牙遭遇的法規重疊挑戰中則提醒本研究,缺乏整合的法律環境將使行政機關因對風險的恐懼而陷入停滯。 ### 4.1.2 展現開放資料價值促進實質合作 柬埔寨至今尚未通過政府資訊公開法或類似的法律,賦予公民請求政府資訊的法定權利。個人資料保護法方面,該國草案雖然已經討論了近十年,然礙於多方利益的折衝與協調,立法進程相當緩慢。倒是 AI 方面,該國已經發布了國家 AI 策略草案,更識別出教育、農業、製造業等領域為優先發展項目。但這些策略文件實際上仍處於早期階段,尚未轉化為具體的法規或實施細則。雖然如此,公民社會組織 ODC 在這樣的環境中嘗試做出突破的行動,依然有以下的經驗值得學習。 #### 4.1.2.1 政府需求導向的關係建立 ODC 在這樣的環境中,採取的是一種「軟性倡議」的策略。他們根據不同政府機關的文化和需求,提供實質協助、建立信任和展現價值,使政府機關有意願分享資料並調整做法。在資料分享是基於自願而非強制的情況下,柬埔寨政府機關反而更願意保持開放的態度,不會將資料申請視為對其權威的挑戰。 以 ODC 推動的經濟性土地特許權(Economic Land Concessions)資料公開為例,ODC 透過彙整土地管理部門、環境部門以及地方政府的分散資料,建立了一個完整的經濟性土地特許權地圖。這項工作讓柬埔寨相關機關能夠明確釐清每一塊特許區的範圍,確認和環境保護區等的界線,也避免不同土地利用之間的重疊和衝突。ODC 的初衷並非單純為了取得機敏資料,而是透過技術協助將分散在各部門的原始資訊進行整合與視覺化。在這一連串的協調過程中,政府發現這種跨部門的資料整合能有效減少施政錯誤並滿足決策需求時,原本被視為機敏封閉的土地資訊便有了開放的基礎。這種從民間需求出發,進而達成跨機關資訊流通的模式,不僅解決了眼前的問題,也讓這些經過清理與結構化的空間資訊,有機會成為後續開發土地預測或資源規劃 AI 模型時最珍貴的在地語料。 #### 4.1.2.2 正向公私協力案例促進立法 更令人欣喜的是,成功的公私協力也能促成立法,進而補足國家法律框架的不足。 延續柬埔寨經濟性土地特許權資料公開的案例,他們的影響力有更多元的層面。該國土地特許區時常發生侵入原住民社區的案例,進而引發紛爭。藉由公開資料,原住民首次能夠以地圖空間視覺化的方式了解自己的土地權益受到哪些威脅,這些資訊成為他們向政府倡議、要求保護傳統領域的重要依據。對政府決策者而言,這個地圖空間視覺化工具揭示了土地管理政策的盲點,促使相關部門開始思考如何在經濟發展和社區權益之間取得更好的平衡。對國際投資者和民間組織而言,這些公開透明的資料讓他們能夠更負責任地評估投資計畫的社會環境影響。這些自下而上的實踐經驗都為未來的立法提供寶貴的參考。 #### 4.1.2.3 小結 當政策制定者意識到開放資料能夠帶來的具體好處,以及實務上可行的作業模式時,他們會更有信心推動相關的法律改革。ODC 在訪談中提到,柬埔寨政府已經意識到各機關使用不同資料結構所帶來的問題,並開始討論建立統一的資料治理架構。而 ODC 在實務上累積的經驗,包括如何設計易於使用的資料格式、如何處理資料品質問題、以及如何在開放與保護之間取得平衡,都成為了政策制定者的重要參考。 ## 4.2 協作模式比較分析 本節聚焦於 TOE 分析框架中組織脈絡(Organizational Context),探討跨組織與跨機關協作在開放資料與 AI-Ready 推動過程中所面臨的實務挑戰。組織脈絡關注的是不同參與單位在組織文化、權責分工、資源配置與決策流程上的差異,這些因素往往直接影響資料是否得以順利釋出與再利用。 在實務上,不同政府機關因業務目標、風險承擔程度與對資料開放的理解不一,可能對開放資料採取不同的態度與執行方式;同時,當民間或學術單位參與資料推動時,組織文化與工作節奏的差異,也可能影響溝通效率與協作成果。因此,如何建立清楚的協作機制與角色分工,成為推動開放資料與 AI-Ready 資料過程中的關鍵課題。 ### 4.2.1 建立政府內部跨機關的制度化協作 柏林 Parla 專案建立了一套橫跨行政與立法部門的長期合作架構,而非僅止於單純的採購關係。行政機關藉由柏林參議院常態性的創新補助金委託 CityLAB 運作,賦予了 CityLAB 扮演「資訊技術和行政機關的橋樑」,讓這個創新實驗室得以跨越部會藩籬,介接議會紀錄與參議院各局處的業務資料。這種補助機制本質上是一種「協作基礎建設」的投資。 西班牙的 ImpulsaDATA 計畫則展現了另一種透過制度化來達成政府內跨機關協作的模式。西班牙政府設立「資料總局」作為行政中樞,透過法定的國家資料架構與年度報告機制,將機關間的單純的諮詢業務提升為法律義務,在 ImpulsaDATA 的架構中,資料總局並非僅提供諮詢,而是透過診斷、缺口分析到具體行動的標準化流程,將複雜的歐盟法規轉譯為機關可執行的方案。 ### 4.2.2 輔以下而上模式整合需求 案例介紹時提過,CityLAB 透過「AI Ideas Workshop」工作坊,並邀請柏林行政機關員工參與,共同討論「日常工作中哪些任務可以透過 AI 來支援?」,在工作坊中參與者表示,收取和回復議會書面質詢是一項耗時且佔用大量資源的任務。CityLAB 因此直接回應這個無需額外說服行政機關接受的痛點和具體需求。這種從概念階段就與實際使用者需求緊密結合的開發模式,確保了專案的實用性。柬埔寨的 ODC 在這方面也不謀而合。 ODC 對有意願合作的政府機關提供技術支援和訓練,以互惠的形式協助機關提升資料管理能力。這種實質的技術協助讓機關感受到合作的好處,進而更願意在資料公開上採取積極態度。例如郵電部和環境部相對開放,願意邀請 ODC 參與政策草案的討論,並在某些條件下分享資料;規劃部也接受組織提供的技術培訓和支援。兩個組織都展現了,理解實務需求與跨領域對話的能力在技術開發能力之外的重要性。 ### 4.2.3. 資料主題性選擇 #### 4.2.3.1 注意該資料主題的複雜性 一般來說,不同資料主題意味著組織需要面對資料本身不同程度的複雜性。在討論資料選擇策略之前,The German Commons 的經驗為本研究提供了一個重要的對照:面對巨量的潛在資料來源,系統性的主題選擇和策略性的取捨仍然是必要的;而在決定選擇那些資料來源之前,也需要對世界上存在的資料來源先廣泛了解,才能在之中選擇最具代表性的資料集。 The German Commons 團隊從一開始就設定了明確的資料領域範圍:法律、科學、文化、政治、新聞、經濟和網路文本七大領域,最終從 41 個來源蒐集了 1545.6 億個詞元。這個看似龐大的數字,實際上是經過審慎篩選的結果。團隊明確表示,他們的策略是在每個領域中選擇「最大且最具代表性的單一資料來源」,而非試圖納入所有可得的資料集。 但在一開始能先了解世界上現存的資料來源有哪些,也一樣重要。以文化領域為例,雖然德語是德國的主要語言,但高品質的德語內容並不只存在於德國境內,瑞士與奧地利的國家圖書館同樣擁有豐富且具備開放授權的德語資料。然而,由於團隊在專案後期才將視角擴大到這些跨國來源,導致必須重啟部分資料處理流程。這項經驗說明,推動者在起步階段就應該具備語言的跨國視角,跳脫邊界,優先盤點全球範圍內所有可能承載該語言資料的機構。這種先求全貌再行篩選的規劃方式,不僅能確保資料涵蓋範圍的完整性,也能有效避免因後期補齊資料而產生的重複開發成本。 #### 4.2.3.2 強調資料應用,降低政府機關對該主題資料開放的擔憂 雖然都是使用政府的開放資料來產出可供 AI 訓練的資料,而且都很注重資料的主題選擇,但The German Commons 與 ODC 的目的性全然不同。前者主題的篩選策略是基於保障資料品質的觀點而出發,ODC則是從從如何能更容易取得政府資料的觀點出發,特別是當開放資料涉及財政收入、礦業權益、土地利益等領域時。 ODC 在訪談中提及,稅收、礦產開採等領域的資料,由於牽涉到複雜的利益關係,機關會更加謹慎甚至保守,面對資料申請時更容易互相推託責任。經濟財政部和礦業部在面對礦業收入資料的申請時,就出現了互相推諉的情況:礦業部表示他們沒有資料,應該向經濟財政部查詢;經濟財政部則回應他們只有總額,沒有各公司的細項資料。這種「踢皮球」的現象,反映了當資料涉及敏感的商業利益或政府收入時,機關往往會選擇最保守的立場。 面對這種情況,ODC 發展出了策略性的漸進式方法:對於較為保守的機關,組織不會強行施壓,而是先在環境資料、通訊政策、發展規劃等相對不涉及直接經濟利益或政治敏感性的領域建立信任基礎,等待適當的時機再提出資料申請。與環境部建立的合作關係就是一個成功的例子。起初環境部對 ODC 的資料申請也相當謹慎,但隨著時間推移,當他們了解 ODC 發布的資料都是經過負責任處理的,而且確實對公共利益有所貢獻時,環境部開始願意在某些條件下分享環境影響評估報告。雖然不是所有報告都能公開,但至少建立了一個可以對話和協商的管道。 這種差異反映了一個重要的現實:資料主題性的敏感程度和機關的開放意願密切相關,推動策略需要因地制宜。從 The German Commons 的經驗中,本研究發現,即使在法律環境相對友善、資料授權相對明確的情況下,仍然需要做出策略性的主題選擇和資料取捨,以確保最終資料集的品質和實用性。而 ODC 的經驗則提醒本研究,在法律環境正發展中的情況下,資料主題的選擇不僅是技術問題,更是建立信任和推動協作的策略考量。從較不敏感的領域開始,逐步建立成功案例,往往是開啟更多資料來源的有效路徑。 ### 4.2.4 小結 順暢的協作是開放資料與 AI 應用成功的重要基礎。無論是政府內部的跨機關協調,還是政府與民間組織之間的公私協力,都需要建立在相互信任和共同目標的基礎上。從這些案例中,本研究可觀察到幾個協作成功的共同要素: 首先,技術能力固然重要,但理解實務需求並進行有效溝通的能力同樣不可或缺。Parla 透過工作坊直接回應公務員的痛點,ODC 透過技術支援讓機關感受到合作的價值,這些做法都展現了同理心和實用主義的重要性。 其次,採取由下而上、需求導向的工作方法,能夠讓協作更容易開展。當資料使用者或技術開發者不是以「要求」的姿態,而是以「協助解決問題」的角度來與機關對話時,後者的防衛心態會大幅降低。這種工作方法也確保了最終產出的實用性,因為它們是針對真實需求而設計的。 第三,根據不同的制度環境與資料敏感度,靈活調整協作策略至關重要。The German Commons 展現了在資料豐富的環境中如何做出策略性選擇,ODC 則示範了在資源和法律都受限的情況下,如何透過漸進式的信任建立來開拓空間。沒有一種方法可以適用於所有情境,但原則是一致的:理解環境、理解限制、展現價值、建立信任。 最後,無論是透過制度化方式系統性設計協作機制,或是基於個別組織與政府機關、跨組織關係所形成的彈性協作模式,皆有助於促成具體且可觀察的實質成果。前者提供了穩定性和可預測性,後者則展現了彈性和適應力。更重要的是,這兩種路徑並非互斥,而是可以相互補充。當民間組織透過個別協作累積了成功經驗,這些經驗可以為制度化機制的建立提供參考;而當政府建立了制度化的協作框架,也能讓民間組織的工作更加順暢。對於正在考慮推動開放資料與 AI 結合的政府機關而言,這些經驗傳遞的訊息是:協作是成功的必要條件,無論是公部門內的跨機關協作,或跨利害關係人的公私協力都是。真誠地理解彼此的需求和限制,並在此基礎上找到共同的價值和目標。當這種相互理解和信任建立起來後,資料的流通、技術的應用、以及最終的社會效益,都會自然而然地隨之而來。 [^13]: Kleiman, Fernando, Marijn Janssen, Sebastiaan Meijer, and Sylvia J. T. Jansen. “Changing Civil Servants’ Behaviour Concerning the Opening of Governmental Data: Evaluating the Effect of a Game by Comparing Civil Servants’ Intentions before and after a Game Intervention.” International Review of Administrative Sciences, 2022\. https://doi.org/10.1177/0020852320962211. {%hackmd 2VNQvvY9T_WjKiN1hgd-vA %}
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up