20231111 人工智慧共識協作工作坊 - 台灣大型模型語言發展與治理（台北場）

## 人工智慧共識協作工作坊 - 台灣大型模型語言發展與治理（台北場） **日期：** 2023/11/11 **活動時間：** 13:30 - 16:30 **活動地點：** 台大集思柏拉圖廳 **主辦單位：** AIA 台灣人工智慧學校 **團體引導師：** 齊想創造工作室 **預計參與人數：** 50 人（LLM相關開發及研究人員、使用者、管理者） **議題：** 探討 LLM 生命週期中，包括資料處理、模型訓練、產出運用、應用場景等各階段中，應注重的風險與治理，台灣產業的最佳發展路徑。 --- ## 工作坊討論成果彙整 :::success 全場討論脈絡，請參心智圖（不需登入即可瀏覽，共筆功能已關閉）：https://lucid.app/lucidspark/e7057b1a-b84e-42e5-a7cd-ea3280f47e1f/edit ::: **現場與會者對於「台灣自己的LLMs」的多元想像** ![截圖 2023-11-13 上午9.59.11](https://hackmd.io/_uploads/H1TlXWJNT.png) ### 上半場 #### inform：伊莎貝的提問，與五位受訪者的成果 >Q1: 對中研院 CKIP LLM 事件的看法？ Q2: 台灣是否需要自己的 LLM? 需要什麼樣的 LLM? 為什麼？ Q3: 在 AI 發展上，台灣各部門資源最應該投入哪些部分？ ![截圖 2023-11-13 上午10.07.09](https://hackmd.io/_uploads/ByaCEbJ4a.png) :::success 【inform】訪談彙整簡報： https://docs.google.com/presentation/d/1VaRdUeyZcrMpmAm4PBVq-VMkmRX_pc9rwpURe5Cx7AE/edit#slide=id.g26136b1732d_0_48 ::: ### 大場討論大場討論紀錄：心智圖[請點這裡](https://lucid.app/lucidspark/e7057b1a-b84e-42e5-a7cd-ea3280f47e1f/edit)，下為局部截圖 ![截圖 2023-11-13 上午10.20.11](https://hackmd.io/_uploads/Hyiy_W14T.png) #### 1.原大主題「台灣大型語言模型的發展與治理」沒有共識： - 台灣要不要現在發展自己的語言模型，有人出於國家及產業戰略考量，有人比較強調特定功能增強多元性（原住民族）的取向；沒有在討論中有明顯轉向要or不要的風向。 - 後續在分組時，這個猶豫，似乎也就呈現為對於程序的討論，像是衝擊影響評估及利害關係人盤點等前期工作。 #### 2.比較有共識的，是必須改變目前對「資料使用」的規範： - 無論是發展大語言模型，或者微調、專用化等目的，在訓練模型時大家用資料會綁手綁腳，有限制跟風險，或者覺得不好用；解法上有提到鬆綁既有法律、立新法或判例（否則遲早也是被國外大企業繞過）。但是規範背後的社會價值觀如何推動，停留在點出困難。 - 後續在分組時，有更多困難及細節被展開，但沒有到行動項目跟期程的討論。 ### 3.其他 - 3-1. 更大範疇的題目被拋出： - AI跟經濟發展及再分配的因果關係 - 社會如何重新賦予跟「語言」相關工作的價值 - 3-2. 對於現況認識的分享： - 滲透率、量級、他國作法、政府過去做的怎麼樣及未來可以期待些什麼、台灣好像有些進步性的東西能貢獻世界而不只是國族建構、人才呢 ### 引導團隊的詮釋性解讀： 1. 關於第一項的無共識，在對於「台灣自己的語言模型」有多元的想像下，還沒有一個共同的核心問題被確立。與其說是沒有共識，更像是「本來就帶著不同的問題意識」放在大型語言模型／生成式AI這個項目上，交換著「我的主題如果碰到『台灣自己的語言模型』的話，會產生的利弊與效應」。因此，各產業、議題社群內部先有一個對於『台灣自己的語言模型』有一個內部討論及想像（`前提當然是對AI發展的認識，包括訪談提到很多但現場提到較少的資源、算力與人力`），也就是讓「差異」更明確化，或許是整個社會能夠產生聚焦對話的前提。白話來說就是爭點要檯面化。 2. 關於第二項的初步共識，除了在實際應用場景所遭遇的資料使用限制，以及法律跟官僚、民間等行動者之間的著作權沙盤推演之外，感覺還有一個隱而未顯的焦慮是「我們（台灣）的生活經驗與文本，如何被更全面且精確被『文本化、資料化』（進而能被機器、語言模型乃至於整個文明世界被包含進去）」，反映在對於繁體中文、台灣本地各行各業的資料現況的討論。前者比較屬於法律的運動，進入務實的策略，屬於專業者跟利益團體的領域；後者比較「把經驗世界給知識化」的工作則比較屬於知識工作者的命題。 3. 其他的討論向度都很大，而且發言者皆表達了對於各向度的關注度，凸顯了這個主題所帶有的龐大「前提問題」串。下一步可能是更限縮討論的求解範圍，做各項子題的討論，並且確保「被在乎的問題都有它可以匯流到的下游支線」，否則所有被在意的題目都會在同一條大河；這在一個新的領域有時難以避免，必須累積足夠多討論場景。 ### 下半場這邊的彙整修正了現場以「高中低度共識」的分類方法。實際上是以現場言說的次數跟被提問項目分級，分組討論呈現的結果更多是「提及強度」而非「共識」。因此我們重新設定了最上面的分類框架： - 較有共識 - 仍有異議 - 存有分歧 - 特別提及 ![截圖 2023-11-12 晚上10.55.12](https://hackmd.io/_uploads/H1JwvDAXa.png) ### 各組海報 ![截圖 2023-11-13 上午10.15.47](https://hackmd.io/_uploads/rkGJv-kVT.png) ### 會後：分流出未來可以繼續討論的子議題`建置中🚧 歡迎共筆` 不同領域的發言者皆表達各向度上一定的關注度，若以「發展」及「治理」兩個範圍來看，可以各自收攏出以下的子議題以持續深化： **【發展】** 1. 資料庫品質優化 - 過去的資料 vs 未來的資料：台灣過去已有諸多計畫伴隨大量的資料釋出，然後真正能實際運用的並不多，如何再利用與活化這些資料，以轉化成可被 AI 訓練與應用，是可能發想與深化討論的議題之一；在未來資料方面，新資料的取得條件也充滿挑戰，其中包含執行單位主動上傳意願低、缺乏資料擁有者授權等因素，如何克服既有困難或是尋求框架外的做法仍需要更多探索。 - 專業領域資料庫：「盤點相關應用情境、利害關係人」是當日較有共識的LLM發展前提之一，然而對於哪些具體情境、對應利害關係人較少進一步的討論，也許下一步可以就特定專業領域的命題著手，打開更多務實策略。 2. 族群關懷與多元性 - 稀有語言語料庫： LLM 作為知識體系與文化的載體，若能用於增強多元性、紀錄有價值的在地文化，能夠促進更好的族群溝通與知識保存。以此為延伸，稀有語言語料庫應備齊哪些條件、如何凝聚行動者與關係人，以及哪些行動策略需要被展開，都值得持續滾動討論。 3. AI 素養與社會教育 - AI 的包容與想像力：現階段台灣的滲透率過低，如何擴大社會對於LLM的討論參與、他國作法的認識與執行的想像空間，或許能有助於LLM的積極討論並促進共識方向；此外，培養大眾對於 AI 的包容力也是社會教育的重要一環，而如何將這樣的精神落實於行動裡，也需要不同的領域專家、教育工作者共同討論。 **【治理】** 1. 法律治理（特別著重於著作權探討） - 朝向鬆綁發展：考慮到著作權於執行時的困難及複雜度，參與者提出法治應趨向鬆綁發展，以利跟上 AI 的迅速發展，同時保有治理精神。而目前法規面並無界定明確的授權範圍，後續也許可以在朝向鬆綁的前提之下，討論哪些範圍應明文界定、哪些範疇則建議保有彈性。在立法的角色上，認為有行政部門的支持相當重要，但應由「哪個部門」來參與推動，才能避免出現越權問題並促進立法。 - 定義何謂侵害著作權：當天許多討論圍繞在如何界定「何謂侵害著作權」，從「什麼是給 AI 訓練」的前沿定義到後段「法院判定標準」都有許多可以深化討論之處。 2. 衝擊影響評估 - AI 應用帶來的經濟效益及價值衝擊：除了多元性、文化面的價值探討外，當日參與者也拋出了以經濟效益為發展前提的相關議題，潛在影響包含應用後的受益分配、產業轉型議題、語言相關工作的衝擊、商用規模與夥伴關係等等。 3. 如何持續與專業人才結合：跨領域的專業人才合作能促進 LLM 更好的管理及發展，然而如何降低法律、工程、其他跨領域人士的參與門檻，讓知識能順暢流動，也是可以持續深化討論的面向之一。 ### 會後：引導團隊的討論設計與復盤主議題「台灣大型語言模型的開發與治理」範圍很大，透過訪談，盤點了對於開發、治理的前提條件，以及幾個可能的發展方向。然而在台灣，實際上具有開發潛力的行動者並不多，在「可行性」上有know-how的人也不多。如何將既有的經驗知識在討論前就讓與會者都有一定程度的對齊，會是下一次這個討論開啟時的重要籌備事項。與會者的多元性反映在發言時的不同關懷與切角，但未必都是建立在「台灣大型語言模型的開發與治理『與否』」的前提之上，而有許多是模型開發的可能前提或相關配套議題，甚至是可以完全獨立出來討論的議題。在引導上，或許要適當切分出兩者的差別；進到小組時，可以將不同關懷的人拆開來，採用open space讓大家選擇自己適合且有興趣的組別。另外，三小時讓四到五十人的發言還是略嫌吃緊，但拉長會議時間則會降低報名參與意願，需要權衡。這次的分組方式是採取多元性，將不同身份的人打散，能夠讓彼此聽到不同領域跟AI認識程度不一的人的聲音，但較難幫助討論進到更深入與細節之處。經過這次測試，引導團隊也發現事前設計的小組工具單，反而或許比較適合在前期激盪；因為與會者想要深入哪一個子題，在會前較難掌握，應該讓小組順應著組成去發展想要深入的議題，避免被工具單的提問方式侷限。最後是有關會議參與者對於AI議題知能落差，純就與會者而言，或可考慮分眾辦理，純邀請制or讓與會者選擇適合自己的場次，例如「專業者」和「興趣者」；本次採用的作法較有利於想要了解議題的人，能夠一次吸收到不同方的說法，但對於專業者而言則不夠聚焦。以引導團隊而言，或可考慮雙主持的模式，兼顧議題與利害關係人know-how，以及維持討論動能與議程進行的目的，事前排演幾種要往特定方向聚焦，或者適當請哪些人補充以增進整場廣度的劇本。 --- # 自由共筆區 >當天討論的補充...... >會後想到更多可以和大家分享的內容...... ......