## 人工智慧共識協作工作坊 - 台灣大型模型語言發展與治理(台北場) **日期:** 2023/11/11 **活動時間:** 13:30 - 16:30 **活動地點:** 台大集思 柏拉圖廳 **主辦單位:** AIA 台灣人工智慧學校 **團體引導師:** 齊想創造工作室 **預計參與人數:** 50 人 (LLM相關開發及研究人員、使用者、管理者) **議題:** 探討 LLM 生命週期中,包括資料處理、模型訓練、產出運用、應用場景等各階段中,應注重的風險與治理,台灣產業的最佳發展路徑。 --- ## 工作坊討論成果彙整 :::success 全場討論脈絡,請參心智圖(不需登入即可瀏覽,共筆功能已關閉):https://lucid.app/lucidspark/e7057b1a-b84e-42e5-a7cd-ea3280f47e1f/edit ::: **現場與會者對於「台灣自己的LLMs」的多元想像** ![截圖 2023-11-13 上午9.59.11](https://hackmd.io/_uploads/H1TlXWJNT.png) ### 上半場 #### inform:伊莎貝的提問,與五位受訪者的成果 >Q1: 對中研院 CKIP LLM 事件的看法? Q2: 台灣是否需要自己的 LLM? 需要什麼樣的 LLM? 為什麼? Q3: 在 AI 發展上,台灣各部門資源最應該投入哪些部分? ![截圖 2023-11-13 上午10.07.09](https://hackmd.io/_uploads/ByaCEbJ4a.png) :::success 【inform】訪談彙整簡報: https://docs.google.com/presentation/d/1VaRdUeyZcrMpmAm4PBVq-VMkmRX_pc9rwpURe5Cx7AE/edit#slide=id.g26136b1732d_0_48 ::: ### 大場討論 大場討論紀錄:心智圖[請點這裡](https://lucid.app/lucidspark/e7057b1a-b84e-42e5-a7cd-ea3280f47e1f/edit),下為局部截圖 ![截圖 2023-11-13 上午10.20.11](https://hackmd.io/_uploads/Hyiy_W14T.png) #### 1.原大主題「台灣大型語言模型的發展與治理」沒有共識: - 台灣要不要現在發展自己的語言模型,有人出於國家及產業戰略考量,有人比較強調特定功能增強多元性(原住民族)的取向;沒有在討論中有明顯轉向要or不要的風向。 - 後續在分組時,這個猶豫,似乎也就呈現為對於程序的討論,像是衝擊影響評估及利害關係人盤點等前期工作。 #### 2.比較有共識的,是必須改變目前對「資料使用」的規範: - 無論是發展大語言模型,或者微調、專用化等目的,在訓練模型時大家用資料會綁手綁腳,有限制跟風險,或者覺得不好用;解法上有提到鬆綁既有法律、立新法或判例(否則遲早也是被國外大企業繞過)。但是規範背後的社會價值觀如何推動,停留在點出困難。 - 後續在分組時,有更多困難及細節被展開,但沒有到行動項目跟期程的討論。 ### 3.其他 - 3-1. 更大範疇的題目被拋出: - AI跟經濟發展及再分配的因果關係 - 社會如何重新賦予跟「語言」相關工作的價值 - 3-2. 對於現況認識的分享: - 滲透率、量級、他國作法、政府過去做的怎麼樣及未來可以期待些什麼、台灣好像有些進步性的東西能貢獻世界而不只是國族建構、人才呢 ### 引導團隊的詮釋性解讀: 1. 關於第一項的無共識,在對於「台灣自己的語言模型」有多元的想像下,還沒有一個共同的核心問題被確立。與其說是沒有共識,更像是「本來就帶著不同的問題意識」放在大型語言模型/生成式AI這個項目上,交換著「我的主題如果碰到『台灣自己的語言模型』的話,會產生的利弊與效應」。因此,各產業、議題社群內部先有一個對於『台灣自己的語言模型』有一個內部討論及想像(`前提當然是對AI發展的認識,包括訪談提到很多但現場提到較少的資源、算力與人力`),也就是讓「差異」更明確化,或許是整個社會能夠產生聚焦對話的前提。白話來說就是爭點要檯面化。 2. 關於第二項的初步共識,除了在實際應用場景所遭遇的資料使用限制,以及法律跟官僚、民間等行動者之間的著作權沙盤推演之外,感覺還有一個隱而未顯的焦慮是「我們(台灣)的生活經驗與文本,如何被更全面且精確被『文本化、資料化』(進而能被機器、語言模型乃至於整個文明世界被包含進去)」,反映在對於繁體中文、台灣本地各行各業的資料現況的討論。前者比較屬於法律的運動,進入務實的策略,屬於專業者跟利益團體的領域;後者比較「把經驗世界給知識化」的工作則比較屬於知識工作者的命題。 3. 其他的討論向度都很大,而且發言者皆表達了對於各向度的關注度,凸顯了這個主題所帶有的龐大「前提問題」串。下一步可能是更限縮討論的求解範圍,做各項子題的討論,並且確保「被在乎的問題都有它可以匯流到的下游支線」,否則所有被在意的題目都會在同一條大河;這在一個新的領域有時難以避免,必須累積足夠多討論場景。 ### 下半場 這邊的彙整修正了現場以「高中低度共識」的分類方法。 實際上是以現場言說的次數跟被提問項目分級,分組討論呈現的結果更多是「提及強度」而非「共識」。因此我們重新設定了最上面的分類框架: - 較有共識 - 仍有異議 - 存有分歧 - 特別提及 ![截圖 2023-11-12 晚上10.55.12](https://hackmd.io/_uploads/H1JwvDAXa.png) ### 各組海報 ![截圖 2023-11-13 上午10.15.47](https://hackmd.io/_uploads/rkGJv-kVT.png) ### 會後:分流出未來可以繼續討論的子議題`建置中🚧 歡迎共筆` 不同領域的發言者皆表達各向度上一定的關注度,若以「發展」及「治理」兩個範圍來看,可以各自收攏出以下的子議題以持續深化: **【發展】** 1. 資料庫品質優化 - 過去的資料 vs 未來的資料: 台灣過去已有諸多計畫伴隨大量的資料釋出,然後真正能實際運用的並不多,如何再利用與活化這些資料,以轉化成可被 AI 訓練與應用,是可能發想與深化討論的議題之一;在未來資料方面,新資料的取得條件也充滿挑戰,其中包含執行單位主動上傳意願低、缺乏資料擁有者授權等因素,如何克服既有困難或是尋求框架外的做法仍需要更多探索。 - 專業領域資料庫: 「盤點相關應用情境、利害關係人」是當日較有共識的LLM發展前提之一,然而對於哪些具體情境、對應利害關係人較少進一步的討論,也許下一步可以就特定專業領域的命題著手,打開更多務實策略。 2. 族群關懷與多元性 - 稀有語言語料庫: LLM 作為知識體系與文化的載體,若能用於增強多元性、紀錄有價值的在地文化,能夠促進更好的族群溝通與知識保存。以此為延伸,稀有語言語料庫應備齊哪些條件、如何凝聚行動者與關係人,以及哪些行動策略需要被展開,都值得持續滾動討論。 3. AI 素養與社會教育 - AI 的包容與想像力: 現階段台灣的滲透率過低,如何擴大社會對於LLM的討論參與、他國作法的認識與執行的想像空間,或許能有助於LLM的積極討論並促進共識方向;此外,培養大眾對於 AI 的包容力也是社會教育的重要一環,而如何將這樣的精神落實於行動裡,也需要不同的領域專家、教育工作者共同討論。 **【治理】** 1. 法律治理(特別著重於著作權探討) - 朝向鬆綁發展: 考慮到著作權於執行時的困難及複雜度,參與者提出法治應趨向鬆綁發展,以利跟上 AI 的迅速發展,同時保有治理精神。而目前法規面並無界定明確的授權範圍,後續也許可以在朝向鬆綁的前提之下,討論哪些範圍應明文界定、哪些範疇則建議保有彈性。在立法的角色上,認為有行政部門的支持相當重要,但應由「哪個部門」來參與推動,才能避免出現越權問題並促進立法。 - 定義何謂侵害著作權: 當天許多討論圍繞在如何界定「何謂侵害著作權」,從「什麼是給 AI 訓練」的前沿定義到後段「法院判定標準」都有許多可以深化討論之處。 2. 衝擊影響評估 - AI 應用帶來的經濟效益及價值衝擊: 除了多元性、文化面的價值探討外,當日參與者也拋出了以經濟效益為發展前提的相關議題,潛在影響包含應用後的受益分配、產業轉型議題、語言相關工作的衝擊、商用規模與夥伴關係等等。 3. 如何持續與專業人才結合: 跨領域的專業人才合作能促進 LLM 更好的管理及發展,然而如何降低法律、工程、其他跨領域人士的參與門檻,讓知識能順暢流動,也是可以持續深化討論的面向之一。 ### 會後:引導團隊的討論設計與復盤 主議題「台灣大型語言模型的開發與治理」範圍很大,透過訪談,盤點了對於開發、治理的前提條件,以及幾個可能的發展方向。然而在台灣,實際上具有開發潛力的行動者並不多,在「可行性」上有know-how的人也不多。如何將既有的經驗知識在討論前就讓與會者都有一定程度的對齊,會是下一次這個討論開啟時的重要籌備事項。 與會者的多元性反映在發言時的不同關懷與切角,但未必都是建立在「台灣大型語言模型的開發與治理『與否』」的前提之上,而有許多是模型開發的可能前提或相關配套議題,甚至是可以完全獨立出來討論的議題。在引導上,或許要適當切分出兩者的差別;進到小組時,可以將不同關懷的人拆開來,採用open space讓大家選擇自己適合且有興趣的組別。另外,三小時讓四到五十人的發言還是略嫌吃緊,但拉長會議時間則會降低報名參與意願,需要權衡。 這次的分組方式是採取多元性,將不同身份的人打散,能夠讓彼此聽到不同領域跟AI認識程度不一的人的聲音,但較難幫助討論進到更深入與細節之處。經過這次測試,引導團隊也發現事前設計的小組工具單,反而或許比較適合在前期激盪;因為與會者想要深入哪一個子題,在會前較難掌握,應該讓小組順應著組成去發展想要深入的議題,避免被工具單的提問方式侷限。 最後是有關會議參與者對於AI議題知能落差,純就與會者而言,或可考慮分眾辦理,純邀請制or讓與會者選擇適合自己的場次,例如「專業者」和「興趣者」;本次採用的作法較有利於想要了解議題的人,能夠一次吸收到不同方的說法,但對於專業者而言則不夠聚焦。以引導團隊而言,或可考慮雙主持的模式,兼顧議題與利害關係人know-how,以及維持討論動能與議程進行的目的,事前排演幾種要往特定方向聚焦,或者適當請哪些人補充以增進整場廣度的劇本。 --- # 自由共筆區 >當天討論的補充...... >會後想到更多可以和大家分享的內容...... ......