工作坊問答整理

# 工作坊問答整理 :::info LTSER社會科學面向資料的收集、管理與開放性考量工作坊地點：臺大森林系館2樓會議室日期：2025-04-07 ::: ## 一、逐字稿轉錄與語音模型 - **宋老師**：目前現場錄音含環境音、方言，AI 逐字稿效果不佳。 - **depositar 團隊**： - 建議使用「雅婷」模型，對臺語轉文字效果較好。 - 陽明交大有實驗室開發臺語語音模型，可考慮合作。 - 環境音問題可用指向性麥克風或後處理降噪演算法改善。 - **得愷**：其實老師們現有的第一手資料錄音檔、逐字稿，就是很好的訓練資料，但礙於規範很難實施。 - **Marco**：也許可以開設一個雲端空間，提供內部成員使用。 ## 二、RAG 與 GPT 應用 - **許君咏（專案經理）**： - 聯發科已有支援 RAG 架構與 GPT 訓練流程，但需要人力維護。 - **西南海岸站**： - 詢問如何架設 RAG 系統。 - Demo 的 GPTs 會忘記專案內容，需要注意 prompt 設計與記憶管理。 - **LTSER 資料應用**： - 可透過呼叫 ChatGPT API 串接網站，將產出資料做即時互動。 ## 三、資料保存年限與倫理／法規 - **宋老師**：希望資料保存年限不要過短。 - **廖老師**： - 保存年限與 IRB 申請（研究倫理審查）寫法密切相關。 - 若在 IRB 說明保存目的清楚，送交 SRDA 學術調查研究資料庫(Survey Research Data Archive)應該不會有大問題，委員應該不會太刁難。 - **陸老師**： - 過去臺大要求銷毀五年前的含個資資料，導致資料難以再利用。 - 希望國科會目前建議可保留更多資料，甚至含姓名等個資，但需加強保密措施。 - **官老師**：關心資料有效性，強調臺灣社會系統複雜性（宮廟文化、原住民文化、家戶差異），需檢視抽樣單位是否反映現況。 - **宋老師**：目前手上地址資料已依地理區域抽樣，認為可行，但原住民案例也許需要近一步討論家戶之間的關係。 ## 四、著作權與資料引用 - **宋老師**：資料開放後，簽約及出版回報，著作權歸屬如何認定？ - **廖老師**： - 以SRDA為例，資料檔和相關詮釋資料的著作權屬於計畫主持人的所屬機構，但是計畫主持人有權決定資料是否釋出（開放）給其他人使用。若開放給其他學者使用來撰寫研究著作的時候，著作本身的著作權屬於論文作者，但是鼓勵作者在參考文獻處引用資料。由於SRDA所典藏的每一筆資料均配置了DOI，並且提供了資料的中英文引用格式供參考，鼓勵作者採用。開放的時程與授權內容則明訂於「調查資料檔案利用授權書」中。 - 合約中也可明訂資料產權與回報機制。 - **後續**：可安排工作坊討論「資料敏感層級」與著作權議題。 ## 五、訪談資料分析與視覺化 - **陳德容**：詢問 MAXQDA 軟體使用經驗。 - **宋老師**：MAXQDA 只是協助規劃，現階段還是發時間需要人工處理，也許之後 AI 可能可以協助更多分析。 - **坤璋**：計畫以 GPT‑4 分析訪談資料並用 DPSIR 模型做整合視覺化。