# 工作坊問答整理 :::info LTSER社會科學面向資料的收集、管理與開放性考量工作坊 地點:臺大森林系館2樓會議室 日期:2025-04-07 ::: ## 一、逐字稿轉錄與語音模型 - **宋老師**:目前現場錄音含環境音、方言,AI 逐字稿效果不佳。 - **depositar 團隊**: - 建議使用「雅婷」模型,對臺語轉文字效果較好。 - 陽明交大有實驗室開發臺語語音模型,可考慮合作。 - 環境音問題可用指向性麥克風或後處理降噪演算法改善。 - **得愷**:其實老師們現有的第一手資料錄音檔、逐字稿,就是很好的訓練資料,但礙於規範很難實施。 - **Marco**:也許可以開設一個雲端空間,提供內部成員使用。 ## 二、RAG 與 GPT 應用 - **許君咏(專案經理)**: - 聯發科已有支援 RAG 架構與 GPT 訓練流程,但需要人力維護。 - **西南海岸站**: - 詢問如何架設 RAG 系統。 - Demo 的 GPTs 會忘記專案內容,需要注意 prompt 設計與記憶管理。 - **LTSER 資料應用**: - 可透過呼叫 ChatGPT API 串接網站,將產出資料做即時互動。 ## 三、資料保存年限與倫理/法規 - **宋老師**:希望資料保存年限不要過短。 - **廖老師**: - 保存年限與 IRB 申請(研究倫理審查)寫法密切相關。 - 若在 IRB 說明保存目的清楚,送交 SRDA 學術調查研究資料庫(Survey Research Data Archive)應該不會有大問題,委員應該不會太刁難。 - **陸老師**: - 過去臺大要求銷毀五年前的含個資資料,導致資料難以再利用。 - 希望國科會目前建議可保留更多資料,甚至含姓名等個資,但需加強保密措施。 - **官老師**:關心資料有效性,強調臺灣社會系統複雜性(宮廟文化、原住民文化、家戶差異),需檢視抽樣單位是否反映現況。 - **宋老師**:目前手上地址資料已依地理區域抽樣,認為可行,但原住民案例也許需要近一步討論家戶之間的關係。 ## 四、著作權與資料引用 - **宋老師**:資料開放後,簽約及出版回報,著作權歸屬如何認定? - **廖老師**: - 以SRDA為例,資料檔和相關詮釋資料的著作權屬於計畫主持人的所屬機構,但是計畫主持人有權決定資料是否釋出(開放)給其他人使用。若開放給其他學者使用來撰寫研究著作的時候,著作本身的著作權屬於論文作者,但是鼓勵作者在參考文獻處引用資料。由於SRDA所典藏的每一筆資料均配置了DOI,並且提供了資料的中英文引用格式供參考,鼓勵作者採用。開放的時程與授權內容則明訂於「調查資料檔案利用授權書」中。 - 合約中也可明訂資料產權與回報機制。 - **後續**:可安排工作坊討論「資料敏感層級」與著作權議題。 ## 五、訪談資料分析與視覺化 - **陳德容**:詢問 MAXQDA 軟體使用經驗。 - **宋老師**:MAXQDA 只是協助規劃,現階段還是發時間需要人工處理,也許之後 AI 可能可以協助更多分析。 - **坤璋**:計畫以 GPT‑4 分析訪談資料並用 DPSIR 模型做整合視覺化。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up