# 1月RAG會議 ## 1/8 1. 資料集: 用KAPPA指標確定所有embedding model的篩選線對齊 2. 期刊論文: - 歐文寫: Introduction, Related work - 我們寫: Dataset(我們LEET的文章要寫政叡的資料集?) - 4.2, 4.3, 4.4實驗的順序對嗎? ### LEET 1. 標題問三次,動機跟研究問題就出現了,這些動機跟研究問題要被描述在INTRODUCTION內 > 為什麼要測gpt40的繁體中文能力? 為什麼沒有被充分驗證? 為什麼中文表現比較差? 因為使用者少、資料少,這樣測試還重要嗎? 2. Related Work要寫大量的資料別人怎麼做?藉此推到實驗設計 > 人家測試的資料集長怎樣? > 人家的資料是啥 > 人家的評估指標是啥 4. RQ的關鍵字會想辦法寫在title內 5. 資料集可以寫多詳細? > 不用太詳細 ## 1/15 `16:40~` 1. 政叡資料集 - 報kappa結果 - 還有一些流程沒有寫清楚(政叡更新並文字更新到群組) - 今天的資料集可以被稱為V1(包含基本完整流程),可以測試了 - 下個階段的改善: - 維持相同題數的狀況下,將Kappa值提高(e.g.0.8) - 增加==題目豐富性==指標(e.g.entropy越低越好) - 涵蓋率指標 2. 要擴充科目及data source - 盤點所有data source(除了媒體影音及考卷) - Owen學長建議的步驟: 媒體影音的國文 > 大市集的自然、國文 - 分工方式(用Line回報) - 依科目來分 - 依data source來分 3. 所有程式都要存取到這個V1的資料集,使用如資料庫的ip位址或其他endpoint - 轉成google spread sheet並發布成csv檔(較不professional) - 把資料放到kaggle或hugging face並設定權限 - 需求: 有權限管理且程式可以讀的到,討論後用Line回報 4. LEET資料集放到hugging face上但不要公開(因為沒有License) 5. 考卷資料備份位址: 最好可以有個統一的地方放 6. Owen學長那邊算力足夠了,若他有需要的話會再跟昱瑋提 ## 1/22 1. 會開一個新的hugging face給我們放資料 2. Owen學長提供設備,不要外流 3. 大市集:做資源檢索資料集,的確不適合作知識內容資料集 - 建立資料即使標案團隊找到數位資源,驗證系統搜尋能力 - 將欲搜尋的網頁截圖並存為==PDF==檔 - PDF檔的內容摘要並存入資料庫 - 每堂輸入至「資源索引表」的課程都需要為其建立數個預設的「問題」 4. 可以思考其他平台是否適合做`資源檢索資料集`和`知識內容資料集` 5. 資料及圖片處理: - Visual/Vision Language Model (VLM) - hugging face models: - microsoft/phi-4 - deepseek-ai - meta有一個視覺能力的模型 6. 收假後優先順序: 實驗結果 > 資料集
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up