# 12/04 RAG project會議紀錄 Google Meet `16:20 - 17:00` ## 討論重點 ### 教育雲 - 目前已下載自然科522部影片 - 資料集格式應比照gsm8k,公開資料集會有`chunk text`、`question`、answer` - 目前已生成的QA的問題 - 刪除影片中與自然無關的句子 - 錯別字 - 內容超綱: 找國小自然教材,相似度太遠的要丟掉 - context中有問句 - examQA的涵蓋率只有約60% - 不建議用GPT做分類,可以用==text embedding==的方法做會較嚴謹 - ### RAG - 運算資源可能不夠 - A6000訓練主機下周可能可以使用 - 運算下來可能要十幾天,可以一天跑一個模型,再一個一個看結果,並回頭查核實驗流程有無錯誤 - 大陸的模型是否可用? 學長表示還是都先跑,數據要不要寫上去可以最後決定 ## 待辦事項 ### 教育雲 - 可以study gsm8k - 錯字校正上claud會比gpt好,可以測試後再決定要不要全部過一次claud改錯字 - 要去問claud api可不可得 - 盤點目前資料集中存在的問題 - 涵蓋率要再算 # 12/11 RAG project會議紀錄 Google Meet `20:35 - 21:30` ## 討論重點 1. LEET - 若手動不帶花時間,可以做 - 參考這篇文章,準備資料的流程、方式、驗證等,[Know What You Don't Know: Unanswerable Questions for SQuAD](https://arxiv.org/abs/1806.03822) 2. 教育雲資料集問題處理 - 錯字: - 錯字怎麼來的? *whisper轉成txt檔時產生的* - 怎麼修? *過兩次prompt* - 問題跟答案不匹配 -> 文本與QA不匹配: - 降低每個文本生成的QA,先將問題與文本作關聯度匹配,保留關聯高於0.8,接著再和exam_QA做比對 - 上版本沒有做關聯度檢驗 - **關聯度檢驗比較的原理是甚麼?** - 提取的Question與課綱或影片內容無關 - 給claud與gpt參考課綱,將與課綱無關的內容刪除 - 準確度如何? 政叡eyes檢查滿準的 - 問題解得差不多的,做法要再講詳細、有信心 - 目前資料量變動3500(預估值)>1155>700,課綱比較是否踢掉太多東西了(約400),roll back 人工去把合規的拿回來 - 版本 - 1.0 切chunk - 1.1 不切chunk但有錯字、超綱等版本(1155題的) - 1.2 用課綱比對完的(700題的) 3. 會找自然老師進來檢驗資料集 4. embedding測試: - 隨時可以測試embedding,硬體不夠可以跟學長說,api信用卡要先跟學姊請款 - roll back確認完後用1.1或1.2版資料跑實驗 5. 之後要針對answer的長度是否會影響similarity計算的敏感度與正確率,跟學長核對一下ragas的計算公式是否正確 # 12/18 RAG project會議紀錄 Google Meet `17:10 - 18:00` ## 會議重點 1. Ragas資料集版本確認 2. embedding實驗結果報告 - 挑選k為3和5的原因為何? - 能否猜到實驗結果的好模型和壞模型原因? 3. 是否要接下來做LLMs的選擇與Ragas分數計算? > 可以等期末考後,這幾周學長會先開始寫文字 ## 待辦事項 1. 將embedding實驗和挑選k的原因寫成文字 2. 將embedding實驗結果圖輸出成300dpi版本給學長 3. 可以開始列要測試的LLMs list,之後應該用0.8版本測ragas 4. 使用T-sne降為成二維,畫圖出來,每步之間的流程圖 5. 解釋為什麼是0.8,撈出被刪除的題目 6. 先爬的科目: 自然、國語、國小的其他科目、國中國文物理化學、國中其他、高中全 7. 國科會出國補助申請要寫大綱 # 12/25 RAG project會議紀錄 Google Meet `17:00 - 18:00` ## 會議重點 1. 影片數量為什麼522剩下464的處理,要看到很清楚的移除清單 2. cosine similarity 設定的 threshold 0.65的原因(用同一個summary做出來的question大約0.4多而已) 3. padding 要看一下 避免文字長度影響到 embedding 4. 投影片仍然不清楚,除了錯字以外,我希望你可以畫圖,將每一個步驟講清楚;再者,有一堆相似度的數字,那些數字到底是誰比較誰? 5. 每一個測試,都需要去看被排外的案例,例如那些被排外的影片是什麼?清單都需要保留 6. 目前體感上,0.2似乎是比較低的,0.4-0.5似乎是較為相似的,但這個數字實際上會因為文字的長短受影響,因此考慮一下padding,另外這個要自行survey一下有無好的解決方案 7. 目前的資料集,我仍會稱這是一個非v1.0的版本,因為仍有內容細節規格尚未確認清楚,因此效能測試上只能先稱為test round。 8. 我認為test round中,曜誠已經對於4.1 embedding model的測試已經建立好測試環境,有完整交代了。往後面前進我建議是4.2與4.3的test bed要完善,即使需要花10-20USD在v0.1(th=0.8)的資料集也是值得的。但反過來說,如果test bed完整,先等一等也行 ## 待辦事項 1. 移除清單待補上(要附上檔名或是連結) 2. 調整threshold 的時候 要把低於的範例列出來
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up