3/26進度紀錄

# 3/26進度紀錄 ## 簡筠方 ### 進度寫了一個RAG，用之前整理的 [詐騙判斷準則](https://hackmd.io/@IizmYTUETE2C0DpZ8K_zUw/HyO0B3Yh1l) 作為查找資料 #### 分數 ![image](https://hackmd.io/_uploads/Hy-9sMW6ye.png) 感覺資料集根本不夠用啊，詐騙的太少了 ![image](https://hackmd.io/_uploads/ByErgX-p1g.png) ![image](https://hackmd.io/_uploads/ByR9jf-Tye.png) 突然發現股票的performace好像超好欸 (不過這是經過dropna過後的，意思就是有些predict是None) ![image](https://hackmd.io/_uploads/SyTzXXbTJg.png) ### 感覺這些都還可以再改一些model的設定: ![image](https://hackmd.io/_uploads/S1SncG-p1l.png) 資料隨便切成八等分: ![image](https://hackmd.io/_uploads/B16Yqf-pyx.png) 不知道幹嘛用的問答模型 ![image](https://hackmd.io/_uploads/HJ78iG-T1l.png) #### 分享這個比賽看起來比較簡單?看起來跟Kaggle很像 <iframe src="https://www.facebook.com/plugins/post.php?href=https%3A%2F%2Fwww.facebook.com%2Fncucsiefamily%2Fposts%2Fpfbid031MQeAtbJNhQ7hGqKcnKntyN3aWRb21FUpAqfgkRZBpCbEqcAK47QTJw46RQN6B2fl&show_text=true&width=500" width="500" height="721" style="border:none;overflow:hidden" scrolling="no" frameborder="0" allowfullscreen="true" allow="autoplay; clipboard-write; encrypted-media; picture-in-picture; web-share"></iframe> ## 游婷安 1. 嘗試了解claire的RAG 2. **第一版**: 在claire的RAG上嘗試更改embedding model 和文件處理方式(針對中文)，增加一份[詐騙手法說明](https://hackmd.io/@jv-jFHFbR1eTuJRaMFL-yA/ryTm9nT2ke)，效果差不多。 3. **第二版**: 我上網查到另一個[RAG](https://edge.aif.tw/application-langchain-rag-advanced/)，可以再plain&RAG之間做選擇，但我發現他常常直接使用plain LLM，之後改成強制用RAG後跑更久，而且更多null。最後效果很差所以放棄。 4. **第三版**: 再用一個RAG，使用hybrid_search(vector similarity + keyword matching)，效果還好? | 版本 | 第一版 | 第二版 | 第三版 | | ------ | ------ | --------------- | --------------- | | null數| 5/95 | 146/290 | 20/542 | | 正確率 | 61/95, 64.21% | 116/290, 40.00% | 311/542, 68.81% | 問題: 1. 每次都要跑很久，很難比較效果有沒有比較好 2. 不知道哪裡有更多詐騙標準可以加入資料庫 3. AI還是常常最後沒有加上predict結果 ## 陳芊羽看簡電神的程式(?) 簡電神的程式太完美了，因為暫時沒想法要改甚麼，所以查了一點[資料集](https://hackmd.io/54r7aGtMRyyagZfapNd50w?view) 我也沒找到中文的，可能要寄希望於中國大陸(?) ## 廖奕皓嘗試finetune Llama3.1 使用Unsloth微調模型問題超多 1. 沒有資料集，找了很久也沒找到中文的詐騙資料集，有用deepseek生成，但無法 2. 本機finetune: 記憶體一直爆炸、找不到GPU(無法解決) 3. 改用Colab上finetune: 磁碟記憶體不足、超出每周GPU使用量但Colab上finetune有成功，先把gamble_data轉成Alpaca格式 Trainer: ![image](https://hackmd.io/_uploads/HJXMuIZT1l.png)(而且不小心被我關掉了.. loss 情況 ![image](https://hackmd.io/_uploads/rkhQYLW6yl.png) 模型可以輸出微調後的判斷label 後面為了把模型save到huggingface結果Colab的GPU使用時間用盡了 ## 陳孟蓉讀懂clarie RAG 看出來的資料修改了情感詐騙跟工作詐騙的判讀嘗試改切分方法但還沒跑完(而且不小心被我關掉了..)