# 3/26進度紀錄 ## 簡筠方 ### 進度 寫了一個RAG,用之前整理的 [詐騙判斷準則](https://hackmd.io/@IizmYTUETE2C0DpZ8K_zUw/HyO0B3Yh1l) 作為查找資料 #### 分數 ![image](https://hackmd.io/_uploads/Hy-9sMW6ye.png) 感覺資料集根本不夠用啊,詐騙的太少了 ![image](https://hackmd.io/_uploads/ByErgX-p1g.png) ![image](https://hackmd.io/_uploads/ByR9jf-Tye.png) 突然發現股票的performace好像超好欸 (不過這是經過dropna過後的,意思就是有些predict是None) ![image](https://hackmd.io/_uploads/SyTzXXbTJg.png) ### 感覺這些都還可以再改 一些model的設定: ![image](https://hackmd.io/_uploads/S1SncG-p1l.png) 資料隨便切成八等分: ![image](https://hackmd.io/_uploads/B16Yqf-pyx.png) 不知道幹嘛用的問答模型 ![image](https://hackmd.io/_uploads/HJ78iG-T1l.png) #### 分享 這個比賽看起來比較簡單?看起來跟Kaggle很像 <iframe src="https://www.facebook.com/plugins/post.php?href=https%3A%2F%2Fwww.facebook.com%2Fncucsiefamily%2Fposts%2Fpfbid031MQeAtbJNhQ7hGqKcnKntyN3aWRb21FUpAqfgkRZBpCbEqcAK47QTJw46RQN6B2fl&show_text=true&width=500" width="500" height="721" style="border:none;overflow:hidden" scrolling="no" frameborder="0" allowfullscreen="true" allow="autoplay; clipboard-write; encrypted-media; picture-in-picture; web-share"></iframe> ## 游婷安 1. 嘗試了解claire的RAG 2. **第一版**: 在claire的RAG上嘗試更改embedding model 和文件處理方式(針對中文),增加一份[詐騙手法說明](https://hackmd.io/@jv-jFHFbR1eTuJRaMFL-yA/ryTm9nT2ke),效果差不多。 3. **第二版**: 我上網查到另一個[RAG](https://edge.aif.tw/application-langchain-rag-advanced/),可以再plain&RAG之間做選擇,但我發現他常常直接使用plain LLM,之後改成強制用RAG後跑更久,而且更多null。最後效果很差所以放棄。 4. **第三版**: 再用一個RAG,使用hybrid_search(vector similarity + keyword matching),效果還好? | 版本 | 第一版 | 第二版 | 第三版 | | ------ | ------ | --------------- | --------------- | | null數| 5/95 | 146/290 | 20/542 | | 正確率 | 61/95, 64.21% | 116/290, 40.00% | 311/542, 68.81% | 問題: 1. 每次都要跑很久,很難比較效果有沒有比較好 2. 不知道哪裡有更多詐騙標準可以加入資料庫 3. AI還是常常最後沒有加上predict結果 ## 陳芊羽 看簡電神的程式(?) 簡電神的程式太完美了,因為暫時沒想法要改甚麼,所以查了一點[資料集](https://hackmd.io/54r7aGtMRyyagZfapNd50w?view) 我也沒找到中文的,可能要寄希望於中國大陸(?) ## 廖奕皓 嘗試finetune Llama3.1 使用Unsloth微調模型 問題超多 1. 沒有資料集,找了很久也沒找到中文的詐騙資料集,有用deepseek生成,但無法 2. 本機finetune: 記憶體一直爆炸、找不到GPU(無法解決) 3. 改用Colab上finetune: 磁碟記憶體不足、超出每周GPU使用量 但Colab上finetune有成功, 先把gamble_data轉成Alpaca格式 Trainer: ![image](https://hackmd.io/_uploads/HJXMuIZT1l.png)(而且不小心被我關掉了.. loss 情況 ![image](https://hackmd.io/_uploads/rkhQYLW6yl.png) 模型可以輸出微調後的判斷label 後面為了把模型save到huggingface結果Colab的GPU使用時間用盡了 ## 陳孟蓉 讀懂clarie RAG 看出來的資料修改了情感詐騙跟工作詐騙的判讀 嘗試改切分方法但還沒跑完(而且不小心被我關掉了..)