3/12進度紀錄

# 3/12進度紀錄 ## 游婷安 ### Slop detection Taiwan #### 進度 1. 修好 TFT 並更新 README 2. 增加一個 data handle 的程式，先將資料處理好再分別給其他模型訓練 #### 問題: 1. 不太確定有沒有更好的方式表現 model 之間的優劣比較 2. 我沒辦法在 server 上登入 github ；； ## 廖奕皓 ### Threads Scam Detector #### 進度 1. 研究詐騙相關論文 https://patents.google.com/patent/CN117614748B/zh 發現loRA微調方式: 我們在使用預訓練的模型時候，會凍結已經訓練好的層，僅訓練新加入的層。用預先訓練好的LLM模型，在它之上再訓練、微調。我嘗試了一下，原本想說用deepseek-R1-32B，但內容超大怕出大事，後面改用小模型Qwen/Qwen1.5-7B。 ![螢幕擷取畫面 2025-03-12 181410](https://hackmd.io/_uploads/Hyu2A0Rske.png) 2. 補了詐騙人工判斷的準則(賭博、投資) #### 問題 server打不開資料夾，但可以打開檔案 ## 簡筠方 ### Threads Scam Detector #### 進度 **llama3.2:3b** 把重複的 text 清掉了，輸出了新的 300 則的分數 gamble * 總樣本數: 300 * 預測正確數: 151 * 準確率: 50.33% | keyword | 總樣本數 | 預測正確數 | 準確率 (%) | | ------- | -------- | ---------- | ---------- | | 娛樂城 | 100 | 55 | 55.0 | | 百家樂 | 100 | 52 | 52.0 | | 運彩 | 100 | 44 | 44.0 | ![image](https://hackmd.io/_uploads/rJY9Q1y3yl.png) **deepseek-r1:32b** * 輸出會多一個 <think> ... </think> 需要做去除 * 輸出比較難控制在 0, 1，所以我也修了一下 judge_prompt 讓它變短 (有比較好，但有時候還是不受控) * 目前還沒有輸出分數 ![image](https://hackmd.io/_uploads/SkdiGJ1hkx.png) #### 困難 * deepseek-r1:70b 好像跑不動 * deepseek-r1:32b 用來跑300則的話很容易一下就斷，下次可能要切一下資料集再跑 ### 研究語言模型相關論文 #### Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk https://arxiv.org/html/2401.05033v1 https://www.chatpaper.ai/zh-Hant/dashboard/paper/e6256217-9dac-473b-a51b-f4dc44800f3f https://zhuanlan.zhihu.com/p/19099959102 LLM 的兩個版本參與對話，分別扮演客戶和代理。兩者都得到一個關於如何在對話中行動的描述：客戶得到一個人格和動機，而代理則配備了一組固定的行為，具體取決於代理的要求。然後他們進行對話，該對話被記錄為潛在的訓練樣本。其中一些對話將會成功，但是，許多對話將不會有用，因為它們會偏離主題或品質低下。因此，我們採用額外的過濾步驟，以避免在適得其反的樣本上訓練模型。 ![image](https://hackmd.io/_uploads/HJLrN0RiJl.png) 在每次對話中，我們都會要求 LLM 將客戶端的最後一次發言與目前節點傳出邊對應的參考回應進行比較。如果選擇了其中一個，我們將繼續圖中的下一個節點，並在下一輪向代理提示對應的問題，否則我們留在相同的位置和圖中，讓模型自由生成。 ![image](https://hackmd.io/_uploads/SJMHVRRj1e.png) #### AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions https://arxiv.org/html/2410.20424v3 https://www.chatpaper.ai/zh-Hant/dashboard/paper/6f899842-ef9a-41a0-b358-cc87d854904e https://zhuanlan.zhihu.com/p/29385161950 AutoKaggle基於多智能體系統理論，通過不同代理人的協作實現任務完成。 AutoKaggle包括Reader、Planner、Developer、Reviewer和Summarizer等代理人，各自負責不同任務。 AutoKaggle 包含一個全面的機器學習工具庫，旨在簡化常見的數據科學任務並提高效率。該庫包含大量經過驗證的函數，涵蓋數據清理、特徵工程和模型構建。我們將其組織成三個主要模塊： * 數據清理模塊：此模塊提供簡化數據預處理任務的工具。它包括處理缺失值、刪除重複項以及將數據轉換為可用格式的函數。 * 特徵工程模塊：此模塊包括用於創建新特徵和轉換現有特徵的工具。它包括編碼分類變量、縮放數值變量以及創建交互特徵的函數。 * 模型構建模塊：此模塊提供用於構建和評估機器學習模型的工具。它包括訓練各種模型（如線性回歸、邏輯回歸和決策樹）以及評估其性能的函數。 ![image](https://hackmd.io/_uploads/Hy9THRCsJx.png) #### The Impact of Reasoning Step Length on Large Language Models https://arxiv.org/html/2401.04925v3 https://www.chatpaper.ai/zh-Hant/dashboard/paper/bb8e76b2-7ca6-49c0-82d1-64b6c6136b89 https://zhuanlan.zhihu.com/p/679911857 結果表明，即使不在提示中添加新訊息，延長提示中的推理步驟也能顯著增強 LLM 在多個資料集上的推理能力。或者，即使在保留關鍵資訊的同時縮短推理步驟也會大大降低模型的推理能力。這項發現強調了 CoT 提示中步驟數量的重要性，並提供了實用指導，以便在複雜的問題解決場景中更好地發揮 LLM 的潛力。其次，我們也研究了 CoT 的表現與示威活動中所用理由之間的關係。令人驚訝的是，結果表明，即使是不正確的理由，如果保持必要的推理長度，也能產生有利的結果。第三，我們觀察到增加推理步驟的優勢取決於任務：簡單的任務需要較少的步驟，而複雜的任務則需要更長的推理序列才能獲得顯著的優勢。 * 使用 MultiArith、GSM8K、AQuA 等數據集進行實驗。 * 比較 Zero-Shot CoT、Manual-CoT、Auto-CoT 等方法的性能。 ![image](https://hackmd.io/_uploads/BycZRRRs1x.png) * **思考這個詞**：這個策略是要求模型解釋這個詞並重建知識庫。通常一個單字具有多種不同的意義，這樣做的效果是讓模型跳出固有的思考框架，並根據生成的解釋重新解釋問題中的單字。這個過程不會引入新的資訊。在提示中，我們給出了模型正在思考的單字的例子，模型會根據新問題自動為此過程選擇單字。 * **再讀題目**：重複讀題目，減少其他文本對思路鏈的干擾。簡單來說，我們讓模型記住問題。 * **重複狀態**：與重複閱讀類似，我們在經過一長串推理之後，對當前狀態進行一個小總結，旨在幫助模型簡化記憶，減少 CoT 中其他文本的干擾。 * **自我驗證**：人類在回答問題時會檢查自己的答案是否正確。因此，在模型得到答案之前，我們增加了一個自我驗證的過程，根據一些基本資訊來判斷答案是否合理。 * **製作方程式**：對於數學問題，製作方程式可以幫助人類總結和簡化記憶。對於一些需要假設未知數的問題時，建立方程式是一個必不可少的過程。我們模擬了這個過程，並讓模型嘗試在數學問題中建立方程式。 ## 陳孟蓉 1. 寫感情詐騙、工作詐騙準則 2. 標工作詐騙300筆(關鍵字:招聘、高薪兼職、月入十萬) ## 陳芊羽 - 標投資詐騙資料