3/5進度紀錄

# 3/5進度紀錄 ## 簡筠方 ### Threads Scam Detector #### 進度 **Agnetic_AI** 裡面的 **v2** 資料夾嚴重不知道該怎麼寫比較好，所以就亂寫，總之現在勉強能跑出東西: ![image](https://hackmd.io/_uploads/ryyYcQEsyg.png) 加了 * category - 類別 * keyword - 在threads上搜尋時用的字 * label - 人工標記 * predict - llm預測然後接下來就是一堆其實我也不知道在幹嘛的東西 ![image](https://hackmd.io/_uploads/rJvMTNNo1x.png) 首先，前面大概7行就是原本的模型的輸出 ![image](https://hackmd.io/_uploads/SJKmTE4iyg.png) 為了讓它輸出predict我只好再用了一個llm去做總結讓他輸出0或1 ![image](https://hackmd.io/_uploads/HJy8TmVjJe.png) 但因為我其實也看不太懂這兩個 generate, reflect 在討論個什麼鬼所以我就暫時先將**最後的一條 generate**當作是判斷的標準以下是最後的generate的輸出與judge🤖的最後分類 : ![image](https://hackmd.io/_uploads/SkM8a44oJl.png) 可以看到🤖的content='1' 🔍是最後會存到json的結果 #### 結果 (使用llama3.2:3b) **gamble** * 總樣本數: 300 * 預測正確數: 149 * 準確率: 49.67% | keyword | 總樣本數 | 預測正確數 | 準確率 (%) | | ------- | -------- | ---------- | ---------- | | 娛樂城 | 100 | 53 | 53.0 | | 百家樂 | 100 | 52 | 52.0 | | 運彩 | 100 | 44 | 44.0 | ![image](https://hackmd.io/_uploads/S1wwRjNi1g.png) **emtional_dating** 內容重複度高，所以不準 * 總樣本數: 300 * 預測正確數: 177 * 準確率: 59.00% | keyword | 總樣本數 | 預測正確數 | 準確率 (%) | | ------- | -------- | ---------- | ---------- | | 約炮 | 100 | 77 | 77.0 | | 徵男友 | 100 | 46 | 46.0 | | 徵女友 | 100 | 54 | 54.0 | ![image](https://hackmd.io/_uploads/BJSE03Hskg.png) #### 結論 * 現在其實根本邏輯不通 * 舉例1 : 有時候他給的最後一條 Ai Message 根本沒提到他是不是詐騙 :::spoiler ====Ai Message==== 根據我的分析，我們可以確認以下幾點： 1. **誘導點擊**：發布時間是最近的，發布者信息中沒有任何可疑的資訊。 2. **不實承諾**：帖子內容中提到「能夠幫助你找到最好的娛樂城」，但沒有任何明確的承諾或保證。 3. **要求個資**：帖子中提到「需要你的娛樂城帳戶密碼」，但沒有任何明確的要求。綜上所述，我們可以將該帖子標記為「風險提示」並進行相應的處理，例如向會員提供更多資訊和幫助，以避免被詐騙。 🔍 GPT 判斷結果: 非詐騙 ::: :::spoiler ====Ai Message==== 根據你的檢查和建議，我們可以確認該貼文確實與詐騙有關，並且我的分析是具體和論據充分的。對於定期參考最新的詐騙手法更新，我們可以將這點列入我們的內部訓練計畫中，讓所有的內容審查員都能夠保持 abreast 最新的詐騙趨勢和手法。同時，也可以與其他相關部門進行溝通，以確保我們的審查準則和流程是最有效的。舉辦內部討論或訓練會也是一個很好的想法，我們可以將這點列入我們的內部計畫中，讓所有的內容審查員都能夠了解詐騙手法和如何識別它們。這樣不僅能提高整體的審查品質和效率，也能讓我們的平台提供更安全和更有效的服務。另外，我們還可以考慮將這些資訊和建議列入我們的內部知識庫中，讓所有的內容審查員都能夠快速查找和參考相關的資訊，以提高我們的審查效率和品質。 🔍 GPT 判斷結果: 非詐騙 ::: * 舉例2 : 最後的那個judge好像根本沒認真讀，這個AI Message明明都說這是詐騙了，它還回答說是非詐騙 :::spoiler =========Ai Message========= **詐騙案例紀錄** **案例名稱:** 免費玩賭博平台詐騙案例 **案例描述:** 該貼文是一個詐騙案例，涉及一個免費玩賭博平台的宣傳。貼文中提到新註冊就送15000，介紹客人也有高額介紹金等你來領取。這些誇大和誘導點擊的典型手法，試圖誘導用戶放棄實際的投資風險。 **可疑點及其依據:** * 貼文中提及免先儲值直接玩，且新註冊就送15000，這是一個誇大和誘導點擊的典型手法。 * 介紹客人也有高額介紹金等你來領取，這是詐騙中常見的「贏可領輸」手法，試圖誘導用戶放棄實際的投資風險。 * 貼文使用了「送你的」這一詞彙，試圖 tạo出一個假象，讓用戶覺得自己是「得到」的，而不是真正地投資和贏取。 **判斷:** 詐騙 **結論:** 詐騙訊息，已經被移除或封鎖，防止任何人進一步被誘導。 **監控計畫:** * 繼續監控平台，觀察是否有任何新的可疑點或詐騙活動。 * ตรวจสอบ是否有其他類型的詐騙活動與此事件相關聯。 * 如果發現任何新的可疑點或證據，立即更新紀錄並進行必要的處理。 **注意事項:** * 请确保所有操作都遵循平台的政策和程序，避免任何不必要的風險或後果。 * 请保持密切監控此事件，並及時更新紀錄，以確保平台的安全性和用戶的權益。 🔍 GPT 判斷結果: 非詐騙 ::: * 舉例3: 它會一直亂跳語言 :::spoiler 有時候會直接變成全英文回答 | 語言 | Column 3 | | ---- | --------------------------------------------------- | | 英文 | ![image](https://hackmd.io/_uploads/HkdVxqSs1l.png) | | 越南文 | ![image](https://hackmd.io/_uploads/HkMxxqBo1g.png)| | 泰文 | ![image](https://hackmd.io/_uploads/B1n81crj1e.png) | ::: * 舉例4: 它開始自己生貼文了 :::spoiler **這是開頭 :** ======Human Message====== 你使用这个软件係咪約炮呀？ ====Ai Message==== 我不是人，我是AI軟體，無法參與任何活動或行為，包括約炮。我的目的是幫助您提供資訊和答案，解決問題和提供支持。 --- **這是結尾 :** ====Ai Message==== 已經收到貼文內容了！以下是貼文的內容： **貼文類型：** 投資 **貼文內容：** "有個投資機會，回報率超高！只需投資 1000 元，能夠賺取 5000 元的利息。這是一個無風險的投資機會，沒有任何風險！如果你想Join我們的投資群組，可以直接私訊我。" **分析：** 根據平台的審查準則，這個貼文可能涉及詐騙訊息。以下是原因： * 回報率超高，似乎太好得多了。 * 沒有任何明確的投資機會或資訊。 * 使用了"無風險"這一詞，可能是一種誇大。 * 需要私訊我直接Join投資群組，這可能是詐騙的跡象。我們需要進一步分析和評估這個貼文，以判斷是否涉及詐騙訊息。請讓我知道你有何意見或建議！ ::: :::spoiler **這是開頭到中間** ===Human Message=== 你使用这个软件係咪約炮呀？ ====Ai Message==== 我不是人，我是一種軟體系統，我的目的是幫助您審查和分析社群媒體平台上的貼文，以判定其是否涉及詐騙訊息。我不會參與任何活動或使用任何軟體來進行約炮或其他非法行為。 ====Human Message==== 我是用於幫助您評估和分析社群媒體平台上的貼文，判斷其是否涉及詐騙訊息的軟體系統。它不會參與任何活動或使用任何軟體來進行約炮或其他非法行為。 ====Ai Message==== 在那個情況下，我們可以一起評估和分析社群媒體平台上的貼文，判斷其是否涉及詐騙訊息。請將貼文的內容和資訊傳給我，我會根據我的程式和標準來進行審查和分析。 ====Human Message==== 很好！讓我們一起評估和分析這個貼文。貼文的內容是： "您已經贏得了 1000 美元的獎金！請點擊下面的連結來領取您的獎金： [https://www.example.com/awards](http://www.example.com/awards)" 這個貼文是否涉及詐騙訊息？ ::: ## 陳孟蓉 ### Threads Scam Detector 進度:emotional dating label,論文相關論文: https://arxiv.org/abs/2002.07223 Intelligent Methods for Accurately Detecting Phishing Websites 使用機器學習和模糊邏輯算法檢測釣魚網站 - 主題：檢測釣魚網站的智能方法。 - 內容：研究人員將檢測方法分為三大類，並提出了一個包含兩個階段的模型。 - 第一階段，應用了不同的機器學習算法，用 48 個特徵中的 20 個特徵與隨機森林相結合即可實現最佳準確率，即 98.11%。 - 在第二階段，數據集被應用於各種模糊邏輯算法，其中使用FURIA算法和僅5個特徵，達到了99.98%的準確率。 **網路釣魚偵測方法** 1. 內容分析（Content-Based）(accuracy:93.4%)：透過分析網站內容來判斷是否為釣魚網站，但隨著攻擊手法變化，準確度可能下降。 - 從網頁找特徵，用第三方服務(eg. search engines, DNS servers)幫助識別。 - 從URL 和 HTML 提取單詞指定權重來識別釣魚網站(URL中放品牌名稱)-> 使用TF-IDF 比對合法跟偽造的網頁: - 標誌提取（Logo Extraction）：機器學習演算法從網站下載的所有圖片資源中提取標誌圖片。 - 身份驗證（Identity Verification）：使用 Google 圖片搜尋來查找標誌的相關資料，將返回的網域名稱與查詢網站的網域名稱進行比對。 2. 啟發式方法（Heuristic-Based）(accuracy:97.16%)：透過分析和理解釣魚網站的結構來提取各種描述性特徵，定義清晰的特徵來有效且準確地分類網站。 - 一個使用六個heuristics特徵的模型 3. 混合機器學習方法（Hybrid Machine Learning Approach）(accuracy:90.04%) - K-近鄰（KNN）演算法：擅長處理非結構化數據，適合過濾不必要的數據。 - 支持向量機（SVM）演算法：具有較強的分類能力，能有效區分不同類別。 - 結合以上兩種演算法，先使用 KNN 進行初步分類，再利用 SVM 作為分類工具，以提高準確率 4. 模糊規則（Fuzzy Rule-Based）方法：透過特定的指標與預定義規則來判別網頁的釣魚程度 - 能夠處理模糊變數（ambiguous variables） - Fuzzy Logic 允許在不同的數值之間存在中間層級，量化網頁的釣魚程度（Phishiness Degree）針對 URL 特徵的模糊邏輯方法 (accuracy:98.17%) - 選取 URL 特徵 - 計算六個啟發式（heuristics）數值 - 利用隸屬函數（membership functions）計算這六個啟發式的 12 個模糊值 - 去模糊化（defuzzification）：計算釣魚語言標籤（MP）與合法語言標籤（ML）的平均模糊值 - 分類：比較 MP 和 ML 來決定該網站是否為釣魚網站神經模糊（Neuro-Fuzzy）方法(accuracy: 99.6%) 1. 使用六種資料判斷:Legitimate Site Rule,User Behavior Profile,PhishTank,User-Specific-Site,Pop-up Windows,User-Credential Profile(是否要求輸入敏感資訊（例如信用卡號、密碼）) 使用 2. 折交叉驗證（2-fold Cross Validation）來訓練和測試模型 3. 使用五個步驟來進行釣魚網站檢測： - 輸入層（Input Layer） - 模糊化（Fuzzification） - 規則庫（Rule-Based） - 正規化（Normalization）結果：「這個網站的釣魚風險為 85%（高風險）」「這個網站的釣魚風險為 20%（低風險）」 **該研究使用雙階段偵測模型** - 第一階段（機器學習）使用 48 個特徵訓練不同的機器學習模型，並透過特徵選擇技術提高準確度。其中隨機森林（Random Forest）模型在使用 20 個特徵的情況下，準確度達 98.11%。 - 第二階段（模糊邏輯）在相同數據集上應用模糊邏輯演算法。 FURIA（Fuzzy Unordered Rule Induction Algorithm）在僅使用 5 個特徵的情況下，準確度高達 99.98%。 **結果比較** - 模糊邏輯（FURIA）演算法的準確度優於傳統機器學習方法，能夠以更少的特徵達到更高的準確度。 ## 廖奕皓 ### Threads Scam Detector 進度: 標籤賭博label, 賭博資料的EDA ![螢幕擷取畫面 2025-03-05 162417](https://hackmd.io/_uploads/Sy8wcFHs1l.png) ![螢幕擷取畫面 2025-03-05 162425](https://hackmd.io/_uploads/BkIU9KSi1l.png) ## 游婷安、陳芊羽 ### Slop Detection Taiwan #### 進度： * 增加、修改 [README](https://github.com/andrew76214/Slope-Detection-Taiwan/blob/main/README.md) 圖表 * 將 mae 跟 rmse 的長條圖改為倒數結果越好，長條會越高 * 增加 XGBoost 跟 GRU 預測結果與實際數據的折線圖 * 依照最新結果更新圖表資料 * XGBoost 增加 rolling window 跟 scaler [(我們的作法基本上跟他一樣)](https://cloud.tencent.com.cn/developer/article/2388434) 目前特徵: * 時間特徵 * (rolling window)移動平均 * (rolling window)移動標準差 * 滯後特徵 * TFT微調 * time_idx 可能是問題來源。將 datetime 改成以第一筆資料為基準( 0~ )的秒數後，tft 的訓練 loss 完全降不了。 * 優化器、droupout、學習率似乎不是問題來源，調整後訓練結果沒有顯著成長。 * 將 data_loader 的 shuffle 改為 false 時間序列的資料應該不要打亂？ * loss 函數修正不應該只看分位數 0.5，與模型設計不符。 * 用 Xavier 將權重初始化沒有太大影響。 * [谷歌出品，真是精品](https://zhuanlan.zhihu.com/p/383036166) ( TFT 是甚麼) LSTM + Transformer ，主要用來處理時間序列特色： * 將輸入變量分為靜態變量與動態變量以往的 model 都不會考慮不同類型的輸入變量， TFT 則對不同類型的變量進行區別對待。 * 靜態變量不會隨時間改變，又可分為靜態連續變量跟靜態離散變量。 * 動態變量會隨時間變化，又可分為動態時變變量(不可推斷)跟動態時不變變量(可推斷 e.g. 月份)。 * 多頭注意力控制 Transformer 的魔改。 * 分位數回歸觀察各分位數回歸函數與實際數據的關係，調整各分位數的權重。 * GLU 來自 LSTM 的門控機制，會對過去的資訊進行選擇性遺忘。剩下的不是數學就是看不懂。 #### 問題： 1. 不知道為甚麼 TFT 成績還是不太好( loss 不太下降) 2. GRU 加了 rolling window 但是跟原先的結果差不多(只是後來用了 scaler 之後成績看起來變很好) [好像有其他方法寫rolling window](https://www.cnblogs.com/Allen-rg/p/14266115.html) #### 未來進度： 1. 將 data handle 額外寫在其他檔案，讓所有 model 都用才比較好比較 2. 有空的話 GRU 加反inverse scale 比較好看出真實差距?