# 3/5進度紀錄 ## 簡筠方 ### Threads Scam Detector #### 進度 **Agnetic_AI** 裡面的 **v2** 資料夾 嚴重不知道該怎麼寫比較好,所以就亂寫,總之現在勉強能跑出東西:  加了 * category - 類別 * keyword - 在threads上搜尋時用的字 * label - 人工標記 * predict - llm預測 然後接下來就是一堆其實我也不知道在幹嘛的東西  首先,前面大概7行就是原本的模型的輸出  為了讓它輸出predict我只好再用了一個llm去做總結讓他輸出0或1  但因為我其實也看不太懂這兩個 generate, reflect 在討論個什麼鬼 所以我就暫時先將**最後的一條 generate**當作是判斷的標準 以下是最後的generate的輸出與judge🤖的最後分類 :  可以看到🤖的content='1' 🔍是最後會存到json的結果 #### 結果 (使用llama3.2:3b) **gamble** * 總樣本數: 300 * 預測正確數: 149 * 準確率: 49.67% | keyword | 總樣本數 | 預測正確數 | 準確率 (%) | | ------- | -------- | ---------- | ---------- | | 娛樂城 | 100 | 53 | 53.0 | | 百家樂 | 100 | 52 | 52.0 | | 運彩 | 100 | 44 | 44.0 |  **emtional_dating** 內容重複度高,所以不準 * 總樣本數: 300 * 預測正確數: 177 * 準確率: 59.00% | keyword | 總樣本數 | 預測正確數 | 準確率 (%) | | ------- | -------- | ---------- | ---------- | | 約炮 | 100 | 77 | 77.0 | | 徵男友 | 100 | 46 | 46.0 | | 徵女友 | 100 | 54 | 54.0 |  #### 結論 * 現在其實根本邏輯不通 * 舉例1 : 有時候他給的最後一條 Ai Message 根本沒提到他是不是詐騙 :::spoiler ====Ai Message==== 根據我的分析,我們可以確認以下幾點: 1. **誘導點擊**:發布時間是最近的,發布者信息中沒有任何可疑的資訊。 2. **不實承諾**:帖子內容中提到「能夠幫助你找到最好的娛樂城」,但沒有任何明確的承諾或保證。 3. **要求個資**:帖子中提到「需要你的娛樂城帳戶密碼」,但沒有任何明確的要求。 綜上所述,我們可以將該帖子標記為「風險提示」並進行相應的處理,例如向會員提供更多資訊和幫助,以避免被詐騙。 🔍 GPT 判斷結果: 非詐騙 ::: :::spoiler ====Ai Message==== 根據你的檢查和建議,我們可以確認該貼文確實與詐騙有關,並且我的分析是具體和論據充分的。 對於定期參考最新的詐騙手法更新,我們可以將這點列入我們的內部訓練計畫中,讓所有的內容審查員都能夠保持 abreast 最新的詐騙趨勢和手法。同時,也可以與其他相關部門進行溝通,以確保我們的審查準則和流程是最有效的。 舉辦內部討論或訓練會也是一個很好的想法,我們可以將這點列入我們的內部計畫中,讓所有的內容審查員都能夠了解詐騙手法和如何識別它們。這樣不僅能提高整體的審查品質和效率,也能讓我們的平台提供更安全和更有效的服務。 另外,我們還可以考慮將這些資訊和建議列入我們的內部知識庫中,讓所有的內容審查員都能夠快速查找和參考相關的資訊,以提高我們的審查效率和品質。 🔍 GPT 判斷結果: 非詐騙 ::: * 舉例2 : 最後的那個judge好像根本沒認真讀,這個AI Message明明都說這是詐騙了,它還回答說是非詐騙 :::spoiler =========Ai Message========= **詐騙案例紀錄** **案例名稱:** 免費玩賭博平台詐騙案例 **案例描述:** 該貼文是一個詐騙案例,涉及一個免費玩賭博平台的宣傳。貼文中提到新註冊就送15000,介紹客人也有高額介紹金等你來領取。這些誇大和誘導點擊的典型手法,試圖誘導用戶放棄實際的投資風險。 **可疑點及其依據:** * 貼文中提及免先儲值直接玩,且新註冊就送15000,這是一個誇大和誘導點擊的典型手法。 * 介紹客人也有高額介紹金等你來領取,這是詐騙中常見的「贏可領輸」手法,試圖誘導用戶放棄實際的投資風險。 * 貼文使用了「送你的」這一詞彙,試圖 tạo出一個假象,讓用戶覺得自己是「得到」的,而不是真正地投資和贏取。 **判斷:** 詐騙 **結論:** 詐騙訊息,已經被移除或封鎖,防止任何人進一步被誘導。 **監控計畫:** * 繼續監控平台,觀察是否有任何新的可疑點或詐騙活動。 * ตรวจสอบ是否有其他類型的詐騙活動與此事件相關聯。 * 如果發現任何新的可疑點或證據,立即更新紀錄並進行必要的處理。 **注意事項:** * 请确保所有操作都遵循平台的政策和程序,避免任何不必要的風險或後果。 * 请保持密切監控此事件,並及時更新紀錄,以確保平台的安全性和用戶的權益。 🔍 GPT 判斷結果: 非詐騙 ::: * 舉例3: 它會一直亂跳語言 :::spoiler 有時候會直接變成全英文回答 | 語言 | Column 3 | | ---- | --------------------------------------------------- | | 英文 |  | | 越南文 | | | 泰文 |  | ::: * 舉例4: 它開始自己生貼文了 :::spoiler **這是開頭 :** ======Human Message====== 你使用这个软件係咪約炮呀? ====Ai Message==== 我不是人,我是AI軟體,無法參與任何活動或行為,包括約炮。我的目的是幫助您提供資訊和答案,解決問題和提供支持。 --- **這是結尾 :** ====Ai Message==== 已經收到貼文內容了!以下是貼文的內容: **貼文類型:** 投資 **貼文內容:** "有個投資機會,回報率超高!只需投資 1000 元,能夠賺取 5000 元的利息。這是一個無風險的投資機會,沒有任何風險!如果你想Join我們的投資群組,可以直接私訊我。" **分析:** 根據平台的審查準則,這個貼文可能涉及詐騙訊息。以下是原因: * 回報率超高,似乎太好得多了。 * 沒有任何明確的投資機會或資訊。 * 使用了"無風險"這一詞,可能是一種誇大。 * 需要私訊我直接Join投資群組,這可能是詐騙的跡象。 我們需要進一步分析和評估這個貼文,以判斷是否涉及詐騙訊息。請讓我知道你有何意見或建議! ::: :::spoiler **這是開頭到中間** ===Human Message=== 你使用这个软件係咪約炮呀? ====Ai Message==== 我不是人,我是一種軟體系統,我的目的是幫助您審查和分析社群媒體平台上的貼文,以判定其是否涉及詐騙訊息。我不會參與任何活動或使用任何軟體來進行約炮或其他非法行為。 ====Human Message==== 我是用於幫助您評估和分析社群媒體平台上的貼文,判斷其是否涉及詐騙訊息的軟體系統。它不會參與任何活動或使用任何軟體來進行約炮或其他非法行為。 ====Ai Message==== 在那個情況下,我們可以一起評估和分析社群媒體平台上的貼文,判斷其是否涉及詐騙訊息。 請將貼文的內容和資訊傳給我,我會根據我的程式和標準來進行審查和分析。 ====Human Message==== 很好!讓我們一起評估和分析這個貼文。 貼文的內容是: "您已經贏得了 1000 美元的獎金!請點擊下面的連結來領取您的獎金: [https://www.example.com/awards](http://www.example.com/awards)" 這個貼文是否涉及詐騙訊息? ::: ## 陳孟蓉 ### Threads Scam Detector 進度:emotional dating label,論文 相關論文: https://arxiv.org/abs/2002.07223 Intelligent Methods for Accurately Detecting Phishing Websites 使用機器學習和模糊邏輯算法檢測釣魚網站 - 主題:檢測釣魚網站的智能方法。 - 內容:研究人員將檢測方法分為三大類,並提出了一個包含兩個階段的模型。 - 第一階段,應用了不同的機器學習算法,用 48 個特徵中的 20 個特徵與隨機森林相結合即可實現最佳準確率,即 98.11%。 - 在第二階段,數據集被應用於各種模糊邏輯算法,其中使用FURIA算法和僅5個特徵,達到了99.98%的準確率。 **網路釣魚偵測方法** 1. 內容分析(Content-Based)(accuracy:93.4%): 透過分析網站內容來判斷是否為釣魚網站,但隨著攻擊手法變化,準確度可能下降。 - 從網頁找特徵,用第三方服務(eg. search engines, DNS servers)幫助識別。 - 從URL 和 HTML 提取單詞指定權重來識別釣魚網站(URL中放品牌名稱)-> 使用TF-IDF 比對合法跟偽造的網頁: - 標誌提取(Logo Extraction):機器學習演算法從網站下載的所有圖片資源中提取標誌圖片。 - 身份驗證(Identity Verification):使用 Google 圖片搜尋來查找標誌的相關資料,將返回的網域名稱與查詢網站的網域名稱進行比對。 2. 啟發式方法(Heuristic-Based)(accuracy:97.16%): 透過分析和理解釣魚網站的結構來提取各種描述性特徵,定義清晰的特徵來有效且準確地分類網站。 - 一個使用六個heuristics特徵的模型 3. 混合機器學習方法(Hybrid Machine Learning Approach)(accuracy:90.04%) - K-近鄰(KNN)演算法:擅長處理非結構化數據,適合過濾不必要的數據。 - 支持向量機(SVM)演算法:具有較強的分類能力,能有效區分不同類別。 - 結合以上兩種演算法,先使用 KNN 進行初步分類,再利用 SVM 作為分類工具,以提高準確率 4. 模糊規則(Fuzzy Rule-Based)方法 : 透過特定的指標與預定義規則來判別網頁的釣魚程度 - 能夠處理模糊變數(ambiguous variables) - Fuzzy Logic 允許在不同的數值之間存在中間層級,量化網頁的釣魚程度(Phishiness Degree) 針對 URL 特徵的模糊邏輯方法 (accuracy:98.17%) - 選取 URL 特徵 - 計算六個啟發式(heuristics)數值 - 利用隸屬函數(membership functions)計算這六個啟發式的 12 個模糊值 - 去模糊化(defuzzification):計算釣魚語言標籤(MP)與合法語言標籤(ML)的平均模糊值 - 分類:比較 MP 和 ML 來決定該網站是否為釣魚網站 神經模糊(Neuro-Fuzzy)方法(accuracy: 99.6%) 1. 使用六種資料判斷:Legitimate Site Rule,User Behavior Profile,PhishTank,User-Specific-Site,Pop-up Windows,User-Credential Profile(是否要求輸入敏感資訊(例如信用卡號、密碼)) 使用 2. 折交叉驗證(2-fold Cross Validation) 來訓練和測試模型 3. 使用五個步驟 來進行釣魚網站檢測: - 輸入層(Input Layer) - 模糊化(Fuzzification) - 規則庫(Rule-Based) - 正規化(Normalization) 結果: 「這個網站的釣魚風險為 85%(高風險)」 「這個網站的釣魚風險為 20%(低風險)」 **該研究使用雙階段偵測模型** - 第一階段(機器學習) 使用 48 個特徵訓練不同的機器學習模型,並透過特徵選擇技術提高準確度。 其中 隨機森林(Random Forest) 模型在使用 20 個特徵的情況下,準確度達 98.11%。 - 第二階段(模糊邏輯) 在相同數據集上應用模糊邏輯演算法。 FURIA(Fuzzy Unordered Rule Induction Algorithm) 在僅使用 5 個特徵的情況下,準確度高達 99.98%。 **結果比較** - 模糊邏輯(FURIA)演算法的準確度優於傳統機器學習方法,能夠以更少的特徵達到更高的準確度。 ## 廖奕皓 ### Threads Scam Detector 進度: 標籤賭博label, 賭博資料的EDA   ## 游婷安、陳芊羽 ### Slop Detection Taiwan #### 進度: * 增加、修改 [README](https://github.com/andrew76214/Slope-Detection-Taiwan/blob/main/README.md) 圖表 * 將 mae 跟 rmse 的長條圖改為倒數 結果越好,長條會越高 * 增加 XGBoost 跟 GRU 預測結果與實際數據的折線圖 * 依照最新結果更新圖表資料 * XGBoost 增加 rolling window 跟 scaler [(我們的作法基本上跟他一樣)](https://cloud.tencent.com.cn/developer/article/2388434) 目前特徵: * 時間特徵 * (rolling window)移動平均 * (rolling window)移動標準差 * 滯後特徵 * TFT微調 * time_idx 可能是問題來源。 將 datetime 改成以第一筆資料為基準( 0~ )的秒數後,tft 的訓練 loss 完全降不了。 * 優化器、droupout、學習率 似乎不是問題來源,調整後訓練結果沒有顯著成長。 * 將 data_loader 的 shuffle 改為 false 時間序列的資料應該不要打亂? * loss 函數修正 不應該只看分位數 0.5,與模型設計不符。 * 用 Xavier 將權重初始化 沒有太大影響。 * [谷歌出品,真是精品](https://zhuanlan.zhihu.com/p/383036166) ( TFT 是甚麼) LSTM + Transformer ,主要用來處理時間序列 特色: * 將輸入變量分為靜態變量與動態變量 以往的 model 都不會考慮不同類型的輸入變量, TFT 則對不同類型的變量進行區別對待。 * 靜態變量 不會隨時間改變,又可分為靜態連續變量跟靜態離散變量。 * 動態變量 會隨時間變化,又可分為動態時變變量(不可推斷)跟動態時不變變量(可推斷 e.g. 月份)。 * 多頭注意力控制 Transformer 的魔改。 * 分位數回歸 觀察各分位數回歸函數與實際數據的關係,調整各分位數的權重。 * GLU 來自 LSTM 的門控機制,會對過去的資訊進行選擇性遺忘。 剩下的不是數學就是看不懂。 #### 問題: 1. 不知道為甚麼 TFT 成績還是不太好( loss 不太下降) 2. GRU 加了 rolling window 但是跟原先的結果差不多(只是後來用了 scaler 之後成績看起來變很好) [好像有其他方法寫rolling window](https://www.cnblogs.com/Allen-rg/p/14266115.html) #### 未來進度: 1. 將 data handle 額外寫在其他檔案,讓所有 model 都用才比較好比較 2. 有空的話 GRU 加反inverse scale 比較好看出真實差距?
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up