# 2/26進度紀錄 ## 簡筠方 ### Threads Scam Detector 寫了 **crawler_search.ipynb** 目前有測試輸出了 **output_json/data_0223_1653.json** 與 **image/0223_1653** | 名稱 | 型別 | 內容 | | ------------- | ---- | ---------------- | | username | string | 用戶名稱 | | user_verified | boolean | 是否為驗證帳號 | | published_on | string | 發文時間 | | text | string | 貼文內容文字 | | tags | string | 貼文標籤# | | img_count | int | 圖片數量 | | img_infos | list | 圖片內容(文字) | | img_urls | list | 圖片網址 | | img_ids | list | 圖片下載後的名稱 | | like_count | int | 讚數量 | | reply_count | int | 回覆數量 | | forward_count | int | 轉發數量 | | share_count | int | 分享數量 | | url | string | 貼文網址 | ![image](https://hackmd.io/_uploads/HJ-BPyY51g.png) #### 分享一下 是跟詐騙有關的講座欸!!! <iframe src="https://www.facebook.com/plugins/post.php?href=https%3A%2F%2Fwww.facebook.com%2Fncucsiefamily%2Fposts%2Fpfbid0343Zb3mZC3DszCSbzi2tsvbVtd3gZoh4hk4BkVnqJNJqk3tTKKBrbDGV6t6Xitkohl&show_text=true&width=500" width="500" height="464" style="border:none;overflow:hidden" scrolling="no" frameborder="0" allowfullscreen="true" allow="autoplay; clipboard-write; encrypted-media; picture-in-picture; web-share"></iframe> ## 廖奕皓 ### Threads Scam Detector 寫了詐騙的判定標準,加到README裡 加了個關鍵字詞統計 ![螢幕擷取畫面 2025-02-26 172727](https://hackmd.io/_uploads/ByzsR8hckl.png) 3. **輸出格式** 確保輸出回覆包含: 貼文之種類以及最後的該貼文訊息的結論(「判定為詐騙」、「疑似詐騙,待進一步調查」、「非詐騙訊息,但存在風險」)。 4. **判斷貼文種類** - 判別種類後記得輸出該貼文之種類。 - 判定該貼文是四種類型(情感、工作、投資、賭博)裡面的哪一種貼文: - 情感: - 訊息描述通常較為親密,例如: 我好想你、我愛你等... - 可能會是情感上的問題,例如: 分手、難過... - 尋找個人的情感關係,例如: 找男/女友、找人聊天、交友軟體... - 工作: - 提供輕鬆、高報酬、門檻低的工作機會,例如: 保證月入X萬... - 訊息提及招聘、求職、兼職等詞彙。 - 投資: - 強調低風險、高回報,例如: 穩賺不賠、只漲不跌... - 訊息提供投資方式,例如: 股票、加密貨幣... - 可能會提到投資群組、投資老師、獨家消息、被動收入等關鍵詞。 - 賭博: - 會提供線上線下的賭博管道,例如: 娛樂城/百家樂、運彩... - 內容通常提及賭博、下注、彩票、賽事預測,例如: 內部碼、穩賺、獨家賠率... - 提及低風險、高回報,例如: 穩賺不賠、高勝率... - 為了吸引人參加賭局,提供體驗金、儲值金。 5. **判斷是詐騙與否** - 給出你是否認為該貼文為詐騙訊息的結論(「判定為詐騙」、「疑似詐騙,待進一步調查」、「非詐騙訊息,但存在風險」)三種結論。 - 詳細說明你的審查過程與論據,並標註出所有可疑點及其依據,確保審查過程客觀且具證據支持。 - 若該貼文字數小於5,盡量將結論停留在非詐騙訊息,但存在風險,因為貼文字數過少能判別詐騙的指標就越不明顯。 - 情感詐騙: - 涉及「交友、戀愛」等情境,例如:找人聊天、交友軟體認識、遠距離戀愛等。 - 貼文提及財務、金錢、禮品請求,例如:借錢、代付機票、匯款、幫忙支付醫療費等。 - 聲稱遇到困難需要幫助,例如:我的信用卡被凍結了,可以先幫我付一下費用嗎? - 工作詐騙: - 提及不合理且不等價的工作關係,像是輕鬆工作拿到高報酬等。 - 輕鬆、在家、每天幾小時、無學經歷要求賺取高薪。 - 要求提前支付費用或提供個資,例如: 入職需繳納保證金、提交身份證註冊... - 投資詐騙: - 保證高回報、無風險,並強調短期暴利、快速翻倍,會有詐騙之疑慮。 - 投資老師專家、投資群組,通常是詐騙無誤。 - 有時是討論股票的價值或未來走勢,如果沒有誘導加入群組或出金投資之意圖,可能不是詐騙。 - 賭博詐騙: - 強調保證贏錢、必勝技巧,或者是誇大並張貼成功案例,會有詐騙的疑慮。 - 誘導用戶使用百家樂/娛樂城/球板等賭博平台或加入私人群組,有較大的可能是詐騙。 - 鼓勵新人免費試玩或送彩金。 問題: 直述句的貼文或訊息很常沒跑詐騙分析,反而在安慰我 ## 游婷安、陳芊羽 ### Slop_Detection_Taiwan - 優化 XGBoost 去除資料中的極端值(XGBoost 在台北預測結果特別差的原因) - GRU debug 將未來預測移出迴圈 - 讓 TFT 能夠運行 - 寫 [README](https://github.com/andrew76214/Slope-Detection-Taiwan/blob/main/README.md#L91C45) 製作三個地方的 Dataset EDA 紀錄並圖表化 GRU 跟 XGBoost 的 mae 跟 rmse #### 問題: - TFT 的預測結果只有7筆 - TFT 的訓練成果很差 ## 陳孟蓉 ### Threads Scam Detector 每一種詐騙準則及關鍵字: 1.Job Scam - 常見手法: - 虛假招聘廣告: 詐騙者發布高薪、低門檻的工作機會,吸引求職者應徵。 - 要求支付費用: 在錄取前或培訓期間,要求求職者支付各種名目的費用,如保證金、手續費等。 - 收集個人資料: 以求職為名,騙取求職者的個人敏感信息,用於其他非法用途。 - 關鍵字: 「高薪急聘」 「無需經驗」 「手續費」 「資料認證費」 「錄取保證金」 2. Gambling Scam - 常見手法: - 誘導參與非法賭博: 詐騙者以高獎金、穩定盈利為誘餌,吸引受害者參與非法賭博活動。 - 虛假博彩平台: 建立偽造的線上博彩網站,當受害者投注後,無法提現或直接關閉網站。 - 冒充專家提供賭博秘訣: 聲稱掌握內部資訊,提供「必中」策略,誘使受害者支付費用購買。 - 關鍵字: 「穩定盈利」 「高額獎金」 「內部消息」 「下注秘訣」 「專家帶隊」 3. Investment Scam - 常見手法: - 高額回報承諾: 詐騙者宣稱投資項目可獲得遠高於市場平均的回報率,吸引投資者投入資金。 - 保證無風險: 聲稱投資無風險,且收益穩定,實際上高收益通常伴隨高風險。 - 虛構投資平台: 建立虛假的投資網站或應用程式,讓投資者投入資金後無法提取。 - 關鍵字: 「高額回報」 「保證獲利」 「限時投資機會」 「內部股權」 「快速翻倍」 4. Emotional Dating Scam - 常見手法: - 假冒身份建立關係: 詐騙者在交友平台上偽裝成單身人士,與受害者建立浪漫關係。 - 訴諸同情要求匯款: 以緊急情況為由,如生病、事故等,要求受害者匯款援助。 - 長期培養感情後詐騙: 在取得受害者信任後,編造各種理由持續索取金錢。 - 關鍵字: 「靈魂伴侶」 「命中注定」 「緊急援助」 「財務困難」 「醫療費用」 -其他相關論文: [VoterFraud2020: a Multi-modal Dataset of Election Fraud Claims on Twitter](https://arxiv.org/abs/2101.08210) https://arxiv.org/abs/2002.07223 https://arxiv.org/abs/2303.13075 https://arxiv.org/abs/1704.07506 https://arxiv.org/abs/2405.10758 還沒看 看同學之前的進度紀錄,很多沒看過的(以下整理給自己看) - Scikit-learn (sklearn): 使用於機器學習分類、回歸和聚類,包含 CountVectorizer、TfidfTransformer 來計算 TF-IDF 值。 - XGBoost, Random Forest, LightGBM - RidgeClassifier & Logistic Regression GridSearchCV - TensorFlow - CNN 自然語言處理(NLP) - TF-IDF: 計算詞彙的權重來表示文本。 - Porter Stemmer: 詞幹提取技術。 - Label Encoding & One-Hot Encoding: 用於文字特徵轉換。 - GBAD (Graph-based anomaly detection): 圖論異常檢測技術。 把github裡面東西看完但還不確定怎麼跑