2/19進度紀錄

# 2/19進度紀錄 ## 簡筠方 ### Threads Scam Detector 將data按8:2分成訓練與驗證集，共為八個檔案 ![image](https://hackmd.io/_uploads/HJiEFs-q1l.png) | category | train | test | **合計** | | ----------------- | ---------: | --------: | ---------: | | emotional_datiing | 2866 | 717 | **3583** | | gamble | 2471 | 618 | **3089** | | investment | 3354 | 839 | **4193** | | work | 3985 | 997 | **4982** | | **合計** | **12676** | **3171** | **15847** | #### 問題 * **emotional_datiing** 這個拼法真的很怪 * 因為舊的資料真的太多太雜我不敢動，所以直接把新的命名成new * 我覺得如果最後要用還計算成品分數的話，需要把test裡面的資料都重新人工label一下(雖然有三千多筆) :::spoiler 以下為各種令人費解的分類 (更多還可以去看上週的進度紀錄) "text":"成人影片公司", "label":0 "text":"我看成成人影片", "label":0 "text":"成人影片裡那種日本女JK吧", "label":1 "text":"成人影片我是剪過", "label":1 "text":"徵男友的第二天", "label":0 "text":"徵女友day1", "label":1 "text":"徵女友台南", "label":1 "text":"徵女友追蹤我哀居", "label":1 "text":"徵女友不是男友吶", "label":1 "text":"你徵男友我徵女友", "label":0 ::: #### Scrapfly [官網](https://scrapfly.io/) 研究了一下裡面的 **nlp_scrapfly_local.ipynb** 去官網申請了帳號得到了API_KEY，玩了一次後就發現免費版的有額度限制，所以就沒再試了 **試玩結論:** * 目前的程式碼是只能按發文人的名字去搜的 * 搜不到太多的文章，大概二十幾篇，差不多就會卡在這邊 ![image](https://hackmd.io/_uploads/r1b1mBzqJl.png) * **image下載數量**好像會出錯，明明有兩張圖片它卻只留第一張，image_count被算為1 * 貼文裡面如果有**影片**的話，它的**影片封面**會被下載成一張圖片，image_count也會是1，不過videos還是有存到連結 ## 游婷安 ### Slop_Detection_Taiwan 進度: * 增加README * GRU: 1. 將檔案分成 80% train, 10% validate, 10% test 2. 增加 Fine-tuning 調參數: 2-1. 增加 roll back(回到最好的參數) 且降低 learning rate 如果 val loss 超過三次沒有下降　 2-2. 增加 early stopping，如果 roll back 太多次就回到最好的參數並提前結束訓練 3. 增加表格顯示 test set actual vs predicted values ![image](https://hackmd.io/_uploads/HyLv9bG5kg.png) 問題: * 不確定是否要增加其他列(?)，含有另一個下雨的檔案不知道是做甚麼的 ## 陳芊羽 ### Slop_Detection_Taiwan 大概可以總結為： - 第一天跟kernel、函式庫奮鬥 - 第二天~~被github玩弄於股掌中~~ - 第三天進入debug美好地獄 #### 調整： - 114 kernel import函式庫+調整版本 - 修正XGBoost.ipynb錯誤的資料使用 - 資料變為單筆測點 (不確定測點的位移模式是否共通) - 在預測中去除EMove等欄位這些欄位都決定於E.N.H，用這些欄位預測E.N.H是錯誤的 - E.N.H.TotalMove的mae.rmse分開計算、顯示 #### 嘗試： - 將XGBoost.ipynb的使用資料改為台北測點誤差明顯上升，可能是資料筆數過大，XGBoost不適用資料太大的預測？ - 套用TFT預測資料絕讚debug中 #### 問題： - 圖片說明一切:) ![image](https://hackmd.io/_uploads/rJMWiQXcyg.png) - 其實還沒搞懂TFT那些程式碼都在幹嘛(還在致力讓他跑起來) - 如何使用資料才是最精準的？按照EDA，貌似除了時間沒有其他欄位適用？ ## 廖奕皓 ### ThreadsScamsDetector 進度: * 了解reflection.ipynb的程式碼與運作模式 ![reflection_process](https://hackmd.io/_uploads/S1HOhmmcJl.png) 問題: 我沒有成功執行reflection.ipynb，我分別在github與Colab上執行，分別遇到下列問題: * github: No module named 'langchain_core' 不管我怎麼重新安裝或用別的方法都會跑出來，沒辦法使用langchain系列的模組目前不知道原因 * Colab: [Errno 111] Connection refused 無法連接到Ollama server，因為Ollama需要安裝在本地或伺服器上，但Colab的環境是雲端的，並不支援直接運行Ollama * 後面打算改用OpenAi LLM，結果當月免費API的額度用完了