# 2/19進度紀錄
## 簡筠方
### Threads Scam Detector
將data按8:2分成訓練與驗證集,共為八個檔案

| category | train | test | **合計** |
| ----------------- | ---------: | --------: | ---------: |
| emotional_datiing | 2866 | 717 | **3583** |
| gamble | 2471 | 618 | **3089** |
| investment | 3354 | 839 | **4193** |
| work | 3985 | 997 | **4982** |
| **合計** | **12676** | **3171** | **15847** |
#### 問題
* **emotional_datiing** 這個拼法真的很怪
* 因為舊的資料真的太多太雜我不敢動,所以直接把新的命名成new
* 我覺得如果最後要用還計算成品分數的話,需要把test裡面的資料都重新人工label一下(雖然有三千多筆)
:::spoiler 以下為各種令人費解的分類 (更多還可以去看上週的進度紀錄)
"text":"成人影片公司",
"label":0
"text":"我看成成人影片",
"label":0
"text":"成人影片裡那種日本女JK吧",
"label":1
"text":"成人影片我是剪過",
"label":1
"text":"徵男友的第二天",
"label":0
"text":"徵女友day1",
"label":1
"text":"徵女友台南",
"label":1
"text":"徵女友追蹤我哀居",
"label":1
"text":"徵女友不是男友吶",
"label":1
"text":"你徵男友我徵女友",
"label":0
:::
#### Scrapfly [官網](https://scrapfly.io/)
研究了一下裡面的 **nlp_scrapfly_local.ipynb**
去官網申請了帳號得到了API_KEY,玩了一次後就發現免費版的有額度限制,所以就沒再試了
**試玩結論:**
* 目前的程式碼是只能按發文人的名字去搜的
* 搜不到太多的文章,大概二十幾篇,差不多就會卡在這邊

* **image下載數量**好像會出錯,明明有兩張圖片它卻只留第一張,image_count被算為1
* 貼文裡面如果有**影片**的話,它的**影片封面**會被下載成一張圖片,image_count也會是1,不過videos還是有存到連結
## 游婷安
### Slop_Detection_Taiwan
進度:
* 增加README
* GRU:
1. 將檔案分成 80% train, 10% validate, 10% test
2. 增加 Fine-tuning 調參數:
2-1. 增加 roll back(回到最好的參數) 且降低 learning rate 如果 val loss 超過三次沒有下降
2-2. 增加 early stopping,如果 roll back 太多次就回到最好的參數並提前結束訓練
3. 增加表格顯示 test set actual vs predicted values

問題:
* 不確定是否要增加其他列(?),含有另一個下雨的檔案不知道是做甚麼的
## 陳芊羽
### Slop_Detection_Taiwan
大概可以總結為:
- 第一天跟kernel、函式庫奮鬥
- 第二天~~被github玩弄於股掌中~~
- 第三天進入debug美好地獄
#### 調整:
- 114 kernel import函式庫+調整版本
- 修正XGBoost.ipynb錯誤的資料使用
- 資料變為單筆測點
(不確定測點的位移模式是否共通)
- 在預測中去除EMove等欄位
這些欄位都決定於E.N.H,用這些欄位預測E.N.H是錯誤的
- E.N.H.TotalMove的mae.rmse分開計算、顯示
#### 嘗試:
- 將XGBoost.ipynb的使用資料改為台北測點
誤差明顯上升,可能是資料筆數過大,XGBoost不適用資料太大的預測?
- 套用TFT預測資料
絕讚debug中
#### 問題:
- 圖片說明一切:)

- 其實還沒搞懂TFT那些程式碼都在幹嘛(還在致力讓他跑起來)
- 如何使用資料才是最精準的?
按照EDA,貌似除了時間沒有其他欄位適用?
## 廖奕皓
### ThreadsScamsDetector
進度:
* 了解reflection.ipynb的程式碼與運作模式

問題:
我沒有成功執行reflection.ipynb,我分別在github與Colab上執行,分別遇到下列問題:
* github: No module named 'langchain_core'
不管我怎麼重新安裝或用別的方法都會跑出來,沒辦法使用langchain系列的模組
目前不知道原因
* Colab: [Errno 111] Connection refused
無法連接到Ollama server,因為Ollama需要安裝在本地或伺服器上,但Colab的環境是雲端的,並不支援直接運行Ollama
* 後面打算改用OpenAi LLM,結果當月免費API的額度用完了