# 01/06 開會紀錄 ###### tags: `開會紀錄` ## 前期進度 - 這是 Regression task,要預測 Target - gresearch_crypto API 會吐出 `test_df`, `sample_prediction_df` - 用 `test_df` 丟入模型預測,產生結果放入 `sample_prediction_df['Target']` - 接著再 `env.predict(sample_prediction_df)` 後又會有 `test_df`, `sample_prediction_df` - 不斷做到 API 不再吐為止 ## 本期進度 - [官方的版本](https://www.kaggle.com/cstein06/tutorial-to-the-g-research-crypto-competition/notebook) - NaN 填 0 - 訓練與測試都是一個月 - 用當前資訊預測,此次 Target - 有用 StandardScaler 紀錄標準化參數 - 用到的特徵有 `VWAP(前五次)`、`VWAP(前一次)`、`High-Close`、`min(High,Close)-Low` - 沒有看到用相似度來填補 missing value - 這邊添補 missing value 的方法 - `btc = btc.reindex(range(btc.index[0],btc.index[-1]+60,60),method='pad')` - `X_btc_train = X_btc.loc[train_window[0]:train_window[1]].fillna(0).to_numpy() # filling NaN's with zeros` - [Crypto Buys Prediction using RNN Model](https://www.kaggle.com/justinus/crypto-buys-prediction-using-rnn-model) 版本 - 刪除缺失值 - 僅挑無太多缺失的時間範圍 - 用到的特徵有 `each Crypto's Opens`、`each Crypto's Closes` - 計算出 `Future(從前 3 個 Close 取得)` 特徵,並比較 `Close` 之間的大小判斷出 `Buy`(要買不買) - 使用 60 筆 periods 特徵(有`each Crypto's Opens`、`each Crypto's Closes` 與 `某 Crypto's Future`)來預測下一個 period 的某 Crypto's `Buys` - ... (待人補通) ## 本期討論 1. 探討上面兩個版本是否可用 2. 討論缺失值的填補方法 * 刪整行 * 補值(照官方補index方法) * ~~前後均值~~ - [x] 上一個值 - `.fillna(method='ffill')` - [ ] 前範圍平均 * 觀察最大缺失範圍 - [ ] 插值法 (找周圍插值) - `.interpolate()` 4. 使用的時間範圍 * 補完60同貨幣的最近100000筆 5. model 格式 * api 每iter給: 1個timestep x 14 coin * example_test.csv * 輸出: 全部iter x 14 coin的target * example_sample_submission.csv 7. ## 下回目標 * 1/7(五) 9:00 pm 討論 * 前處理補缺值、timeseries、all features、train/test set