# 深度學習介紹 Project 4 - FINAL PROJECT- Kaggle G-Research Crypto Forecastin ###### tags: `深度學習介紹` - URL: https://www.kaggle.com/c/g-research-crypto-forecasting/overview/code-requirements ## 目標 預測 14 種流行加密貨幣的短期回報 ## 評估標準 提交的評估是根據 Pearson 相關係數的加權版本進行。這可以在本教程筆記本的“[預測詳細信息和評估](https://www.kaggle.com/cstein06/tutorial-to-the-g-research-crypto-competition)”部分找到更多詳細信息。 您必須使用提供的 python 時間序列 API 提交本次比賽,以確保模型不會及時向前看。要使用 API,請遵循 Kaggle Notebooks 中的此模板: ```python import gresearch_crypto env = gresearch_crypto.make_env() # initialize the environment iter_test = env.iter_test() # an iterator which loops over the test set and sample submission for (test_df, sample_prediction_df) in iter_test: sample_prediction_df['Target'] = 0 # make your predictions here env.predict(sample_prediction_df) # register your predictions ``` [此處](https://www.kaggle.com/sohier/detailed-api-introduction)提供了對上方的 API 有更詳細介紹。 如果提交的內容包含空值或無窮大,將收到錯誤消息。 ## 程式碼需求 需要透過 Kaggle Notebooks 來"提交"參賽結果,提交文件必須命名 `submission.csv` ## 排行榜說明 公共排行榜目標是公開可用的,並作為比賽數據集的一部分提供。期待看到很多人為了好玩而提交完美的提交。 因此,**本次比賽的公共排行榜沒有意義**,僅為任何想要測試其代碼的人提供便利。最終的私人排行榜將使用提交期結束後收集的真實市場數據確定。 ## 資料格式 該數據集包含有關多種加密資產(例如比特幣和以太坊)的歷史交易的信息。您的挑戰是預測他們未來的回報。 由於歷史加密貨幣價格不是機密,這將是使用時間序列 API 的預測競爭。 ### 文件 - train.csv - 訓練集 - `timestamp` - 時間戳,以 1 分鐘為單位。 - `Asset_ID` - 加密資產的 ID 代碼。 - `Count` - 這一分鐘發生的交易數量。 - `Open` - 此分鐘開始時的美元價格。 - `High` - 一分鐘內最高的美元價格。 - `Low` - 一分鐘內最低的美元價格。 - `Close` - 此分鐘結束時的美元價格。 - `Volume` - 一分鐘內交易的加密資產單位數量。 - `VWAP` - 一分鐘的成交量加權平均價格。 - `Target`- 15 分鐘剩餘收益。有關如何計算目標的詳細信息,請參閱本筆記本的“[預測和評估](https://www.kaggle.com/cstein06/tutorial-to-the-g-research-crypto-competition)”部分。 - example_test.csv - 有關於時間序列 API 將提供的資料範例。 - example_sample_submission.csv - 有關於時間序列 API 將提供的資料範例。資料只是從train.csv 複製的。 - asset_details.csv - 提供 Asset_ID 中,每個加密資產的真實名稱,以及每個加密資產在指標中收到的權重。 - gresearch_crypto - 可用於線下工作的時間序列 API 文件的未優化版本。您可能需要 Python 3.7 和 Linux 環境才能運行它而不會出錯。 - Supplemental_train.csv - 提交期結束後,此文件的資料將替換為提交期的加密資產價格。在評估階段,除了任何缺失的數據外,訓練、訓練補充和測試集在時間上都是連續的。當前副本,它剛剛填充了大約來自train.csv 的正確數據量,並作為佔位符提供。 ### 時間序列 API 詳細信息 - 有關如何完成提交的範例,請參閱[時間序列介紹筆記本](https://www.kaggle.com/sohier/detailed-api-introduction)。時間序列 API 與之前的比賽相比有所改變! - 預計會在測試集中看到大約三個月的資料。在比賽的預測階段之前,API 只會提供一部分訓練資料。 - 初始化後,API 將需要 0.5 GB 的內存。初始化步驟 ( env.iter_test()) 將需要比這更多的內存;我們建議您在調用之前不要加載模型。該 API 還將消耗不到 30 分鐘的運行時間來加載和提供資料。 - API 使用以下類型加載數據:Asset_ID:`int8`,Count:`int32`,row_id:`int32`,Count:`int32`,Open:`float64`,High:`float64`,Low:`float64`,Close:`float64`,Volume:`float64`,VWAP:`float64` ## 深度期末報告要求 1. 在 **2022/01/13** 有 10 分鐘的專題報告 - 報告需包含 data preprocessing、 model architecture、performance analysis 2. 在 **2022/01/19** 需提交約 10 頁的簡短報告 - 需說明重要關鍵(Be concise in your report!): - data pre-processing - model - code - model training - the name and ranking of your team in Kaggle - 不能提交 01/13 的簡報,否則報告成績 0 分。 - 不允許遲交 3. 在 **2022/01/19** 前,每個隊員需分別給 TA 發郵件,描述其他每位隊員的貢獻(0 到 5 分,其中 0 代表完全沒有貢獻,5 代表顯著貢獻)。 ## 2021_12_30 開會 ### 預期討論項目 1. [ ] 工作分配 - 選擇幾個 [Code](https://www.kaggle.com/c/g-research-crypto-forecasting/code) 來做學習。 - 選出下次會議主持,並準備下期開會的事項。 2. [x] 行程表規劃 - 到 1/13 前尚有 2 周的時間,範圍 12/30 ~ 1/12 - | 事項 | 日程 | | ------------- | -------- | | 前處理+建構模型| 12/30 (線下)| |討論模型的改進|1/6 下午4(線下)| | 寫 Slide 報告與分配報告 |1/12 早上9~下午4(線下)| | 寫簡短報告(10頁) | 1/18(線上) | - 1/13 上台報告,需在 1/6 ~ 1/11 前完成 Slide - 1/19 前報告,需在 1/13 ~ 1/18 前完成 10 頁的簡短報告 3. [x] 討論實驗平台 - [ ] Colab - [X] Kaggle Notebook - [ ] 個人 PC 4. [x] 討論程式碼存放平台 - [X] Hackmd (是否創建一個私人團隊) - Google Drive - Github ### 會議記錄 (待補) ### 下次開會前 1. 學習 [Tutorial to the G-Research Crypto Competition](https://www.kaggle.com/cstein06/tutorial-to-the-g-research-crypto-competition#Dataset-description) 來入門這次的比賽。 2. 閱讀 [Detailed API Introduction](https://www.kaggle.com/sohier/detailed-api-introduction) 來了解 API 的使用。 3. 參考 Kaggle 上幾個 [Code](https://www.kaggle.com/c/g-research-crypto-forecasting/code) 來做此次作業。 - 挑選一個有關於老師上課時有用的模型來學習 - 下次開會時,需介紹所使用的模型,並用做團隊內的比較,挑選好的模型 4. 讀 https://www.kaggle.com/justinus/crypto-buys-prediction-using-rnn-model 5. https://github.com/monchewharry/Crypto_Forecasting_kaggle ### 下次開會時間 - 時間: 2022/01/6 16:00:00 - 地點: 同先前