# 當沖股預測模型報告 ## 報告目的與摘要 本報告旨在宣傳我們開發的當沖股預測模型,展示其在預測短期當沖熱門股上的精準性與應用價值。 本模型基於多因子分析,採用`隨機森林`算法進行訓練,結合曲率(Knee Point)分析選取當沖熱門股,為用戶提供高效決策支持。 核心亮點包括: * 平均覆蓋率達 ==85.8%==,能準確定位當沖熱門股。 * 獨家設計的因子分析,揭示影響當沖行為的關鍵特徵。 * 回測2023年至今,優於大盤==7.61==%(投資組合最高報酬率:84.88% (2024/12/04)) ![image](https://hackmd.io/_uploads/SJ0Lw_sP1l.png) ## 模型概述與特性 ### 模型特性與設計考量 * 專案目標:開發一款能準確預測未來 `1` 天當沖熱門股的模型,幫助券商吸引散戶進行當沖交易,提升交易量。 * 數據包裝成品:模型輸出包含被預測為當沖股的清單及影響因子的可視化報告。 ### 當沖股的特性 * 交易集中性:當沖股多為成交量大、周轉率高的股票。 * 波動性高:適合短線操作的投資策略。 * 短期特性:當沖熱門股通常只在短期內活躍。 ### 應用場景 * 券商可利用預測結果吸引散戶參與當沖。 * 當沖投資者可根據模型選股,制定高效交易策略。 ## 當沖股定義與判斷方法 我們採用Knee Point 方法判斷每日當沖熱門股: 1. 數據收集:獲取當日所有股票的當沖成交量。 2. 排序分析:按照當沖成交量降序排序,確定曲線結構。 3. Knee Point 應用:利用 kneed 工具計算曲率最大點,確定當沖股數量 n。 4. 結果標註:將排名前 n 的個股標記為當沖股。 如下圖所示,曲率最大的位置即為分割點: ![某日當沖成交量及keen point圖](https://hackmd.io/_uploads/BkjCGucrJg.png) ## 模型設計與技術架構 ### 技術架構 * 開發語言:Python * 資料處理工具:Pandas、NumPy * 機器學習框架:隨機森林 ### 模型設計 輸入特徵:253個影響當沖行為的關鍵因子(如當沖成交量、資券交易比例、歷史數據滾動平均值)。 輸出結果:預測未來 1 天是否為當沖熱門股。 資料集劃分:訓練集 60 天,測試集 5 天。 | 訓練集天數 | 測試集天數 | 平均 F1 scores | F1標準差 | |---|---|---|---| | 60 | 5 | 0.6357 | 0.04945 | ## 預測結果與分析 ### 特徵重要性分析 模型基於 `253` 個特徵進行預測,前 `30` 個特徵累積重要性達 `81`%。主要特徵如下: ![20250110特徵重要程度](https://hackmd.io/_uploads/HyG-bS0Ikl.png) | 特徵名稱 | 特徵重要性 | |---|---| | 當沖成交比例(市場) | 7.59% | | 當沖成交量 | 7.23% | | 平均3日當沖成交量 (rolling_mean_3) | 6.22% | | 成交量 | 5.87% | | 膝點標註 | 4.97% | | 平均5日當沖成交量 (rolling_mean_5) | 4.89% | | 資買 | 4.36% | | 平均10日當沖成交量 (rolling_mean_10) | 4.13% | | 成交筆數 | 3.95% | | 當沖成交量_lag_1 | 2.93% | | 資賣 | 2.85% | ### 實例分析:2025/01/08 預測結果 預測隔日被當沖概率排名最高的個股: ![20250110機率分布](https://hackmd.io/_uploads/B1GWZHA8kg.png) | 股票代號 | 股票名稱 | 被當沖概率 | 指數彙編分類 | 上市櫃 | |---|---|---|---|---| | 4931 | 新盛力 | 94.43% | 電子中游-NB與手機零組件 | 0 | | 6558 | 興能高 | 90.72% | 電子中游-NB與手機零組件 | 1 | | 3645 | 達邁 | 86.17% | 電子上游-PCB-製造 | 1 | | 3450 | 聯鈞 | 83.88% | 電子上游-IC-封測 | 1 | | 2374 | 佳能 | 83.55% | 電子下游-數位相機 | 1 | | 4979 | 華星光 | 80.83% | 電子中游-通訊設備 | 0 | | 3078 | 僑威 | 80.46% | 電子中游-電源供應器 | 0 | ### 覆蓋率分析 預測排名前30的股票與實際當沖熱門股重疊率平均達 85.8%。 ![當沖_覆蓋率20250117](https://hackmd.io/_uploads/rJXpJtwDJg.png) 化成每日的覆蓋率圖如下: (https://hackmd.io/_uploads/rkgZgYDD1x.png) ![當沖20250117](https://hackmd.io/_uploads/S1XaytvDyx.png) 若考慮當日成交量排名前30的覆蓋率,平均為 60%。 ![猜隔天當沖_覆蓋率20240109_20250108](https://hackmd.io/_uploads/HyZsaDswkg.png) ## 商業價值與應用場景 ### 商業應用價值 #### 券商端: * 透過預測熱門股,吸引散戶參與交易,提升當沖交易量。 #### 投資者端: * 提供短線交易選股依據,提升交易成功率。 * 降低分析成本與時間。 #### 潛在應用場景 * 數據整合進行即時交易提醒。 * 提供每日熱門當沖股報告,作為散戶投資指南。 ## 結論與展望 本模型在預測短期當沖熱門股方面具有顯著優勢,其高效準確的表現,為券商及投資者提供了強大的數據支持。 ### 未來優化方向包括: * 增加更多反映市場動態的特徵,如消息面、技術指標等。 * 強化季節性預測能力,進一步提升模型穩定性。 * 開發即時預測模組,實現更快的市場響應能力。