# Fintech - Group 9 討論紀錄 # Fintech - 第一次討論 2021/6/3 * 主席 : 陳玠宏 * 紀錄 : 鄭子揚、詹鈞凱 * 出席人數 : 5人 (全到) # 1.架構 * 最終目標 ( 討論最後要呈現甚麼 ) * 題目面向 ( From 5/28詹經理 ) 異常的偵測 : 觀察顧客的投資行為是否有明顯的行為轉換,如突然買高風險或高價股等,盡早預測是否會違約交割,可用分類模型來做哪群人可能會違約交割, 著重在 "警示功能 " * 整體系統架構 : model + Chatbot * 初步系統規劃 : 1. 建立預測違約的模型 -> 放在server -> 使用者在chatbot輸入特別資訊 -> 回傳server run model -> 在chatbbot回傳有無可能違約(或風險?) 2. 使用者輸入要買甚麼 ->根據模型回報交易的資訊、風險 * 待解決問題 : 1. chatbot那邊需要做嗎 2. 新的使用者沒有歷史資料? 還是說新的使用者輸入要項填表單一樣輸入詳細資訊供模型參考 3. 跟他要hash前後的mapping # 2.資料前處理的發現與討論 * cust_info檔案裡違約與非違約資料的極端化 ? > 不一定所有資料都要用,找出特別的族群相關的資料即可 * 把全部的資料結合在一起 ? > 同上 * cust_info檔案裡違約第2次的資料刪除? > 當有一次違約時,證卷業就會限制其帳號的活動了 * cust_info 買、賣量的關係出現NULL: > 可以解決的方法 : 中位數、平均數、0(?) * cust_info 的年齡區間 1- 4 代表甚麼意思 (數字越大越老嗎?) > 解答在下面(6/4 詹經理meeting) * 出現違約的情況時,賣量 > 買量 # 3.建模 * 違約註記就是模型的Y (2021,6,2,張智星老師) * 分類 -> 隨機樹? XGBoost? SVM ? K-nearest? * Regression : 計算各個變因(e.g.: 年齡、投資年齡、投資習慣改變等等)與違約交割的相關性, 得到其權重,用回歸的方式計算新的投資的違約交割機率, 高於某閥值則寄出警告 註 : 特徵工程的方向 (From 玉山PPT) * 進出頻率 、進出金額 、是否當沖、投資標的的改變 -> 這些都是交易行為的特徵 # 4.評分方向 讓同學跟老師評分重點是說明優點在哪裡 (把自己當成新創), 不要只是辨識率,比如說,快速,簡單這些也都是優點 # 5.其他補充或想法 : 1. 做test的時候可用身邊人員的實際交易紀錄,提案時可增強說服力 2. 如果只用cust_info.csv train model, 可以避免二次違約的情況 但沒辦法 "預測即將違約" ,如果結合txn.csv 或許就有機會 # ------------------------------------------------ # Fintech - 2021/6/4 與詹經理 Meeting紀錄 * 主席 : 吳少云 * 紀錄 : 詹閎棋、陳玠宏 * 出席人數 : 4人 ( 詹鈞凱因課未到 ) # 1.架構 * 動機 : 1. 投資的方始以投機的方式交易,風險很高,就有可能會違約一開始投資方式保守 , 受市場(PPT) 影響投資風格就會改變,對於波動大的股票的慾望就會增加 , 2. 投資小白 : 忘記錢還有多少 3. 還有人是操作失誤 , 過去的投資金、額投資標的都不高, 但如果買到一張台積電等變成交易金額很高, 就有可能會違約交割 # 2. 資料解釋 * cust_info 的年齡區間 1- 4 代表甚麼意思 > 以20歲以下 , 20 -30 , 30 -40 ....做年齡區間 * 經驗代碼 : 開始有交易是發生在多久以前 ( 交易經驗有多久 ) , (2021/6/4 詹經理 ) * 買賣別 : 如果不是B、S ,是匯撥的方式交易 # 補充 1. 集保中心會記錄投資人有幾張股票, 股利等也都是由集保中心處理 2. 市場性風險 : alpha (會跟著大盤波動) 非市場風險 : beta, 比較像是股票特性 3. 台灣股市來說都會讓投資人下單, 有戳合成功就會成交 , 證券業看不到投資人有多少錢 4 .如果發生違約交割,證卷業有可能會在某一天讓用戶把手上持股出清 # ------------------------------------------------ # Fintech - 第二次討論 (6/9) * 主席 : 詹鈞凱 * 紀錄 : 詹閎棋、吳少云 * 出席人數 : 5人 (全到) # 1. 模型 * 目前用cust_info.csv做建模,訓練資料目前暫定3000筆 * 新增平均交易金額,違約日交易金額的feature * 使用DNN , recall 約為60%附近 * 預計再增加 "標的種類" 、"平均交易股數" 的feature * 預計再嘗試SVM, random forest, lightGBM,XGBoost做分類 # 2. Chatbot : * 預計使用者輸入資訊 : ID 、 股票價錢 、張數 * output : 是否有違約的風險、與之前的交易差別之處在哪, 像是交易金額的巨變、或是股票種類的改變 # 3. 分工 * 資料前處理與模型建立 : 吳少云、鄭子揚、陳玠宏 * LineBot : 詹鈞凱、詹閎棋 * Word, PTT : 吳少云、陳玠宏、鄭子揚、詹鈞凱、詹閎棋 * 短片、 : 鄭子揚 * 長片 : 詹鈞凱、吳少云、詹閎棋、陳玠宏 # 4. 預計進度: (下次開會 : 6/12 早上10點) * 模型建立 * 模型串接Chatbot * word 完成 問題定義、方法描述、資料集 # 5. 上課注意事項 (6/9 上課內容) * 報告15分鐘以內 * 可以選擇不報告,用影片代替(長片) * 16號前一定要把成果放到網上,影片放到 youtube * 書面報告放到google drive 或 Github * 評分三部分 : > 3min短片 (介紹、推廣為主) > 15分鐘長片 (技術面) > 書面報告 (內容如Fintech網頁需求所述) # 6. 其他補充: * Chatbot Demo 可以放在短片 * 報告日期 : 6/23 第三組 # ------------------------------------------------ # Fintech - 第三次討論 (6/12 早上10點) * 主席 : 鄭子揚 * 紀錄 : 陳玠宏、吳少云 * 出席人數 : 5人 (全到) # 1. 模型 * 訓練資料新增至約3000筆 * 扣除一些feature, 如產業種類(電子股太強勢,導致模型產生偏差)、交易類別(融資 榮眷 借劵 當沖等),目前feature降低至14項 * 使用DNN , recall 74%, 但precision 約在40 %附近 > 目標是recall越大越好,有更大的機率把有可能違約的行為爭測出來 * 開發環境移至本地端 # 2. Chatbot : * 已架好server, client傳遞訊息給server時可以依照client的訊息種類回傳 * 目標 : 串聯server和模型工作站 (利用socket) # ------------------------------------------------ # Fintech - 第四次討論 (6/14 下午4點) * 主席 : 詹閎棋 * 紀錄 : 詹鈞凱、鄭子揚 * 出席人數 : 5人 (全到) # 完成項目 : * 串聯模型與Local Server * 完成書面報告、影片 (長片、短片)