# Fintech - Group 9 討論紀錄
# Fintech - 第一次討論 2021/6/3
* 主席 : 陳玠宏
* 紀錄 : 鄭子揚、詹鈞凱
* 出席人數 : 5人 (全到)
# 1.架構
* 最終目標 ( 討論最後要呈現甚麼 )
* 題目面向 ( From 5/28詹經理 )
異常的偵測 : 觀察顧客的投資行為是否有明顯的行為轉換,如突然買高風險或高價股等,盡早預測是否會違約交割,可用分類模型來做哪群人可能會違約交割, 著重在 "警示功能 "
* 整體系統架構 :
model + Chatbot
* 初步系統規劃 :
1. 建立預測違約的模型 -> 放在server -> 使用者在chatbot輸入特別資訊 -> 回傳server run model -> 在chatbbot回傳有無可能違約(或風險?)
2. 使用者輸入要買甚麼 ->根據模型回報交易的資訊、風險
* 待解決問題 :
1. chatbot那邊需要做嗎
2. 新的使用者沒有歷史資料? 還是說新的使用者輸入要項填表單一樣輸入詳細資訊供模型參考
3. 跟他要hash前後的mapping
# 2.資料前處理的發現與討論
* cust_info檔案裡違約與非違約資料的極端化 ?
> 不一定所有資料都要用,找出特別的族群相關的資料即可
* 把全部的資料結合在一起 ?
> 同上
* cust_info檔案裡違約第2次的資料刪除?
> 當有一次違約時,證卷業就會限制其帳號的活動了
* cust_info 買、賣量的關係出現NULL:
> 可以解決的方法 : 中位數、平均數、0(?)
* cust_info 的年齡區間 1- 4 代表甚麼意思 (數字越大越老嗎?)
> 解答在下面(6/4 詹經理meeting)
* 出現違約的情況時,賣量 > 買量
# 3.建模
* 違約註記就是模型的Y (2021,6,2,張智星老師)
* 分類 -> 隨機樹? XGBoost? SVM ? K-nearest?
* Regression : 計算各個變因(e.g.: 年齡、投資年齡、投資習慣改變等等)與違約交割的相關性,
得到其權重,用回歸的方式計算新的投資的違約交割機率,
高於某閥值則寄出警告
註 : 特徵工程的方向 (From 玉山PPT)
* 進出頻率 、進出金額 、是否當沖、投資標的的改變 -> 這些都是交易行為的特徵
# 4.評分方向
讓同學跟老師評分重點是說明優點在哪裡 (把自己當成新創),
不要只是辨識率,比如說,快速,簡單這些也都是優點
# 5.其他補充或想法 :
1. 做test的時候可用身邊人員的實際交易紀錄,提案時可增強說服力
2. 如果只用cust_info.csv train model, 可以避免二次違約的情況
但沒辦法 "預測即將違約" ,如果結合txn.csv 或許就有機會
# ------------------------------------------------
# Fintech - 2021/6/4 與詹經理 Meeting紀錄
* 主席 : 吳少云
* 紀錄 : 詹閎棋、陳玠宏
* 出席人數 : 4人 ( 詹鈞凱因課未到 )
# 1.架構
* 動機 :
1. 投資的方始以投機的方式交易,風險很高,就有可能會違約一開始投資方式保守 , 受市場(PPT) 影響投資風格就會改變,對於波動大的股票的慾望就會增加 ,
2. 投資小白 : 忘記錢還有多少
3. 還有人是操作失誤 , 過去的投資金、額投資標的都不高, 但如果買到一張台積電等變成交易金額很高, 就有可能會違約交割
# 2. 資料解釋
* cust_info 的年齡區間 1- 4 代表甚麼意思
> 以20歲以下 , 20 -30 , 30 -40 ....做年齡區間
* 經驗代碼 : 開始有交易是發生在多久以前 ( 交易經驗有多久 ) , (2021/6/4 詹經理 )
* 買賣別 : 如果不是B、S ,是匯撥的方式交易
# 補充
1. 集保中心會記錄投資人有幾張股票, 股利等也都是由集保中心處理
2. 市場性風險 : alpha (會跟著大盤波動)
非市場風險 : beta, 比較像是股票特性
3. 台灣股市來說都會讓投資人下單, 有戳合成功就會成交 , 證券業看不到投資人有多少錢
4 .如果發生違約交割,證卷業有可能會在某一天讓用戶把手上持股出清
# ------------------------------------------------
# Fintech - 第二次討論 (6/9)
* 主席 : 詹鈞凱
* 紀錄 : 詹閎棋、吳少云
* 出席人數 : 5人 (全到)
# 1. 模型
* 目前用cust_info.csv做建模,訓練資料目前暫定3000筆
* 新增平均交易金額,違約日交易金額的feature
* 使用DNN , recall 約為60%附近
* 預計再增加 "標的種類" 、"平均交易股數" 的feature
* 預計再嘗試SVM, random forest, lightGBM,XGBoost做分類
# 2. Chatbot :
* 預計使用者輸入資訊 : ID 、 股票價錢 、張數
* output : 是否有違約的風險、與之前的交易差別之處在哪,
像是交易金額的巨變、或是股票種類的改變
# 3. 分工
* 資料前處理與模型建立 : 吳少云、鄭子揚、陳玠宏
* LineBot : 詹鈞凱、詹閎棋
* Word, PTT : 吳少云、陳玠宏、鄭子揚、詹鈞凱、詹閎棋
* 短片、 : 鄭子揚
* 長片 : 詹鈞凱、吳少云、詹閎棋、陳玠宏
# 4. 預計進度: (下次開會 : 6/12 早上10點)
* 模型建立
* 模型串接Chatbot
* word 完成 問題定義、方法描述、資料集
# 5. 上課注意事項 (6/9 上課內容)
* 報告15分鐘以內
* 可以選擇不報告,用影片代替(長片)
* 16號前一定要把成果放到網上,影片放到 youtube
* 書面報告放到google drive 或 Github
* 評分三部分 :
> 3min短片 (介紹、推廣為主)
> 15分鐘長片 (技術面)
> 書面報告 (內容如Fintech網頁需求所述)
# 6. 其他補充:
* Chatbot Demo 可以放在短片
* 報告日期 : 6/23 第三組
# ------------------------------------------------
# Fintech - 第三次討論 (6/12 早上10點)
* 主席 : 鄭子揚
* 紀錄 : 陳玠宏、吳少云
* 出席人數 : 5人 (全到)
# 1. 模型
* 訓練資料新增至約3000筆
* 扣除一些feature, 如產業種類(電子股太強勢,導致模型產生偏差)、交易類別(融資 榮眷 借劵 當沖等),目前feature降低至14項
* 使用DNN , recall 74%, 但precision 約在40 %附近
> 目標是recall越大越好,有更大的機率把有可能違約的行為爭測出來
* 開發環境移至本地端
# 2. Chatbot :
* 已架好server, client傳遞訊息給server時可以依照client的訊息種類回傳
* 目標 : 串聯server和模型工作站 (利用socket)
# ------------------------------------------------
# Fintech - 第四次討論 (6/14 下午4點)
* 主席 : 詹閎棋
* 紀錄 : 詹鈞凱、鄭子揚
* 出席人數 : 5人 (全到)
# 完成項目 :
* 串聯模型與Local Server
* 完成書面報告、影片 (長片、短片)