--- tags: 台灣人工智慧年會 --- # 台灣人工智慧年會 Day1 ----- ----- ## A1 深度學習環境建置與模型訓練實務 ### Line chatbot 架構 * Golang * Database: MySQL * Etcd * GKE (container, Google) * Redis ### Cloud computing to help deep learning * 原本是deadline快到了,幫其他group的人加速,就可以趕上送paper。 * 大部份時間都在tune架構 * How to 調整軟硬資源架構? * Batch size 超出GPU memory size,怎麼處理? * 利用運算資源來加速訓練流程 * 平行 * reduce computation overhead * parameter servers access worker? * computation * gradient computing inside GPU * data preparation * networking * mini-batch size在不同平台上的效能 * 最佳化IO handling * scale the training * multi-GPU training * P2P parameter synchronization * distributed learning * 受限於網路速度 ### DeepQ (Open AI platform) * 希望做不同Deep Learning框架的模型轉譯 * Cloud GPU可能掛掉 * 機器會跑在GCE, EC2... * task dashboard * on-demand resource allocation * support multiple DL framework * status monitoring * frontend: NodeJS * Worker * smart mode model trainer: python * Job dispatcher: Golang * Service components * Task queue: disque * Resource manager * Database: Firebase * Storage: GCS, AWS S3 * Service Infra: Redis * 之後會用K8S -----