從機器學習平台的發展觀察如何打造資料科學團隊 - Summit Suen

從機器學習平台的發展觀察如何打造資料科學團隊 - Summit Suen === > 資料科學家：80%處理資料 20%分析重點是要定義問題，才會有對應的演算法處理。分析->做成報表or產品？拿資料、資料從哪裡來、資料整理和清理、資料分析 - ML Code 只佔資料科學的一小部分 - 定義問題，就會有對應的演算法 - 編制體系的限制，導致 **一條龍** 資料科學家資料科學團隊： Data engineers vs Data scientits 仍有一條龍問題： Processing raw data vs Probe insight - 開發資料科學 Pipiline - 資料清洗 - 透過 domain knowledge 清洗資料 - 資料分析 - 資料驗證 - 資料的真偽 - 資料切分 - 切分成Training Set和Testing Set - 訓練模型 - 驗證模型 - 規模訓練 - 模型更新 - 模型上線 - 模型監控(Model Monitoring) - 模型日誌 - 模型優化(Model Optimization) 開發資料科學 project pipeline ```mermaid graph LR 資料清洗 --> 資料分析資料分析 --> 資料驗證資料驗證 --> 資料切分資料切分 --> 訓練模型訓練模型 --> 驗證模型 ``` ```mermaid graph RL 驗證模型 --> 規模訓練規模訓練 --> 模型更新模型更新 --> 模型上線模型上線 --> 模型監控模型監控 --> 模型日誌 ``` 趨勢分析 - AWS: [Sagemaker] - Azure: [ML Services] - 可透過拖曳 UI 產生 model（有點像玩具） - GCP: [AI Platform] - 資料輸入做pre-processing-> - AI hub 台灣新創 [infuseai](https://www.infuseai.io/) [Sagemaker]:https://aws.amazon.com/tw/sagemaker/ [ML Services]:https://azure.microsoft.com/zh-tw/services/machine-learning/ [AI Platform]:https://cloud.google.com/ai-platform/?hl=zh-tw Data Scoemce "silo" : 彼此之間無法橫向溝通不同角色在 Data Science 的 flow 裡面功能不太一樣 ###### tags: `DevFest2019`