從機器學習平台的發展觀察如何打造資料科學團隊 - Summit Suen === > 資料科學家:80%處理資料 20%分析 重點是要定義問題,才會有對應的演算法處理。 分析->做成報表or產品? 拿資料、資料從哪裡來、資料整理和清理、資料分析 - ML Code 只佔資料科學的一小部分 - 定義問題,就會有對應的演算法 - 編制體系的限制,導致 **一條龍** 資料科學家 資料科學團隊: Data engineers vs Data scientits 仍有一條龍問題: Processing raw data vs Probe insight - 開發資料科學 Pipiline - 資料清洗 - 透過 domain knowledge 清洗資料 - 資料分析 - 資料驗證 - 資料的真偽 - 資料切分 - 切分成Training Set和Testing Set - 訓練模型 - 驗證模型 - 規模訓練 - 模型更新 - 模型上線 - 模型監控(Model Monitoring) - 模型日誌 - 模型優化(Model Optimization) 開發資料科學 project pipeline ```mermaid graph LR 資料清洗 --> 資料分析 資料分析 --> 資料驗證 資料驗證 --> 資料切分 資料切分 --> 訓練模型 訓練模型 --> 驗證模型 ``` ```mermaid graph RL 驗證模型 --> 規模訓練 規模訓練 --> 模型更新 模型更新 --> 模型上線 模型上線 --> 模型監控 模型監控 --> 模型日誌 ``` 趨勢分析 - AWS: [Sagemaker] - Azure: [ML Services] - 可透過拖曳 UI 產生 model(有點像玩具) - GCP: [AI Platform] - 資料輸入做pre-processing-> - AI hub 台灣新創 [infuseai](https://www.infuseai.io/) [Sagemaker]:https://aws.amazon.com/tw/sagemaker/ [ML Services]:https://azure.microsoft.com/zh-tw/services/machine-learning/ [AI Platform]:https://cloud.google.com/ai-platform/?hl=zh-tw Data Scoemce "silo" : 彼此之間無法橫向溝通 不同角色在 Data Science 的 flow 裡面功能不太一樣 ###### tags: `DevFest2019`