Benmark system === ### Data warehouse + Data clean 1. Crawl data từ những nguồn nào, layout trang web thay đổi có ảnh hưởng nhiều đến việc crawl không ? - Data được crawl co hợp lệ không ? 0. Chất lượng data như thế nào? - Có thể đồng bộ hóa dữ liệu từ nhiều nguồn không - Data sau khi crawl có đầy đủ khong? Tỉ lệ missing data? - Có hiện thực giải thuật để lọc nhiễu nào không - Tỉ lệ những features sau khi làm sạch được dùng để mô hình hóa - Có bước đánh giá tính quan trọng của các features không ? 2. Chi phí duy trì hệ thống - Có phải trả phí để crawl một số nguồn data không ? - Chạy theo batch hay stream ? Chi phí để chạy 3. scalability: theo chieu doc/chieu ngang 4. Performance - Thời gian đáp ứng một truy vấn - Thời gian để trả về một báo cáo - Thời gian để load/update/refresh data warehouse 6. Cơ chế để phân quyền truy cập và bảo mật 7. Coding quantlity and reusability ## Data analytics - Dùng giải thuật gì, có phù hợp với data đang có không ? - Có bước đánh giá kết qua không ? cách chia tập train và test.