Benmark system
===
### Data warehouse + Data clean
1. Crawl data từ những nguồn nào, layout trang web thay đổi có ảnh hưởng nhiều đến việc crawl không ?
- Data được crawl co hợp lệ không ?
0. Chất lượng data như thế nào?
- Có thể đồng bộ hóa dữ liệu từ nhiều nguồn không
- Data sau khi crawl có đầy đủ khong? Tỉ lệ missing data?
- Có hiện thực giải thuật để lọc nhiễu nào không
- Tỉ lệ những features sau khi làm sạch được dùng để mô hình hóa
- Có bước đánh giá tính quan trọng của các features không ?
2. Chi phí duy trì hệ thống
- Có phải trả phí để crawl một số nguồn data không ?
- Chạy theo batch hay stream ? Chi phí để chạy
3. scalability: theo chieu doc/chieu ngang
4. Performance
- Thời gian đáp ứng một truy vấn
- Thời gian để trả về một báo cáo
- Thời gian để load/update/refresh data warehouse
6. Cơ chế để phân quyền truy cập và bảo mật
7. Coding quantlity and reusability
## Data analytics
- Dùng giải thuật gì, có phù hợp với data đang có không ?
- Có bước đánh giá kết qua không ? cách chia tập train và test.