# COURSE PROJECT : PHÂN TÍCH DỮ LIỆU THÔNG MINH
## I. Nội dung
**Chủ đề:** phân tích dữ liệu trong các lĩnh vực kinh tế, xã hội, khoa học, tự nhiên, ... của Việt Nam.
## II. Yêu cầu
* Ngôn ngữ: Tiếng Việt $\to$ dùng cho trình bày và báo cáo.
* Dataset: dữ liệu thực tế liên quan đến Việt Nam
* Dữ liệu dạng bảng table
* Có tối thiểu 8 biến độc lập
* Có tối thiểu 1000 dòng
* Dữ liệu liên quan đến Việt Nam từ 60\% trở lên.
* Dữ liệu hình ảnh gốc VN.
* Dữ liệu âm thanh gốc VN.
* Dữ liệu văn bản gốc VN.
* Phương pháp phân tích
* Phân tích trực quan
* Phân tích thống kê
* Phương pháp học máy $\to$ khả năng diễn giải.
* Sử dụng các công cụ AI $\to$ tạo ra ứng dụng phân tích **tự động**, đưa dữ liệu vào và xuất ra kết quả phân tích.
* Sử dụng AI $\to$ xây dựng ideas, setup, và implementation.
* Intergrating AI into applications.
## III. Trình bày & Minh chứng
* **Thời gian giao đồ án** : ngày 29/06/2025
* **Thời gian nộp sản phẩm trên moodle** : ngày 25/07/2025
* **Thời gian vấn đáp đồ án cuối kỳ**
* Vấn đáp vào ngày 27/7/2025.
* Thời điểm bắt đầu : 8h bắt đầu
* **Hình thức vấn đáp**
* Vấn đáp nhóm: các nhóm được vấn đáp trực tiếp bằng slides + notebooks.
* Vấn đáp cá nhân: Hỏi đáp kiến thức các buổi học.
* **Minh chứng cần nộp**
* **Video trình bày:** [nhóm]-[id học viên].mp4
* **Báo cáo:** [nhóm]-[id học viên].pdf hoặc [nhóm]-[id học viên].docx (phải có prompt + responses của AI)
* **Slide:** [nhóm]-[id học viên].pdf hoặc [nhóm]-[id học viên].pptx
* **Notebook:** [nhóm]-[id học viên].ipynb
* **Dữ liệu:** [nhóm]-[id học viên].xlsx
* **Thư mục ứng dụng**
## IV. Quản lý dự án
* GG Drive: [link here](https://drive.google.com/drive/folders/1oyUwp31QkCl0z3t0l3Ua4GbochOzat45?usp=sharing)
* Github: [link here](https://github.com/PhuocPhat1005/Advanced_Data_Analyst.git)
* Report Latex: [link here](https://www.overleaf.com/read/kjsbgyvmgnrs#5bf10c)
* Slides: [link here](https://www.canva.com/design/DAGstxf7M1s/D0ZwVKQc9viE0fB4Ww11qA/edit?utm_content=DAGstxf7M1s&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton)
* Video: [link here]
## V. Phân công công việc
| MSHV | Họ và Tên | Công việc | Mức độ |
|:--------:|:--------------:| ---------------------------------- |:-------:|
| 22127322 | Lê Phước Phát | Backend Developer + AI Engineer | $100\%$ |
| 22127342 | Bùi Minh Quân | Frontend Developer + Data Engineer | $100\%$ |
| 24C12006 | Phạm Phong Hào | Data Analyst | $100\%$ |
| 24C11031 | Lê Bảo Tuân | Backend Developer | $100\%$ |
## VI. Mục tiêu đồ án
### Mức độ dễ
* Dựng dashboard -> Phân tích mô tả (descriptive analysis) (đủ)
* Tìm nguyên nhân của một hiện tượng -> Root cause, Chẩn đoán (tùy)
### Mức độ trung bình
* Dự đoán một outcome -> ML, DS (classification, clustering) -> dashboard (kiếm 1, 2 bài)
### Mức độ Khó
* Chỉ thị
* Ex: LLMs, prompt = "Tôi cần một job tầm 20-35 tr" -> model -> chỉ thị : gợi ý job nào (nên có một tính năng)
* Ex: Recommendation system
### Yêu cầu bắt buộc
* Yêu cầu Web = dashboard + phần chỉ thị trên web
* Phân tích tình hình:
* Tình hình Trưng bày chết
* Báo cáo doanh thu:
* Drill down theo thời gian: Năm, Tháng, Quý
* Drill down theo Category
* Báo cáo tình hình phản hồi của khách hàng
* Tình hình hoạt động chung của mảng thời trang trên Tiki
* Truy tìm nguyên nhân : Root Cause Analysis (chọn 1 trong 2)
* Nguyên nhân của hiện tượng trưng bày chết, so sánh cùng mức (range giá, cùng loại, cùng thời điểm)
* Nguyên nhân của review kém (1 và 2), căn cứ vào dữ liệu
* Gợi ý sản phẩm theo nội dung (Content - based Filtering)
* (ẩn) tiền xử lý description $\to$ RoBerta + DBSCAN
* (ẩn) Tích hợp thông tin khác (rating, recency, category): hstack
* (ẨN) Chạy mô hình
* Mỗi sản phẩm sẽ gợi ý 20 sản phẩm khác: đưa ra hàm mapping
## VII. Quy trình làm đồ án
### 1. Tìm Kiếm & xử lý dữ liệu
Chọn Dataset -> phân tích dữ liệu liên quan -> module -> pypi -> pip install module_team_10
### 2. Phân tích dữ liệu
* **Products.csv:** File dữ liệu chung
* **Products_Timeline.csv:** Dữ liệu phân tích chung cho products theo dòng thời gian, bao gồm các đầu phân tích:
Gom nhóm theo Category và ngày, tháng, năm, quan sát số lượng (ngày tháng năm là mình chọn chế độ)
Gom nhóm theo Seller và ngày tháng, năm quan sát số lượng (ngày tháng năm là mình chọn chế độ)
Gom nhóm theo Product Source và ngày, tháng, năm quan sát số lượng (ngày tháng năm là mình chọn chế độ)
* **Products_Revenue.csv:** dữ liệu ghi nhận doanh thu cho products:
Báo cáo tổng, theo Category, theo Product Source, theo Seller (text, bar chart)
Báo cáo theo dòng thời gian cho tổng, theo Category, theo Product Source, theo Seller (line chart, cho chọn để dễ so sánh trong nội bộ từng biến)
* **Products_Rating.csv:** dữ liệu ghi nhận review và rating của khách hàng theo từng sản phẩm, phần trực quan bao gồm:
Báo cáo số lượng sản phẩm có review (cột is_reviewed), pie chart
Báo cáo chỉ số rating trung bình theo từng sản phẩm, theo Seller, này hiện số cho dễ.
Quan sát rating trung bình sản phẩm theo tháng, năm của Seller, lưu ý review_count làm trọng số
* **Products_DisplayStatus.csv:** dữ liệu báo cáo phần sản phẩm trưng bày chết, phần này có gộp chung với phần Revenue
Báo cáo tổng, theo Category, theo Product Source, theo Seller
Báo cáo theo thời gian của Seller line chart, cho phép chọn Seller hiển thị
### 3. Trực quan hóa dữ liệu
Điền nội dung ở đây ...
### 4. Áp dụng mô hình machine learning
Điền nội dung ở đây ...
### 5. Áp dụng mô hình LLMs
Điền nội dung ở đây ...
### 6. Xây dựng ứng dụng end-to-end
Điền nội dung ở đây ...
## VIII. Thông báo vấn đáp 27/7
### 1. Quy định
* Mang theo một trong các giấy tờ tùy thân (Căn cước hoặc Thẻ Học Viên / Sinh Viên)
* Mỗi nhóm phải chuẩn bị một máy tính xách tay có internet
* Không được sử dụng điện thoại trong lúc vấn đáp
* Sử dụng máy tính vào google meet khi được cho phép, tắt web cam, microphone
* Mỗi nhóm chỉ có 30 phút thời gian vấn đáp. Trong khi vấn đáp có thể bị ngắt nếu như quá thời gian.
### 2. Các bước làm việc
* Được gọi vào phòng vấn đáp qua Zalo
* Trình giấy tờ và giới thiệu nhóm
* Chia sẻ màn hình và trình bàyđồ án tối đa 15p
* Trả lời câu hỏi chung liên quan đến đồ án
* Trả lời câu hỏi cá nhân: mỗi em có 2 phút trả lời câu hỏi
* Phải ký tên trước khi ra về. Lưu ý: không ký tên sẽ là không thi và bị 0đ.
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