# SENTIMENT ANALYSIS > Capstone project for Machine Learning for AI course by CoTAI, 9/2023. Instructors: Hưng Ngô, Nguyễn Việt Hà & Lê Nguyễn Thanh Huy (AI engineers at CoTAI) ## **Members:** ### Le, Nam ## Góc giảng viên ### Feedback Chủ đề này tương đối đơn giản nếu chỉ làm theo hướng huấn luyện mô hình. Để gây được ấn tượng, ta cần thử nghiệm nhiều phương pháp khác nhau. Các kĩ thuật về NLP sẽ được học dần ở các buổi sau, bạn có thể áp dụng ngay để làm project này. ### Goals - Tìm hiểu và áp dụng về Active Learning Loop - Phân tích và loại bỏ dữ liệu sai lệch trong bộ dataset về "Bình luận trên Shopee" (chuyển thành nhãn "không liên quan") - Huấn luyện và so sánh kết quả của nhiều mô hình khác nhau - MLP + các cách tiền xử lý cơ bản - SVM + các cách tiền xử lý cơ bản - LSTM + các cách tiền xử lý cơ bản - PhoBertV2 - Zero-shot Multilingual Text Classification - LLM prompting: zero-shot, few-shot - Sử dụng thư viện `EdgeGPT` (free) trên Python, tuy nhiên thư viện này không còn được maintain nữa nên không sure có thể sử dụng được hay không? Nếu ko sử dụng được thì thành optional vì tốn tiền - Nên tranh thủ làm bước này càng sớm càng tốt. - Finetuning LLM (optional) ### Tasks - Đọc về khái niệm Active Learning - Phân tích dữ liệu cho bộ [Bình luận Shopee](https://drive.google.com/file/d/1OKiltuiixIq4ftu8ZreGd1g2NO4Ib7Ef/view?usp=drive_link) - Nếu EdgeGPT còn sử dụng được hoặc tự bỏ tiền túi để sử dụng OpenAI API: Đọc và tìm hiểu về khái niệm Prompt trong LLM -> Suy nghĩ cách áp dụng và cách báo cáo kết quả trên bộ dữ liệu - Học cách sử dụng mô hình của thư viện `transformers` -> Tìm kiếm mô hình `Zero-shot Multilingual Text Classification`, sử dụng và báo cáo kết quả trên bộ dữ liệu - Active Learning Loop \+ Error Analysis - Report kết quả sử dụng LLM Prompting - Report kết quả sau khi học xong bài 5-6 - Report kết quả sau khi học xong bài 9 - Report kết quả PhoBertV2 - Report kết quả Finetuning LLM (optional) ## **Submissions:** >* Link >* GitHub repo >* Presentation slide >* Demo App >* Video Demo ## **Project Description** The project final goal is to create a natural language processing (NLP) model inside review function that have the ability to analyse customer sentiment and classify it into a range from very negative to very positive and could filter out the question of the customer. Dataset ## **Checkpoint 9/10/2023** #### Things to do in this week - [ ] Find a proper dataset - [ ] Learn ways to preprocessing data