Hanbook for Class: Machine Learning for Big Datasets 2023
*Login with Github account to edit*
# 2023 ML4BD Class
# Machine Learning For Big Data
## Yêu cầu:
1. Có mặt đúng giờ
2. Tích cực tham gia thảo luận trong lớp; Không đọc báo, xem mạng xã hội, chat chit, phim v.v.
3. Qua mỗi bài giảng cần tổng kết (Reflect, Reflection):
a. Phát triển ý tưởng ĐMST từ nội dung bài học?
b. Những câu hỏi tồn đọng từ bài học?
4. Làm bài tập nếu có. Trả lời câu hỏi trong Google Form đầy đủ.
5. Trong buổi học tập trung, BẬT Webcam.
6. Nếu vắng mặt, cố gắng xem lại bài giảng qua slide, slack và (nếu có ) video.
7. Có thể học online ở nhà, nhưng cần ở chỗ yên tĩnh, tránh tiếng ồn xung quanh. ==> Cần điều chỉnh lại.
8. (Khuyến khích): Đọc và sử dụng tiếng Anh, tìm kiếm ý tưởng đổi mới sáng tạo. Học đi đôi với Hành.
## Introduction
- Why Big Data?
- Practical matters
- Grouping:
- Mục đích:
- Để làm đồ án môn học, báo cáo và nộp cho trường vào cuối môn học.
- Để hướng dẫn tốt nghiệp cho nhóm nào thích hợp. Thầy nhận 2 nhóm.
- Thầy có cty riêng, có thể nhận hướng dẫn nhóm thực tập. Nếu thích hợp có thể đi đến nhận vào làm việc.
- Group 1:
1. - Mai Đăng Lanh
1. - Hoàng Minh Thắng
1. - Phan Quốc Đạt
1. - Hồ Văn Thanh Phương
1. - Lưu Tấn Đạt
- Group 2:
1. - Đỗ Mạnh Trường
1. - Cao Trọng Nghĩa
1. - Nguyễn Công Duy
1. - Hà Võ Gia Kính
1. - Thái Tiến Minh Nhật
1. - Đoàn Nhật Lâm Phong
- Group 3:
1. - Trần Nhật Huy
1. - Nguyễn Phước Mạnh
1. - Trịnh Ngọc Khiêm
1. - Nguyễn Phan Tài Năng Lực
1. - Lê Vĩnh Trung
- Group 4:
1. - Võ Đức Nhân
1. - Nguyễn Tấn Tài
1. - Nguyễn Hữu Thịnh
1. - Nguyễn Thanh Hưng
1. - Nguyễn Thị Ánh Hồng
- Group 5:
1. - Nguyễn Hà Tùng
1. - Lê Thị Ngọc Ánh
1. - Võ Hoàng Thuận
1. - Nguyễn Công Quý
- Group 6:
1. - Phan Văn Kiên
2. - Lê Thế Lực
3. - Ngô Văn Thanh Hòa
4. - Nguyễn Phạm Thanh Trọng
5. - Trần Đức Hoàng
- Output requirements
### Lý do muốn tham gia lớp học
( Mỗi người viết ngắn gọn lý do muốn học môn này, hay là trông đợi sẽ học tập gì khi tham gia môn này.)
- Đỗ Mạnh Trường: có được nền tảng vững chắc để xin vị trí thực tập
- Cao Trọng Nghĩa: mở mang kiến thức
- Nguyễn Công Duy: biết thêm nhiều kiến thức thú vị
- Nguyễn Hà Tùng: học kiến thức mới về bigdata
- Phan Quốc Đạt: học thêm kiến thức về dữ liệu lớn
- Phan Văn Kiên: Hiểu thêm kiến thức để đi thực tập.
### Nguồn cảm hứng và ý tưởng (Inspirations)
(Cảm hứng, định hướng hay, những project hay mà các em quan tâm )
Những ứng dụng, những ý tưởng mình có thể áp dụng ML và Big Data để giải quyết bài toán.
Cái gì hay, thú vị, bổ ích có thể ứng dụng ML và BD để giải ?
1. Quan tâm đến big data
1.
3. Quan tâm đến Machine Learning
### Ý tưởng cho bài thực hành (có thể cả tốt nghiệp)
## Sách tham khảo
(Update sau với thứ thự ưu tiên các cuốn sách)

1. Mastering Large Datasets with Python
2. Deep Learning with Pytorch
3. Data Analysis with Python and PySpark
4. Thuật Toán trong Deep Learning (sẽ update tên tiếng Anh sau)
1. Practical Data Science with R (2ed) -> Ngôn ngữ R, dùng nhiều trong Sinh Y, Kinh Tế, Toán Thống Kê
### Giá trị của môn học
1. > - Khóa học mang lại những kiến thức tổng quát một cách trực quan (intuitive) của các vần đề trong deep learning và giới thiệu các notebook, course hay trên coursera.
- Từ khóa học lần này giúp em hiểu cụ thể frameworks hadoop, ... và cách lưu trữ và triển khai. Và hiểu rõ về các mạng RNN và LSTM và giúp em phát triển ra nhiều ỷ tưởng.
# Ôn tập
## Bài 1: Giới thiệu
### Nội dung nổi bật
### Phát triển ý tưởng ĐMST
### Những câu hỏi tồn đọng
## Bài 2: Web scraping, crawling techniques
### Nội dung nổi bật
### Phát triển ý tưởng ĐMST
### Những câu hỏi tồn đọng
### Bài tập (Nộp kết quả ngày 14/9)
#### Nhóm 1:
#### Nhóm 2:
#### Nhóm 3:
#### Nhóm 4:
#### Nhóm 5:
#### Nhóm 6:
### Phát triển ý tưởng ĐMST
### Những câu hỏi tồn đọng
## Bài 3: Giới thiệu CRISP DM, Public Datasets, Kaggle
Giới thiệu nền tảng Kaggle và big datasets
## Bài 4: Hệ khuyến nghị (T Long)
### Nội dung nổi bật
### Phát triển ý tưởng ĐMST
### Những câu hỏi tồn đọng
## Bài 5: Visualization
## Bài 06: Giới thiệu Hadoop
### Nội dung nổi bật
- Hoàng Minh Thắng : Mô hình map reduce, dùng các ngôn ngữ bậc cao để tạo map reduce
- Phan Quốc Đạt: hadoop và các công cụ hoạt đọng cùng, khả năng tạo ra và sử lí map reduce.
-
### Phát triển ý tưởng ĐMST
### Những câu hỏi tồn đọng
- Đỗ Mạnh Trường: Các doanh nghiệp lớn áp dụng hadoop như thế nào cho hiệu quả? ==> MLOps: Hình thành một hệ thống tích hợp liên thông các bộ phận của big data: Từ thu thập, xử lý, phân tích, trình bày (sử dụng).
Trần Nhật Huy : có các công nghệ thay thế cho Hadoop không ? Có: Spark, RAPIDS.
- Cao Trọng Nghĩa: Biết kĩ năng về hadoop có phải là 1 lợi thế so với các lập trình viên khác không? Có, nhưng cần biết thêm những công cụ mới nữa: Spark, Kafka.
- Thái Tiến Minh Nhật: Hadoop có thể được triển khai trên môi trường nào?
## Bài 07: Giới thiệu Spark
### Nội dung nổi bật
- Cấu hình ở máy sử dụng Spark sẽ đòi hỏi RAM lớn
- Ngôn ngũ Scala tích hợp sâu với Spark
- ETL (Extract-Transform-Load): Đầu tiên là trích xuất dữ liệu từ nhiều nguồn sau đó bắt đầu chuyển đổi dữ liệu được trích xuất kia sao cho phù hợp với cơ sở dữ liệu rồi cuối cùng là load vào kho lưu trữ dữ liệu.
- điểm mạnh:
- xử lí được đa tác vụ
- tính tương tác cao hơn
- chia sẻ dữ liệu nhanh hơn giữa các thí nghiệm phân tích(parallel jobs)
- so sánh giữa hive architecture với spark
- Spark nhanh hơn Hadoop là nhờ cái gì?
### Phát triển ý tưởng ĐMST
### Những câu hỏi tồn đọng
==> Thực hành RAPIDS.
## Bài 8: Scalable Computing with HBASE, Dask (UCX)
### Nội dung nổi bật
- HBase chia dữ liệu thành các vùng, sắp xếp theo từ điển
- CRUD: các thao tác khi làm việc với dữ liệu (create, read, update, delete)
### Phát triển ý tưởng ĐMST
### Những câu hỏi tồn đọng
-----
## Bài : Natural language processing (NLP)
### Nội dung nổi bật
### Phát triển ý tưởng ĐMST
### Những câu hỏi tồn đọng
## Bài 8: GAN 1
### Nội dung nổi bật
### Phát triển ý tưởng ĐMST
### Những câu hỏi tồn đọng
## Bài 9: GAN 2
### Nội dung nổi bật
### Phát triển ý tưởng ĐMST
### Những câu hỏi tồn đọng
## Bài 10: Hadoop và Spark (T Long)
### Nội dung nổi bật
### Phát triển ý tưởng ĐMST
### Những câu hỏi tồn đọng
## Bài 11: AI in genomics and medical imaging
### Phát triển ý tưởng ĐMST
### Những câu hỏi tồn đọng
## Sinh viên báo cáo
Tối đa: 5 sv một nhóm. Nhóm 5 người hoặc 6 người là tốt nhất.
### Nhóm 1: Tên đề tài
(Tên thành viên trong nhóm) Bình, An, vv..
### Nhóm 2:
### Nhóm 3:
### Nhóm 4:
### Nhóm 5:
### Nhóm 6: Khuyến nghị việc làm cho ứng viên
### Nội dung nổi bật
### Phát triển ý tưởng ĐMST
### Những câu hỏi tồn đọng
## Giao lưu kết nối thực tiễn
### TS Hoàng Hà
### CEO StarGlobal3D Trần Duy Hào
### ???
# Đánh giá chung cho môn học
(Các em cho biết đánh giá, tổng kết về từng phần nhé)
## Tính mới mẻ?
## Độ khó
## Mức độ toại nguyện
## Những điểm cần cải thiện
## Theo em thì để môn học này trở nên hoàn hảo theo ý em, thì nó còn thiếu cái gì?
# Kiểm tra và đầu ra
## Format môn thi (2/3 thầy Vang, 1/3 thầy Long)
- 30 câu trắc nghiệm
- 10 câu trả lời ngắn
- 1 bài luận
## Sản phẩm đầu ra:
- Nộp bản in của Đồ Án Môn Học (theo yêu cầu từ Khoa - Thầy Long)
- Chứng chỉ môn RAPID của NVIDIA (Phụ thuộc thầy có xin tài trợ của họ được hay không)