---
tags: COTAI LHP
---
# Lecture Notes ML4AI 2021
## Session 1 -- Linear Predictors
## Session 2 -- Feature Extraction
+ Phần lí thuyết:
+ 5 phương pháp chiết xuất đặc trưng gồm:
+ Hand-crafted features: là phương pháp lấy toàn bộ dữ liệu gốc làm các đặc trưng, ví dụ với một bức ảnh là toàn bộ các điểm pixel.
+ Sparse coding: là phướng pháp lấy các điểm rời rạc trong input so sánh với các góc cạnh rời rạc của bộ dữ liệu cơ sở từ đó cho ta đặc trưng là sự giống nhau của từng góc cạnh rời rạc với điểm của input (từ $0.0$ dến $1.0$)
+ PCA: ta xác định các vector đặc trưng bằng cách giảm số chiều của vector input thông qua việc chỉ giữ lại những vector chứa nhiều thông tin quan trọng
+ Convolution kernels: là phương pháp dùng một ma trận chập trượt qua dữ liệu input (bằng cách nhân vectoc) cho ta output là vector đặc trưng
+ Word2vec: ta so sánh mức tương quan giữ một từ input và một bộ các từ thông qua đó cho ta một vector đặc trưng.
+ Một số cơ sở lý thuyết:
+ Trong PCA: ta output là bức ảnh được tính bằng cách lấy trung bình công với các đặc trưng quan trong. Ví dụ như trong Cat creator
+ Chuyển các d-tensor thành thành vector trước khi đưa vào các thuật toán (Flatten)
+ Phần Coding:
+ Các bước thực hiên PCA bằng Sklearn: Khởi tạo StandardScaler -> Áp dụng StandardScaler -> khởi tạo PCA -> Áp dụng PCA
+ Thực hành PCA với word embedding và face embedding để giảm chiều dữ liệu
+ Tính cosine_similarity giữa các từ, các khuôn mặt
+ Vẽ heatmap