---
tags: NLP
---
* LM: dự đoán từ tiếp theo
* Mở rộng: -> đoán từ kế tiếp tới khi nội dung đầy đủ
* Pp: tính xs có điều kiện P(w_n | w_{n-1},… w_1)
* 2 cách tiếp cận
- Thống kế đơn giản: n-gram based model (ngữ cảnh ngắn)
- Deep learning: LSTM, GPT,…
* LLM:
- dataset lớn
- model lớn (số parameters lớn)
- cost lớn
* Hầu hết các mô hình LLM dựa trên Transformer
* Các bước xây dựng mô hình
- Xây dựng pre-trained model (huấn luyện từ văn bản đơn giản)
- Fine-tuned model (thường huấn luyện từ *labelled* dataset)
* Train fine-tuned model
* Step 1: Supervised learning
* Xây dựng dữ liệu hướng dẫn
* Instruction and expected output
* Thủ công, tốn kém chi phí cho chuyên gia từng lĩnh vực
* Step 2 & 3: Reinforcement learning
* Step 2: Xây dựng mô hình chấm điểm đánh giá phản hồi của mô hình
* Step 3: dùng mô hình chấm điểm để cập nhật trọng số của mô hình
* self-instruct
* Chọn lựa tham số của mô hình và lượng tokens (dữ liệu)
* QLoRa
### khai thác LLM
* arvis: đề xuất bài khoa học.
* notion:
* skyper:
### làm sao để viết prompt để tối ưu -> tìm hiểu nghề nghiệp prompt engineering
## FOR CHATBOTs
### Cách tiếp cận truyền thống
* Phân loại ý định
* quản lý hội thoại
* tìm kiếm thông tin (trong cơ sở dữ liệu)
* ...
### Cách tiếo cận Langchain Approach (số hóa dữ liệu)
* Giai đoạn chuẩn bị
* thu thập tài liệu
* chuyển tài liệu thành vectỏ
* Giai đoạn sử dụng
* Chuyển query thành vectỏ
* tìm kiếm các tài liệu liên quan
* Gọi API tới LLM để lấy câu trả lời
# MT & Transformer
## MT
* Encoder-Decoder
* RNN
* Problem: (same as RNN prob)
* Fix: cơ chế attention
* Attention:
* Lấy info của source, đưa qua softmax, các thông tin không cần thiết (tại vị trí của decoder) giảm đi độ quan trọng => không bị tràn thông tin
* Input: all encoder states w 1 decoder state
* Cons: slow because of recurrent (tuần tự), ko xử lí // được
## Transformer
* Pros: Faster learning
* All using attention (encoder, decoder, en-de interaction)
* Structure:
* Query: encode "What am I looking for"
* Key: encode "What can I offer"
* Value: encode "What I actually offer during attention"
* Self attention
* Each word is converted into key and query vector and used to create vectors that better understand context
* Cross attention
*
* Masked self-attention: thời điểm chưa có thông tin sẽ mask các previous words lại
* Feed-forward blocks*
* Residual connections*
* Positional encoding: vì xử lý các từ cùng lúc nên cần phải biết vị trí của các từ, lớp này encode thông tin dưới dạng vector
### Encoder-only
BERT
Masked LM
### Decoder-only
GPT-2, GPT-3,...
Causal LM: phát sinh từ
# Multi-modal comprehension models
MMC Model (img, word, audio)
## Visual question answering
* VQA aims to predict a correct ans for a given ques with the visual content of a given img
## Challenges
* Poor/low quality img
* Feature exatraction by using deep learning
## VQA model
* Combine LSTM and CN
## Multi-modal Fusion
* Kết hợp đặc trưng: kết nối vector dựa trên các hàm nhân, cộng vector...
* Attention: chú ý đặc trưng nào quan trọng nhất
* Matrix factorize
## Vietnamese VQA (ViVQA)
* Challenges:
* Data limitation
* Ambiguity in Vietnamese
* Dùng thông tin 1 phần của đối tượng để xem feature nào của đối tượng còn lại quan trọng
* Visual-guided attention
* Textual-guided attention
* Using img captioning dataset for generation tasks improve accuracy