--- tags: NLP --- * LM: dự đoán từ tiếp theo * Mở rộng: -> đoán từ kế tiếp tới khi nội dung đầy đủ * Pp: tính xs có điều kiện P(w_n | w_{n-1},… w_1) * 2 cách tiếp cận - Thống kế đơn giản: n-gram based model (ngữ cảnh ngắn) - Deep learning: LSTM, GPT,… * LLM: - dataset lớn - model lớn (số parameters lớn) - cost lớn * Hầu hết các mô hình LLM dựa trên Transformer * Các bước xây dựng mô hình - Xây dựng pre-trained model (huấn luyện từ văn bản đơn giản) - Fine-tuned model (thường huấn luyện từ *labelled* dataset) * Train fine-tuned model * Step 1: Supervised learning * Xây dựng dữ liệu hướng dẫn * Instruction and expected output * Thủ công, tốn kém chi phí cho chuyên gia từng lĩnh vực * Step 2 & 3: Reinforcement learning * Step 2: Xây dựng mô hình chấm điểm đánh giá phản hồi của mô hình * Step 3: dùng mô hình chấm điểm để cập nhật trọng số của mô hình * self-instruct * Chọn lựa tham số của mô hình và lượng tokens (dữ liệu) * QLoRa ### khai thác LLM * arvis: đề xuất bài khoa học. * notion: * skyper: ### làm sao để viết prompt để tối ưu -> tìm hiểu nghề nghiệp prompt engineering ## FOR CHATBOTs ### Cách tiếp cận truyền thống * Phân loại ý định * quản lý hội thoại * tìm kiếm thông tin (trong cơ sở dữ liệu) * ... ### Cách tiếo cận Langchain Approach (số hóa dữ liệu) * Giai đoạn chuẩn bị * thu thập tài liệu * chuyển tài liệu thành vectỏ * Giai đoạn sử dụng * Chuyển query thành vectỏ * tìm kiếm các tài liệu liên quan * Gọi API tới LLM để lấy câu trả lời # MT & Transformer ## MT * Encoder-Decoder * RNN * Problem: (same as RNN prob) * Fix: cơ chế attention * Attention: * Lấy info của source, đưa qua softmax, các thông tin không cần thiết (tại vị trí của decoder) giảm đi độ quan trọng => không bị tràn thông tin * Input: all encoder states w 1 decoder state * Cons: slow because of recurrent (tuần tự), ko xử lí // được ## Transformer * Pros: Faster learning * All using attention (encoder, decoder, en-de interaction) * Structure: * Query: encode "What am I looking for" * Key: encode "What can I offer" * Value: encode "What I actually offer during attention" * Self attention * Each word is converted into key and query vector and used to create vectors that better understand context * Cross attention * * Masked self-attention: thời điểm chưa có thông tin sẽ mask các previous words lại * Feed-forward blocks* * Residual connections* * Positional encoding: vì xử lý các từ cùng lúc nên cần phải biết vị trí của các từ, lớp này encode thông tin dưới dạng vector ### Encoder-only BERT Masked LM ### Decoder-only GPT-2, GPT-3,... Causal LM: phát sinh từ # Multi-modal comprehension models MMC Model (img, word, audio) ## Visual question answering * VQA aims to predict a correct ans for a given ques with the visual content of a given img ## Challenges * Poor/low quality img * Feature exatraction by using deep learning ## VQA model * Combine LSTM and CN ## Multi-modal Fusion * Kết hợp đặc trưng: kết nối vector dựa trên các hàm nhân, cộng vector... * Attention: chú ý đặc trưng nào quan trọng nhất * Matrix factorize ## Vietnamese VQA (ViVQA) * Challenges: * Data limitation * Ambiguity in Vietnamese * Dùng thông tin 1 phần của đối tượng để xem feature nào của đối tượng còn lại quan trọng * Visual-guided attention * Textual-guided attention * Using img captioning dataset for generation tasks improve accuracy