112-2胡老師上課筆記 - LLM part 3

# 112-2胡老師上課筆記 - LLM part 3 [https://github.com/joshhu/mustllm2024](https://github.com/joshhu/mustllm2024) ## 0501_Behind_the_pipeline - AutoTokenizer：只要提供當初訓練的模型，Huggingface會自己找出tokenizer - AutoModel： - AutoModelForSequenceClassification：多了一個head來做分類問題 ![image](https://hackmd.io/_uploads/rkzshaO-C.png) ## 0502_Models - model由 config.json檔案(設定檔)，與model.safetensors(參數檔)構成 - pretrain model就是透過置換兩個檔案 ![image](https://hackmd.io/_uploads/BJ1QrA_-0.png) ## 0503_Tokenizers - Tokenizers：拆字。英文可用空格拆字，中文不行 - tokenizer由設定檔，跟vocab.txt(字典檔)構成 ![image](https://hackmd.io/_uploads/SkX7PC_ZA.png) ## 0504_Multiple_sequences - 所有的輸入必須要是多句(單一句會有錯誤訊息) - tokenizer.pad_token_id：用來補齊長度空白(padding)字元。 - padding token會影響訓練結果，所以要用attension_mask告知padding字元部餐與attention訓練 ![image](https://hackmd.io/_uploads/SymY6ROZR.png) ## 0505_Summary - 範例總集合 - 是否要truncate句子 ![image](https://hackmd.io/_uploads/H1zbtgGzC.png) - 截斷輸入句子 ![image](https://hackmd.io/_uploads/H1EHKeGfC.png) - 傳回不同種類的向量(tensor) ![image](https://hackmd.io/_uploads/r1bYFlMM0.png) ---