# 112-2胡老師上課筆記 - LLM part 3 [https://github.com/joshhu/mustllm2024](https://github.com/joshhu/mustllm2024) ## 0501_Behind_the_pipeline - AutoTokenizer:只要提供當初訓練的模型,Huggingface會自己找出tokenizer - AutoModel: - AutoModelForSequenceClassification:多了一個head來做分類問題  ## 0502_Models - model由 config.json檔案(設定檔),與model.safetensors(參數檔)構成 - pretrain model就是透過置換兩個檔案  ## 0503_Tokenizers - Tokenizers:拆字。英文可用空格拆字,中文不行 - tokenizer由設定檔,跟vocab.txt(字典檔)構成  ## 0504_Multiple_sequences - 所有的輸入必須要是多句(單一句會有錯誤訊息) - tokenizer.pad_token_id:用來補齊長度空白(padding)字元。 - padding token會影響訓練結果,所以要用attension_mask告知padding字元部餐與attention訓練  ## 0505_Summary - 範例總集合 - 是否要truncate句子  - 截斷輸入句子  - 傳回不同種類的向量(tensor)  ---
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up