# LLM Inference ## Week 15 ---- ## Introduction + Inference 推論 + 模型進行計算的動作 + 對語言模型而言就是生成下一個字 ---- ## Terminology + 常與推論相提並論的是 Training 訓練 + 進行數次推論完成一段文字的生成稱為 Generation ---- ## Architecture + Transformers 原始架構在記憶體與運算量的消耗上都過於巨大 + 大家開始改造 Transformers 的架構來提昇速度降低資源消耗 ---- ## Framework + [HF: HuggingFace Transformers](https://github.com/huggingface/transformers) + 著重在訓練階段,推論速度極慢 + [TGI: Text Generation Inference](https://github.com/huggingface/text-generation-inference) + 以 HF 為基底的推論優化 + [llama.cpp](https://github.com/ggerganov/llama.cpp) + 著重在單輸入推論與較低的記憶體消耗 + [vLLM](https://github.com/vllm-project/vllm) + 著重在平行推論的優化 ---- ### 速度用 Demo 的最有感覺
{"title":"Week 15 - LLM Inference","description":"地獄貓旅行團第 21 週心得分享","slideOptions":"{\"transition\":\"slide\"}","contributors":"[{\"id\":\"c7cbb212-2c41-4dfa-8d85-f8e7fa769bf1\",\"add\":1190,\"del\":476}]"}
    266 views
   Owned this note