# LLM Inference
## Week 15
----
## Introduction
+ Inference 推論
+ 模型進行計算的動作
+ 對語言模型而言就是生成下一個字
----
## Terminology
+ 常與推論相提並論的是 Training 訓練
+ 進行數次推論完成一段文字的生成稱為 Generation
----
## Architecture
+ Transformers 原始架構在記憶體與運算量的消耗上都過於巨大
+ 大家開始改造 Transformers 的架構來提昇速度降低資源消耗
----
## Framework
+ [HF: HuggingFace Transformers](https://github.com/huggingface/transformers)
+ 著重在訓練階段,推論速度極慢
+ [TGI: Text Generation Inference](https://github.com/huggingface/text-generation-inference)
+ 以 HF 為基底的推論優化
+ [llama.cpp](https://github.com/ggerganov/llama.cpp)
+ 著重在單輸入推論與較低的記憶體消耗
+ [vLLM](https://github.com/vllm-project/vllm)
+ 著重在平行推論的優化
----
### 速度用 Demo 的最有感覺
{"title":"Week 15 - LLM Inference","description":"地獄貓旅行團第 21 週心得分享","slideOptions":"{\"transition\":\"slide\"}","contributors":"[{\"id\":\"c7cbb212-2c41-4dfa-8d85-f8e7fa769bf1\",\"add\":1190,\"del\":476}]"}