以下是重新整理後的安裝順序,分別整理各步驟以便更易於理解:
---
# 在 Arm 架構伺服器上部署 Llama 3.1-8B 聊天機器人
## 1. 環境準備
1. **伺服器要求**:
- 確保伺服器運行 Ubuntu 24.04 LTS。
- 配置需求:
- 至少 4 個核心
- 8GB RAM
- 32GB 硬碟空間
---
## 2. 安裝必要的系統套件
1. 更新系統並安裝所需工具:
```bash
sudo apt update
sudo apt install -y make cmake gcc g++ build-essential python-is-python3 python3-pip python3-venv
```
2. **安裝 CMake (若系統提供的版本不足)**:
- 下載 CMake 源碼:
```bash
sudo apt update
sudo apt install cmake
```
- 驗證安裝是否成功:
```bash
cmake --version
```
---
## 3. 下載並編譯 `llama.cpp`
1. 下載 `llama.cpp` 原始碼:
```bash
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
```
2. 建立建構目錄並配置編譯選項:
```
cd llama.cpp
mkdir build
cd build
cmake .. -DCMAKE_CXX_FLAGS="-mcpu=native" -DCMAKE_C_FLAGS="-mcpu=native"
cmake --build . -v --config Release -j `nproc`
```
3. 驗證編譯是否成功:
```bash
cd bin
./llama-cli -h
```
---
## 4. 安裝 Hugging Face Hub 並下載模型
1. 建立 Python 虛擬環境並啟用:
```bash
python -m venv venv
source venv/bin/activate
```
2. 安裝 Hugging Face CLI 工具:
```bash
pip install huggingface_hub
```
3. 下載量化後的 Llama 3.1-8B 模型:
```bash
huggingface-cli download cognitivecomputations/dolphin-2.9.4-llama3.1-8b-gguf dolphin-2.9.4-llama3.1-8b-Q4_0.gguf --local-dir . --local-dir-use-symlinks False
```
---
## 5. 執行聊天機器人
1. 進入 `llama.cpp` 的執行目錄:
```bash
cd llama.cpp/bin
```
2. 使用以下命令啟動模型並運行聊天機器人:
```bash
./llama-cli -m dolphin-2.9.4-llama3.1-8b-Q4_0.gguf -p "請輸入您的提示語句:" -n 512 -t 64
```
---