ARM LLama.cpp - HackMD

以下是重新整理後的安裝順序，分別整理各步驟以便更易於理解： --- # 在 Arm 架構伺服器上部署 Llama 3.1-8B 聊天機器人 ## 1. 環境準備 1. **伺服器要求**： - 確保伺服器運行 Ubuntu 24.04 LTS。 - 配置需求： - 至少 4 個核心 - 8GB RAM - 32GB 硬碟空間 --- ## 2. 安裝必要的系統套件 1. 更新系統並安裝所需工具： ```bash sudo apt update sudo apt install -y make cmake gcc g++ build-essential python-is-python3 python3-pip python3-venv ``` 2. **安裝 CMake (若系統提供的版本不足)**： - 下載 CMake 源碼： ```bash sudo apt update sudo apt install cmake ``` - 驗證安裝是否成功： ```bash cmake --version ``` --- ## 3. 下載並編譯 `llama.cpp` 1. 下載 `llama.cpp` 原始碼： ```bash git clone https://github.com/ggerganov/llama.cpp cd llama.cpp ``` 2. 建立建構目錄並配置編譯選項： ``` cd llama.cpp mkdir build cd build cmake .. -DCMAKE_CXX_FLAGS="-mcpu=native" -DCMAKE_C_FLAGS="-mcpu=native" cmake --build . -v --config Release -j `nproc` ``` 3. 驗證編譯是否成功： ```bash cd bin ./llama-cli -h ``` --- ## 4. 安裝 Hugging Face Hub 並下載模型 1. 建立 Python 虛擬環境並啟用： ```bash python -m venv venv source venv/bin/activate ``` 2. 安裝 Hugging Face CLI 工具： ```bash pip install huggingface_hub ``` 3. 下載量化後的 Llama 3.1-8B 模型： ```bash huggingface-cli download cognitivecomputations/dolphin-2.9.4-llama3.1-8b-gguf dolphin-2.9.4-llama3.1-8b-Q4_0.gguf --local-dir . --local-dir-use-symlinks False ``` --- ## 5. 執行聊天機器人 1. 進入 `llama.cpp` 的執行目錄： ```bash cd llama.cpp/bin ``` 2. 使用以下命令啟動模型並運行聊天機器人： ```bash ./llama-cli -m dolphin-2.9.4-llama3.1-8b-Q4_0.gguf -p "請輸入您的提示語句：" -n 512 -t 64 ``` ---