保姆级教程：在Ubuntu 22.04上从源码编译llama.cpp，并成功运行中文模型

weixin_30655569

317人浏览 · 2026-06-01 09:58:03

weixin_30655569 · 2026-06-01 09:58:03 发布

保姆级教程：在Ubuntu 22.04上从源码编译llama.cpp并运行中文模型全流程

在本地机器上部署和运行大型语言模型（LLM）已经成为开发者探索AI能力的热门方式。llama.cpp作为一款高效的C++实现，能够在普通硬件上流畅运行经过优化的模型版本。本文将手把手带你完成从环境准备到中文模型对话测试的全过程，特别针对Ubuntu 22.04系统进行了优化和问题排查。

1. 环境准备与依赖安装

在开始编译llama.cpp之前，我们需要确保系统具备所有必要的构建工具和依赖项。Ubuntu 22.04默认已经包含了许多基础开发工具，但仍需补充一些特定组件。

首先更新系统软件包并安装基础编译工具链：

sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential cmake git wget

llama.cpp的核心依赖包括：

BLAS库 ：用于加速矩阵运算（推荐使用OpenBLAS）
Python环境 ：用于模型转换脚本
其他运行时库 ：如libpthread、libcurl等

安装这些依赖的命令如下：

sudo apt install -y libopenblas-dev libpthread-stubs0-dev python3-pip

常见问题排查 ：如果遇到 libpthread.so.0 缺失错误，可尝试：

sudo apt install -y libpthread-stubs0-dev

2. 获取源码与编译llama.cpp

llama.cpp的GitHub仓库包含了完整的源代码和构建系统。我们建议创建一个专门的工作目录来管理相关文件：

mkdir ~/llama_workspace && cd ~/llama_workspace
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

使用CMake构建系统可以确保所有依赖被正确识别和处理。现代CMake支持多种构建配置方式，我们推荐使用Release模式以获得最佳性能：

mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release
cmake --build . --config Release --parallel $(nproc)

编译完成后，可以将生成的可执行文件安装到系统路径，或者直接使用build目录下的二进制文件：

# 可选安装到系统路径
sudo make install

# 或者添加到当前用户的PATH环境变量
echo 'export PATH="$HOME/llama_workspace/llama.cpp/build/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc

性能优化提示 ：对于支持AVX2或更高指令集的CPU，可以在CMake配置时启用相应优化：

cmake .. -DCMAKE_BUILD_TYPE=Release -DLLAMA_NATIVE=ON

3. 获取与转换中文模型

llama.cpp使用GGUF格式的模型文件，这是一种专为高效推理设计的二进制格式。我们需要先获取原始模型，然后使用提供的转换脚本将其转换为GGUF格式。

首先安装模型转换所需的Python依赖：

pip install sentencepiece numpy

中文模型通常以PyTorch格式发布。假设我们已经下载了名为 chinese-llama-7b 的模型到 ~/models 目录，转换命令如下：

python convert.py ~/models/chinese-llama-7b --outtype f16

这个过程会生成GGUF格式的模型文件。为了进一步优化推理速度，可以量化模型到更小的精度：

./quantize ~/models/chinese-llama-7b/ggml-model-f16.gguf ~/models/chinese-llama-7b/ggml-model-q4_0.gguf q4_0

量化级别对比：

量化类型	文件大小	内存占用	质量保持
F16	13GB	13GB	100%
Q8_0	7GB	7GB	99%
Q5_0	5GB	5GB	98%
Q4_0	4GB	4GB	95%

4. 运行与测试中文模型

完成所有准备工作后，现在可以启动模型进行交互测试了。llama.cpp提供了多种交互模式：

基础对话模式 ：

./main -m ~/models/chinese-llama-7b/ggml-model-q4_0.gguf -p "请用Python写一个快速排序实现" -n 256

交互式聊天模式 ：

./main -m ~/models/chinese-llama-7b/ggml-model-q4_0.gguf --color -i -r "User:" \
--in-prefix " " \
--in-suffix "Assistant:"

对于中文输入，建议调整以下参数以获得更好效果：

-c 2048 ：增加上下文长度
--temp 0.7 ：调整创造性温度
--repeat_penalty 1.1 ：控制重复惩罚

性能调优技巧 ：如果遇到速度问题，可以尝试：

export GGML_NUM_THREADS=$(nproc)
./main ... # 其他参数不变

5. 常见问题与解决方案

在实际部署过程中，可能会遇到各种环境或运行问题。以下是几个典型场景的解决方法：

CMake报错处理 ：

如果遇到 libcurl.so.4 版本问题，可以检查并清理冲突的库文件：

ls -l /usr/lib/x86_64-linux-gnu/libcurl*
sudo rm /usr/local/lib/libcurl.so.4  # 仅当确定有冲突时

模型转换问题 ：

当 sentencepiece 安装失败时，可以尝试从源码编译：

git clone https://github.com/google/sentencepiece.git
cd sentencepiece
mkdir build && cd build
cmake ..
make -j $(nproc)
sudo make install

中文输出异常 ：

如果模型输出包含乱码或异常符号，可能是终端编码问题：

export LANG=zh_CN.UTF-8
export LC_ALL=zh_CN.UTF-8

6. 高级配置与优化

对于希望进一步优化性能的用户，可以考虑以下进阶配置：

BLAS加速配置 ：

在CMake配置时指定BLAS后端：

cmake .. -DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS

持久化上下文缓存 ：

对于频繁交互的场景，可以启用上下文缓存加速后续推理：

./main -m model.gguf --prompt-cache cache.bin --prompt-cache-all

多GPU支持 ：

如果有兼容的NVIDIA GPU，可以启用CUDA加速：

cmake .. -DLLAMA_CUDA=ON
make -j $(nproc)

运行时的GPU层数可以通过参数控制：

./main -m model.gguf --n-gpu-layers 20

在实际项目中，我发现将常用命令封装成shell脚本可以极大提高工作效率。例如创建一个 run_llama.sh ：

#!/bin/bash
MODEL_PATH="$HOME/models/chinese-llama-7b/ggml-model-q4_0.gguf"
CACHE_FILE="$HOME/.cache/llama_cache.bin"

export GGML_NUM_THREADS=$(nproc)
exec ./main \
    -m "$MODEL_PATH" \
    --color -i \
    --prompt-cache "$CACHE_FILE" \
    --prompt-cache-all \
    -c 2048 \
    --temp 0.7 \
    --repeat_penalty 1.1

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐