Langchain-Chatchat与通义千问本地化部署指南

深入解析Langchain-Chatchat架构原理，涵盖中文大模型生态、向量数据库集成与本地知识库构建，重点介绍通义千问Qwen的API兼容性部署及常见安装问题解决方案。

想法臃肿

721人浏览 · 2025-12-15 12:25:58

想法臃肿 · 2025-12-15 12:25:58 发布

Langchain-Chatchat与通义千问本地化部署指南

在企业知识管理日益智能化的今天，如何让大语言模型真正“读懂”你的内部文档，而不是依赖公有云API带来数据泄露风险和延迟问题？越来越多的技术团队开始将目光投向本地化知识库问答系统——既能发挥LLM的强大理解能力，又能确保敏感信息不出内网。

这其中，Langchain-Chatchat + 通义千问（Qwen） 的组合正成为中文开源社区中的热门选择。它不仅具备完整的RAG流程设计、活跃的维护生态，还对国产硬件和中文语境做了深度优化。更重要的是，借助量化技术，你甚至可以在一台配备RTX 3060的普通工作站上，跑起70亿参数的对话模型。

本文不讲空泛概念，而是带你从零开始，一步步完成整套系统的搭建：从环境配置、模型下载到服务启动，再到实际使用与调优建议，全程踩坑实录，力求让你少走弯路。

核心架构解析：这套系统到底是怎么工作的？

我们先来看一个最核心的问题：当用户提出一个问题时，这个系统是如何做到“基于私有文档”来回答的？

整个流程其实是一个典型的 检索增强生成（Retrieval-Augmented Generation, RAG） 架构：

用户提问
   ↓
[Embedding Model] → 将问题编码为向量
   ↓
向量数据库（如 FAISS / Milvus）→ 检索最相似的文档片段
   ↓
拼接原始问题 + 相关文档内容 → 构造 Prompt
   ↓
[LLM 模型]（如 Qwen-7B）→ 生成回答
   ↓
返回结果给用户界面

听起来简单，但背后有几个关键点值得深入理解：

为什么不能直接让大模型读所有文档？
因为上下文长度有限，且成本极高。RAG的做法是“按需检索”，只把最相关的几段文本送入模型，既高效又精准。
Embedding 模型的作用是什么？
它负责把自然语言转化为高维向量。中文场景下推荐 m3e-base，这是专为中文语义匹配训练的模型，在标题、短句、专业术语上的表现优于通用英文模型。
切分策略影响效果极大
文本分割器（Text Splitter）决定了知识粒度。太粗会丢失细节，太细则上下文断裂。Langchain-Chatchat 默认使用 RecursiveCharacterTextSplitter，按段落递归切分，保留结构信息。
Prompt 工程决定输出质量
最终送给LLM的提示词，并非简单的“问题+文档”，而是经过模板化构造的指令，比如：
```
请根据以下资料回答问题：
{retrieved_docs}

问题：{query}
要求：用简洁清晰的语言作答，避免编造。
```

这种闭环设计，有效缓解了大模型“一本正经胡说八道”的幻觉问题，也让系统更可控、可解释。

技术选型说明：为何是 Qwen 而不是其他模型？

当前主流中文开源模型不少，像 ChatGLM、Baichuan、InternLM 都各有拥趸。那为什么我们要优先考虑通义千问？

模型	参数量	中文表现	显存需求（FP16）	是否支持量化	社区支持
ChatGLM-6B	60亿	良好	≥13GB	Int4 可行	较强
Baichuan-13B	130亿	优秀	≥26GB	支持 Int8/Int4	一般
Qwen-7B	70亿	优异	≥14GB	支持 Int4/Int8	强（阿里官方）
Qwen-1.8B	18亿	可用	<6GB	支持 Int4	强

几个关键优势不容忽视：

中文理解能力强：在多个中文评测集（如 C-Eval、CMMLU）中表现领先，尤其擅长政策解读、制度说明类任务。
对话逻辑清晰：相比某些“堆料式”大模型，Qwen 在多轮交互中更能保持一致性，适合构建真正可用的助手。
低门槛部署可行：Qwen-7B-Chat-Int4 版本能以 8GB 显存运行，这意味着 RTX 3060 12GB 用户也能流畅体验。
OpenAI API 兼容接口：官方提供了 transformers 和 vLLM 两种部署方式，并支持 OpenAI-style 接口调用，集成到 Langchain 类框架毫无障碍。

如果你追求更高的性能，还可以尝试 Qwen-14B-Chat-Int4，虽然需要 16GB+ 显存，但在复杂推理任务上提升显著。

部署准备：软硬件环境要求

硬件建议（以运行 Qwen-7B-Chat-Int4 为例）

组件	推荐配置
GPU	NVIDIA RTX 3060 12GB / 3090 / 4090（CUDA 11.8+）
显存	≥8GB（Int4 量化可运行）
内存	≥16GB
存储	≥50GB SSD（用于缓存模型和向量库）

💡 若无独立显卡，也可使用 CPU 推理（性能较慢，适合测试），需安装 llama-cpp-python 并启用 model_config.py 中的 CPU 模式。

软件依赖

Python >= 3.10
PyTorch >= 2.0 + CUDA 支持
Git
Docker（可选，用于 Milvus/PgVector 部署）
HuggingFace Account（用于下载 Qwen 模型）

特别提醒：务必确认你的 CUDA 版本与 PyTorch 匹配。常见错误如 CUDA error: no kernel image is available for execution 往往源于驱动或版本不兼容。推荐使用 CUDA 12.1，对应安装命令如下：

pip uninstall torch torchvision torchaudio
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

实战部署步骤

Step 1：克隆项目仓库

git clone https://github.com/chatchat-space/Langchain-Chatchat.git
cd Langchain-Chatchat

📌 项目地址：https://github.com/chatchat-space/Langchain-Chatchat

该项目脱胎于早期的 langchain-ChatGLM，现已全面升级为多模型、多向量库、多前端支持的统一平台。社区更新频繁，Issue 响应及时，非常适合生产级探索。

Step 2：创建虚拟环境并安装依赖

python -m venv venv
source venv/bin/activate  # Linux/Mac
# 或 venv\Scripts\activate.bat （Windows）

pip install --upgrade pip
pip install -r requirements.txt

如果遇到 torch 编译报错，尤其是 Windows 用户，建议直接使用预编译包安装，避免源码构建失败。

Step 3：下载 Embedding 模型（m3e-base）

Langchain-Chatchat 默认使用中文向量模型 moka-ai/m3e-base，该模型在中文语义匹配任务上表现优异。

推荐通过 ModelScope 下载（国内网络友好）：

from modelscope import snapshot_download
snapshot_download('moka-ai/m3e-base', cache_dir='./models')

或者使用 Git（可能较慢）：

git lfs install
git clone https://www.modelscope.cn/moka-ai/m3e-base.git ./models/m3e-base

完成后，在 configs/model_config.py 中确认路径配置：

embedding_model_dict = {
    "m3e-base": "models/m3e-base",
}

Step 4：获取通义千问 Qwen-7B-Chat-Int4 模型

方法一：通过 ModelScope 下载（推荐）

from modelscope import snapshot_download
model_dir = snapshot_download('qwen/Qwen-7B-Chat-Int4', cache_dir='./models')

方法二：使用 Git LFS（需提前登录 Hugging Face）

git clone https://huggingface.co/Qwen/Qwen-7B-Chat-Int4 ./models/Qwen-7B-Chat-Int4

🔐 提示：首次使用需登录 HF CLI：

bash huggingface-cli login

下载完成后，检查目录结构：

/models/
├── m3e-base/
└── Qwen-7B-Chat-Int4/

注意：确保模型文件完整，包括 config.json, pytorch_model.bin, tokenizer_config.json, vocab.txt 等。缺失任意一项都可能导致加载失败。

Step 5：配置模型路径（关键！）

复制配置模板：

cp configs/model_config.py.example configs/model_config.py
cp configs/server_config.py.example configs/server_config.py
cp configs/kb_config.py.example configs/kb_config.py

编辑 configs/model_config.py，修改以下字段：

# 设置本地 LLM 模型路径
llm_model_dict = {
    "qwen-7b-chat-int4": {
        "name": "qwen-7b-chat-int4",
        "pretrained_model_path": "models/Qwen-7B-Chat-Int4",
        "provides": "QwenAPI",  # 使用 Qwen 自带 API 服务
    },
}

# 默认使用的模型名称
MODEL_PLATFORMS = ["local"]
LOCAL_MODEL_NAME = "qwen-7b-chat-int4"

同时确保 configs/server_config.py 中启用了正确的服务端口：

# LLM API 服务端口
LLM_API_PORT = 8000

# WebUI 端口
WEBUI_PORT = 8501

Step 6：初始化知识库数据库

项目使用 SQLite 存储知识库元信息，并使用向量数据库保存嵌入向量。

运行初始化脚本：

python init_database.py --recreate-vs

该命令会：
- 删除旧的知识库索引
- 创建新的向量存储目录（默认位于 vector_store/）
- 初始化 metadata 数据库

✅ 成功标志：输出 "Vector Store Initialized."

Step 7：启动服务

启动 API 服务（后台）

python startup.py --api

这将启动 FastAPI 后端，提供以下接口：
- /chat：标准问答接口
- /knowledge_base：知识库管理接口
- /llm_model：模型切换接口

启动 WebUI 界面（推荐）

新开终端窗口，激活环境后执行：

python startup.py --webui

访问：http://localhost:8501

你会看到图形化界面，支持：
- 文件上传至知识库
- 多会话管理
- 流式输出显示
- 模型切换与参数调节

✅ 一键启动全部服务：

python startup.py --all-webui

使用示例：构建专属知识库

打开 WebUI 页面
进入左侧菜单 “知识库管理”
点击 “创建知识库”，命名如 company_docs
上传 PDF、Word 等文件
系统自动完成：解析 → 分块 → 向量化 → 存储
返回主界面，选择该知识库，输入问题即可获得基于文档的回答

📌 示例问题：

“我们公司最新的报销流程是什么？”

假设你上传了《员工手册.pdf》，系统将检索相关内容并由 Qwen 生成清晰回答。

值得一提的是，Langchain-Chatchat 支持多种格式解析：
- .txt, .md：直接读取
- .pdf：使用 PyMuPDF 或 pdfplumber 提取文本
- .docx：通过 python-docx 解析
- .pptx：提取每页标题与正文
- .csv, .json：结构化数据导入

对于扫描版 PDF，目前尚不支持 OCR，但你可以先用第三方工具（如 PaddleOCR）提取文字后再上传。

进阶配置建议

1. 更换向量数据库（支持 Milvus / PGVector）

默认使用轻量级 FAISS，适合单机部署。若需支持并发、持久化或集群，可改用 Milvus。

启动 Milvus（Docker 方式）

# docker-compose.yml
version: '3.5'
services:
  etcd:
    container_name: milvus-etcd
    image: quay.io/coreos/etcd:v3.5.0
    environment:
      - ETCD_AUTO_COMPACTION_MODE=revision
      - ETCD_AUTO_COMPACTION_RETENTION=1000
      - ETCD_QUOTA_BACKEND_BYTES=4294967296
    volumes:
      - ./etcd:/bitnami/etcd
    ports:
      - "2379:2379"

  minio:
    container_name: milvus-minio
    image: minio/minio:RELEASE.2023-03-20T20-16-18Z
    environment:
      - MINIO_ACCESS_KEY=minioadmin
      - MINIO_SECRET_KEY=minioadmin
    volumes:
      - ./minio:/data
    ports:
      - "9000:9000"
    command: minio server /data --console-address ":9001"

  milvus-standalone:
    container_name: milvus-standalone
    image: milvusdb/milvus:v2.3.0
    command: ["milvus", "run", "standalone"]
    volumes:
      - ./milvus/standalone:/var/lib/milvus/standalone
    ports:
      - "19530:19530"
    depends_on:
      - etcd
      - minio

启动：

docker-compose up -d

然后在 kb_config.py 中设置：

VECTOR_SEARCH_ENGINE = "Milvus"
MILVUS_HOST = "127.0.0.1"
MILVUS_PORT = "19530"

重启服务后，系统将自动连接 Milvus 并创建集合。

2. 启用外部搜索引擎（DuckDuckGo）

若希望模型能获取实时信息，可在 .env 文件中启用搜索引擎：

ENABLE_SEARCH=True
SEARCH_ENGINE_NAME=duckduckgo

重启 API 服务后，提问如：

“今天北京天气怎么样？”
系统将自动调用 DuckDuckGo 搜索并总结结果。

这种方式特别适合技术文档查询、新闻摘要等需要最新信息的场景。当然，也需注意控制频率，避免触发反爬机制。

常见问题与解决方案

❌ 错误1：`CUDA error: no kernel image is available for execution`

原因：PyTorch 编译时使用的 CUDA 架构与当前 GPU 不兼容。

✅ 解决方案：
- 升级显卡驱动
- 重新安装对应 CUDA 版本的 PyTorch：

pip install torch --index-url https://download.pytorch.org/whl/cu121

也可查看 PyTorch 官方安装页面获取最新命令。

❌ 错误2：`OSError: Cannot load tokenizer for XXX`

原因：模型路径错误或未完全下载（缺少 tokenizer.json 等文件）。

✅ 解决方案：
- 检查模型目录是否包含 tokenizer_config.json, vocab.txt, pytorch_model.bin
- 使用 ModelScope 完整下载：

from modelscope import snapshot_download
snapshot_download('qwen/Qwen-7B-Chat-Int4', cache_dir='models')

❌ 错误3：WebUI 打不开，提示连接失败

原因：FastAPI 未正常启动或端口被占用。

✅ 解决方案：
- 查看日志是否有报错
- 更换端口：

python startup.py --api --port 8001
python startup.py --webui --port 8502

总结

Langchain-Chatchat 与通义千问的结合，代表了一种务实而高效的本地化AI落地路径。它不像某些“玩具项目”那样只能演示，也不像闭源商业产品那样黑盒难控。相反，它是开放的、可定制的、贴近真实业务需求的。

无论是企业内部的知识沉淀、技术支持文档管理，还是个人笔记的智能检索，这套系统都能快速为你构建一个“懂你”的AI助手。随着 OCR、语音接口、多Agent协作等功能的逐步完善，未来的可能性只会更多。

技术的价值不在炫技，而在解决问题。现在就动手部署一套属于你自己的智能知识大脑吧！

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

DeepSeek-V4 RAG 分块策略优化：512 vs 1024 token 的实测边界与工程取舍

DeepSeek技术社区

企业知识库问答中的权限迷宫：如何用 DeepSeek 实现文档级 ACL 下沉与安全召回

DeepSeek技术社区

RAG 文档预处理：为什么 90% 的失败案例源于切分策略不当

DeepSeek技术社区

所有评论(0)

查看更多评论

想法臃肿

@weixin_31749299

已为社区贡献22条内容

Langchain-Chatchat与通义千问本地化部署指南

想法臃肿

Langchain-Chatchat与通义千问本地化部署指南

核心架构解析：这套系统到底是怎么工作的？

技术选型说明：为何是 Qwen 而不是其他模型？

部署准备：软硬件环境要求

硬件建议（以运行 Qwen-7B-Chat-Int4 为例）

软件依赖

实战部署步骤

Step 1：克隆项目仓库

Step 2：创建虚拟环境并安装依赖

Step 3：下载 Embedding 模型（m3e-base）

Step 4：获取通义千问 Qwen-7B-Chat-Int4 模型

方法一：通过 ModelScope 下载（推荐）

方法二：使用 Git LFS（需提前登录 Hugging Face）

Step 5：配置模型路径（关键！）

Step 6：初始化知识库数据库

Step 7：启动服务

启动 API 服务（后台）

启动 WebUI 界面（推荐）

使用示例：构建专属知识库

进阶配置建议

1. 更换向量数据库（支持 Milvus / PGVector）

启动 Milvus（Docker 方式）

2. 启用外部搜索引擎（DuckDuckGo）

常见问题与解决方案

❌ 错误1：CUDA error: no kernel image is available for execution

❌ 错误2：OSError: Cannot load tokenizer for XXX

❌ 错误3：WebUI 打不开，提示连接失败

总结

所有评论(0)

温馨提示：您尚未绑定手机号

想法臃肿

❌ 错误1：`CUDA error: no kernel image is available for execution`

❌ 错误2：`OSError: Cannot load tokenizer for XXX`