零基础部署通义千问1.5-1.8B：手把手教你用chainlit搭建AI对话助手

本文介绍了如何在星图GPU平台上自动化部署通义千问1.5-1.8B-Chat-GPTQ-Int4镜像，并利用chainlit快速搭建AI对话助手。该方案特别适合个人开发者或企业快速构建智能问答系统，实现自然语言处理任务，如客服自动应答、知识库查询等应用场景。

鄧寜

160人浏览 · 2026-03-14 00:27:03

鄧寜 · 2026-03-14 00:27:03 发布

零基础部署通义千问1.5-1.8B：手把手教你用chainlit搭建AI对话助手

1. 环境准备与快速部署

1.1 系统要求检查

在开始部署前，请确保你的系统满足以下最低要求：

操作系统：Ubuntu 20.04/22.04或CentOS 8/9
GPU：NVIDIA显卡（推荐8GB+显存），支持CUDA 11.7+
内存：至少16GB RAM
存储：20GB可用空间

运行以下命令检查基础环境：

# 检查系统版本
lsb_release -a

# 检查GPU状态
nvidia-smi

# 检查内存
free -h

1.2 一键部署通义千问镜像

登录CSDN星图镜像广场
搜索"通义千问1.5-1.8B-Chat-GPTQ-Int4"
点击"立即部署"按钮
选择适合的实例规格（推荐4核CPU+16GB内存+16GB显存）
等待约3-5分钟完成部署

部署完成后，可以通过以下命令检查服务状态：

cat /root/workspace/llm.log

当看到"Model loaded successfully"日志时，表示模型已就绪。

2. 使用chainlit搭建对话界面

2.1 安装chainlit

chainlit是一个专为AI应用设计的轻量级Web界面框架。安装只需一行命令：

pip install chainlit

验证安装是否成功：

chainlit --version

2.2 创建对话应用

新建一个Python文件qwen_chat.py，内容如下：

import chainlit as cl
from transformers import AutoTokenizer, AutoModelForCausalLM
from auto_gptq import AutoGPTQForCausalLM

@cl.on_chat_start
async def load_model():
    # 加载模型和分词器
    model_path = "/root/workspace/qwen-gptq"
    tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=True)
    model = AutoGPTQForCausalLM.from_quantized(
        model_path,
        device="cuda:0",
        trust_remote_code=True
    )
    
    # 保存到用户会话
    cl.user_session.set("tokenizer", tokenizer)
    cl.user_session.set("model", model)
    
    await cl.Message("通义千问1.5-1.8B已就绪，可以开始对话了！").send()

@cl.on_message
async def main(message: cl.Message):
    # 获取模型和分词器
    tokenizer = cl.user_session.get("tokenizer")
    model = cl.user_session.get("model")
    
    # 构建对话格式
    messages = [
        {"role": "system", "content": "你是一个乐于助人的AI助手"},
        {"role": "user", "content": message.content}
    ]
    text = tokenizer.apply_chat_template(messages, tokenize=False)
    
    # 生成回复
    inputs = tokenizer(text, return_tensors="pt").to("cuda:0")
    outputs = model.generate(
        **inputs,
        max_new_tokens=512,
        temperature=0.7,
        top_p=0.9
    )
    
    # 解码并发送回复
    response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
    await cl.Message(response).send()

2.3 启动对话界面

运行以下命令启动服务：

chainlit run qwen_chat.py -w

默认会在本地的8000端口启动服务，打开浏览器访问http://localhost:8000即可看到对话界面。

3. 功能测试与优化

3.1 基础对话测试

在chainlit界面中尝试以下对话：

"你好，能介绍一下你自己吗？"
"用Python写一个快速排序算法"
"解释一下量子计算的基本原理"

观察模型的响应速度和质量，正常情况下每个回答应在3-5秒内生成。

3.2 性能优化建议

如果发现响应速度慢，可以尝试以下优化：

调整生成参数：

outputs = model.generate(
    **inputs,
    max_new_tokens=256,  # 减少最大生成长度
    do_sample=True,
    temperature=0.7,
    top_p=0.9,
    repetition_penalty=1.1  # 减少重复
)

启用批处理（适合多用户场景）：

@cl.on_message
async def main(messages: List[cl.Message]):
    # 批量处理多个消息
    all_inputs = []
    for msg in messages:
        text = tokenizer.apply_chat_template(
            [{"role": "user", "content": msg.content}],
            tokenize=False
        )
        inputs = tokenizer(text, return_tensors="pt").to("cuda:0")
        all_inputs.append(inputs)
    
    # 批量生成
    outputs = model.generate(
        **pad_sequence(all_inputs, batch_first=True),
        max_new_tokens=256
    )
    
    # 返回各个回复
    for i, out in enumerate(outputs):
        response = tokenizer.decode(out, skip_special_tokens=True)
        await messages[i].reply(response)

使用缓存：对常见问题预生成回答并缓存

4. 常见问题解决

4.1 模型加载失败

问题现象：日志中出现"Failed to load model"错误

解决方案：

检查模型路径是否正确
确认显存足够（至少4GB空闲显存）
重新下载模型权重：

rm -rf /root/workspace/qwen-gptq
huggingface-cli download Qwen/Qwen1.5-1.8B-Chat-GPTQ-Int4 --local-dir /root/workspace/qwen-gptq

4.2 中文输出乱码

问题现象：生成的中文显示为乱码或特殊符号

解决方案：

确保tokenizer加载时设置正确的参数：

tokenizer = AutoTokenizer.from_pretrained(
    model_path,
    use_fast=True,
    trust_remote_code=True
)

检查系统locale设置：

locale -a  # 确保包含zh_CN.utf8
export LANG=zh_CN.utf8

4.3 响应速度慢

问题现象：每个回复需要10秒以上

解决方案：

检查GPU利用率：

nvidia-smi -l 1  # 实时监控GPU使用情况

降低生成参数：

outputs = model.generate(
    max_new_tokens=128,  # 减少生成长度
    do_sample=False,     # 关闭采样
    temperature=0.3      # 降低随机性
)

5. 进阶应用场景

5.1 集成到现有系统

可以将chainlit服务作为后端API集成到现有系统中：

import requests

def ask_qwen(question):
    url = "http://localhost:8000/chat"
    data = {"message": question}
    response = requests.post(url, json=data)
    return response.json()["answer"]

5.2 添加自定义知识库

通过修改系统提示词加入领域知识：

system_prompt = """
你是一个专业的医疗助手，基于以下知识回答问题：
- 感冒症状包括流鼻涕、咳嗽、发烧
- 建议每日饮水量为1.5-2升
- 遇到严重症状应及时就医
"""

5.3 多轮对话支持

chainlit自动维护对话历史，实现多轮对话：

@cl.on_message
async def main(message: cl.Message):
    # 获取历史对话
    history = cl.user_session.get("history", [])
    history.append({"role": "user", "content": message.content})
    
    # 生成回复
    text = tokenizer.apply_chat_template(history, tokenize=False)
    inputs = tokenizer(text, return_tensors="pt").to("cuda:0")
    outputs = model.generate(**inputs, max_new_tokens=256)
    
    # 更新历史
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    history.append({"role": "assistant", "content": response})
    cl.user_session.set("history", history)
    
    await cl.Message(response).send()