DeepSeek-R1-Distill-Qwen-1.5B完整指南：API服务封装与前端Web组件对接

本文介绍了如何在星图GPU平台上自动化部署🐋 DeepSeek-R1-Distill-Qwen-1.5B本地智能对话助手(Streamlit驱动)镜像，实现完全本地化的智能对话服务。该镜像支持多轮对话、思维链推理和隐私保护，适用于企业内网咨询、个人学习助手等需要数据安全的对话场景。

阿晴招生笔记

186人浏览 · 2026-03-14 00:19:53

阿晴招生笔记 · 2026-03-14 00:19:53 发布

DeepSeek-R1-Distill-Qwen-1.5B完整指南：API服务封装与前端Web组件对接

1. 项目概述

DeepSeek-R1-Distill-Qwen-1.5B是一个超轻量级的智能对话模型，它巧妙融合了DeepSeek优秀的逻辑推理能力和Qwen成熟的模型架构。经过蒸馏优化后，这个模型在保持强大核心能力的同时，大幅降低了计算资源需求，仅需1.5B参数就能实现出色的对话效果。

这个项目的特别之处在于完全本地化部署——所有数据处理和模型推理都在你的本地环境中完成，不需要将任何数据上传到云端。这意味着你的对话内容、问题和个人信息都得到了完全的隐私保护。

项目采用Streamlit构建了直观的聊天界面，支持多轮对话、思维链推理，并能自动格式化输出内容。无论是逻辑问答、数学解题、代码编写还是日常咨询，这个模型都能提供高质量的本地化智能对话服务。

2. 环境准备与快速部署

2.1 系统要求

在开始之前，请确保你的系统满足以下基本要求：

Python 3.8或更高版本
至少8GB系统内存
GPU版本需要NVIDIA显卡（4GB以上显存）
磁盘空间：模型文件约3GB

2.2 一键安装部署

最简单的启动方式是使用我们提供的完整脚本。创建一个新的Python文件，比如叫做chat_app.py，然后复制以下代码：

import streamlit as st
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 设置页面标题和图标
st.set_page_config(page_title="DeepSeek R1 智能助手", page_icon="🐋")

# 缓存加载模型和分词器
@st.cache_resource
def load_model():
    model_path = "/root/ds_1.5b"
    tokenizer = AutoTokenizer.from_pretrained(model_path)
    model = AutoModelForCausalLM.from_pretrained(
        model_path,
        device_map="auto",
        torch_dtype="auto"
    )
    return model, tokenizer

# 加载模型
with st.spinner("正在加载模型，请稍候..."):
    model, tokenizer = load_model()

# 初始化对话历史
if "messages" not in st.session_state:
    st.session_state.messages = []

# 侧边栏设置
with st.sidebar:
    st.title("设置")
    if st.button("🧹 清空对话"):
        st.session_state.messages = []
        torch.cuda.empty_cache()
        st.rerun()

# 显示聊天记录
for message in st.session_state.messages:
    with st.chat_message(message["role"]):
        st.markdown(message["content"])

# 聊天输入
if prompt := st.chat_input("考考 DeepSeek R1..."):
    # 添加用户消息
    st.session_state.messages.append({"role": "user", "content": prompt})
    with st.chat_message("user"):
        st.markdown(prompt)
    
    # 生成回复
    with st.chat_message("assistant"):
        with st.spinner("思考中..."):
            # 准备输入
            chat_history = st.session_state.messages[:-1]
            messages = [{"role": msg["role"], "content": msg["content"]} for msg in chat_history]
            messages.append({"role": "user", "content": prompt})
            
            # 应用聊天模板
            input_ids = tokenizer.apply_chat_template(
                messages,
                add_generation_prompt=True,
                return_tensors="pt"
            ).to(model.device)
            
            # 生成回复
            with torch.no_grad():
                outputs = model.generate(
                    input_ids,
                    max_new_tokens=2048,
                    temperature=0.6,
                    top_p=0.95,
                    do_sample=True
                )
            
            # 解码并处理回复
            response = tokenizer.decode(outputs[0][input_ids.shape[1]:], skip_special_tokens=True)
            # 格式化思考过程
            if "<|think|>" in response and "<|end|>" in response:
                think_start = response.find("<|think|>") + len("<|think|>")
                think_end = response.find("<|end|>")
                think_content = response[think_start:think_end].strip()
                answer_content = response[think_end + len("<|end|>"):].strip()
                formatted_response = f"**思考过程：**\n{think_content}\n\n**回答：**\n{answer_content}"
            else:
                formatted_response = response
            
            st.markdown(formatted_response)
            st.session_state.messages.append({"role": "assistant", "content": formatted_response})

保存文件后，在终端中运行以下命令启动服务：

streamlit run chat_app.py

服务启动后，你会看到一个本地网址（通常是http://localhost:8501），在浏览器中打开这个网址就能开始使用了。

3. 核心功能详解

3.1 本地化隐私保护

这个项目的最大亮点是完全的本地化运行。模型文件存储在本地路径/root/ds_1.5b中，所有的对话处理、推理计算都在你的设备上完成。

这意味着：

你的对话内容永远不会离开你的设备
不需要互联网连接也能使用
企业用户可以在内网环境中安全部署
个人用户的隐私得到充分保护

3.2 智能对话处理

模型内置了先进的对话处理机制：

多轮对话支持：系统会自动维护对话历史，让你的问题能够基于之前的对话上下文来理解。比如你先问"Python怎么排序列表？"，接着问"那反过来排序呢？"，模型能明白你指的是反向排序列表。

思维链推理：模型会展示它的思考过程，让你看到它是如何一步步得出结论的。这不仅提高了答案的可信度，还能帮助你学习解决问题的思路。

自动格式化输出：模型输出的特殊标签会被自动转换成易读的格式，思考过程和最终回答清晰分开，阅读体验更好。

3.3 资源优化管理

考虑到不同设备的硬件差异，项目内置了智能资源管理：

自动设备检测：系统会自动检测可用的GPU资源，如果有GPU就使用GPU加速，没有就使用CPU运行。

显存优化：推理时禁用梯度计算，大幅减少显存占用。侧边栏的清理按钮可以一键释放显存，避免长时间使用后显存不足。

模型缓存：模型只需要加载一次，后续对话都是秒级响应，不需要重复加载。

4. 实际使用演示

4.1 基础对话示例

让我们看几个实际的使用例子：

数学问题求解：

用户：解方程 2x + 5 = 13

助手：
**思考过程：**
这是一个简单的一元一次方程。我需要将方程变形，先减去5，然后除以2。

**回答：**
解：2x + 5 = 13
     2x = 13 - 5
     2x = 8
     x = 4
所以方程的解是 x = 4

编程问题解答：

用户：用Python写一个计算斐波那契数列的函数

助手：
**思考过程：**
斐波那契数列是前两个数之和等于后一个数。可以用递归或者循环实现，循环效率更高。

**回答：**
```python
def fibonacci(n):
    if n <= 0:
        return "输入必须大于0"
    elif n == 1:
        return 0
    elif n == 2:
        return 1
    else:
        a, b = 0, 1
        for i in range(2, n):
            a, b = b, a + b
        return b

# 示例：打印前10个斐波那契数
for i in range(1, 11):
    print(f"F({i}) = {fibonacci(i)}")


### 4.2 高级功能使用

**多轮对话保持上下文**：

第一轮：用户：介绍一下深度学习

助手：（详细解释深度学习的概念、历史和应用）

第二轮：用户：那它和机器学习有什么区别？

助手：（基于上一轮的上下文，解释深度学习和机器学习的区别）


**复杂问题思维链**：

用户：为什么天空是蓝色的？

助手： 思考过程： 这个问题涉及瑞利散射现象。太阳光由不同颜色的光组成，蓝光波长较短，容易被大气中的分子散射，所以我们在各个方向都能看到蓝光。

回答： 天空呈现蓝色是因为瑞利散射效应。太阳光中的蓝光波长较短，更容易被大气中的分子和微粒散射，使得我们从各个方向都能看到蓝光，因此天空看起来是蓝色的。


## 5. API服务封装

### 5.1 创建API接口

虽然Streamlit提供了很好的交互界面，但有时候我们需要以API的形式提供服务，方便其他程序调用。下面是一个简单的FastAPI封装示例：

```python
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from typing import List, Dict
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

app = FastAPI(title="DeepSeek R1 API服务")

# 加载模型（实际使用时应该用单例模式）
model_path = "/root/ds_1.5b"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",
    torch_dtype="auto"
)

class ChatRequest(BaseModel):
    messages: List[Dict[str, str]]
    max_tokens: int = 2048
    temperature: float = 0.6

class ChatResponse(BaseModel):
    response: str
    thinking_process: str
    answer: str

@app.post("/chat", response_model=ChatResponse)
async def chat_endpoint(request: ChatRequest):
    try:
        # 准备输入
        input_ids = tokenizer.apply_chat_template(
            request.messages,
            add_generation_prompt=True,
            return_tensors="pt"
        ).to(model.device)
        
        # 生成回复
        with torch.no_grad():
            outputs = model.generate(
                input_ids,
                max_new_tokens=request.max_tokens,
                temperature=request.temperature,
                top_p=0.95,
                do_sample=True
            )
        
        # 解码回复
        response = tokenizer.decode(outputs[0][input_ids.shape[1]:], skip_special_tokens=True)
        
        # 解析思考过程和回答
        thinking_process = ""
        answer = response
        
        if "<|think|>" in response and "<|end|>" in response:
            think_start = response.find("<|think|>") + len("<|think|>")
            think_end = response.find("<|end|>")
            thinking_process = response[think_start:think_end].strip()
            answer = response[think_end + len("<|end|>"):].strip()
        
        return ChatResponse(
            response=response,
            thinking_process=thinking_process,
            answer=answer
        )
    
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))

@app.get("/health")
async def health_check():
    return {"status": "healthy", "model": "DeepSeek-R1-Distill-Qwen-1.5B"}

5.2 API使用示例

启动API服务后，你可以这样调用：

# 启动服务
uvicorn api_server:app --host 0.0.0.0 --port 8000

然后使用curl测试：

curl -X POST "http://localhost:8000/chat" \
-H "Content-Type: application/json" \
-d '{
  "messages": [
    {"role": "user", "content": "解释一下量子计算的基本原理"}
  ],
  "max_tokens": 1024,
  "temperature": 0.6
}'

6. 前端Web组件对接

6.1 创建React聊天组件

如果你想要在自己的网站中集成这个聊天功能，可以创建一个React组件：

import React, { useState } from 'react';
import './ChatWidget.css';

const ChatWidget = () => {
  const [messages, setMessages] = useState([]);
  const [input, setInput] = useState('');
  const [isLoading, setIsLoading] = useState(false);

  const sendMessage = async () => {
    if (!input.trim()) return;
    
    const userMessage = { role: 'user', content: input };
    setMessages(prev => [...prev, userMessage]);
    setInput('');
    setIsLoading(true);
    
    try {
      const response = await fetch('http://localhost:8000/chat', {
        method: 'POST',
        headers: {
          'Content-Type': 'application/json',
        },
        body: JSON.stringify({
          messages: [...messages, userMessage],
          max_tokens: 1024,
          temperature: 0.6
        })
      });
      
      const data = await response.json();
      
      setMessages(prev => [...prev, {
        role: 'assistant',
        content: data.answer,
        thinking: data.thinking_process
      }]);
      
    } catch (error) {
      console.error('Error:', error);
      setMessages(prev => [...prev, {
        role: 'assistant',
        content: '抱歉，出现了一些问题，请稍后再试。'
      }]);
    } finally {
      setIsLoading(false);
    }
  };

  return (
    <div className="chat-widget">
      <div className="chat-header">
        <h3>DeepSeek R1 智能助手</h3>
      </div>
      
      <div className="chat-messages">
        {messages.map((msg, index) => (
          <div key={index} className={`message ${msg.role}`}>
            {msg.thinking && (
              <div className="thinking-process">
                <strong>思考过程：</strong>
                <p>{msg.thinking}</p>
              </div>
            )}
            <div className="message-content">
              {msg.content}
            </div>
          </div>
        ))}
        
        {isLoading && (
          <div className="message assistant">
            <div className="loading">思考中...</div>
          </div>
        )}
      </div>
      
      <div className="chat-input">
        <input
          type="text"
          value={input}
          onChange={(e) => setInput(e.target.value)}
          onKeyPress={(e) => e.key === 'Enter' && sendMessage()}
          placeholder="输入你的问题..."
          disabled={isLoading}
        />
        <button onClick={sendMessage} disabled={isLoading}>
          发送
        </button>
      </div>
    </div>
  );
};

export default ChatWidget;

6.2 样式设计

对应的CSS样式文件：

.chat-widget {
  width: 400px;
  height: 500px;
  border: 1px solid #ddd;
  border-radius: 12px;
  display: flex;
  flex-direction: column;
  background: white;
  box-shadow: 0 4px 12px rgba(0, 0, 0, 0.1);
}

.chat-header {
  padding: 16px;
  background: #2563eb;
  color: white;
  border-radius: 12px 12px 0 0;
}

.chat-header h3 {
  margin: 0;
  font-size: 16px;
}

.chat-messages {
  flex: 1;
  padding: 16px;
  overflow-y: auto;
  display: flex;
  flex-direction: column;
  gap: 12px;
}

.message {
  max-width: 80%;
  padding: 12px;
  border-radius: 12px;
  line-height: 1.4;
}

.message.user {
  align-self: flex-end;
  background: #2563eb;
  color: white;
}

.message.assistant {
  align-self: flex-start;
  background: #f3f4f6;
  color: #374151;
}

.thinking-process {
  background: #fffbeb;
  padding: 8px;
  border-radius: 8px;
  margin-bottom: 8px;
  border-left: 3px solid #f59e0b;
}

.thinking-process strong {
  color: #d97706;
  font-size: 14px;
}

.thinking-process p {
  margin: 4px 0 0 0;
  font-size: 14px;
  color: #92400e;
}

.loading {
  color: #6b7280;
  font-style: italic;
}

.chat-input {
  padding: 16px;
  border-top: 1px solid #e5e7eb;
  display: flex;
  gap: 8px;
}

.chat-input input {
  flex: 1;
  padding: 8px 12px;
  border: 1px solid #d1d5db;
  border-radius: 6px;
  outline: none;
}

.chat-input input:focus {
  border-color: #2563eb;
}

.chat-input button {
  padding: 8px 16px;
  background: #2563eb;
  color: white;
  border: none;
  border-radius: 6px;
  cursor: pointer;
}

.chat-input button:disabled {
  background: #9ca3af;
  cursor: not-allowed;
}