边缘设备跑大模型？DeepSeek-R1-Distill-Qwen-1.5B实时推理实战

本文介绍了如何在星图GPU平台上自动化部署DeepSeek-R1-Distill-Qwen-1.5B镜像，实现边缘设备上的大模型实时推理。该轻量化模型专为资源受限环境设计，可应用于构建本地智能助手、文档摘要与翻译等场景，在保障数据隐私的同时提供离线AI服务。

甄公子

212人浏览 · 2026-03-25 00:45:52

甄公子 · 2026-03-25 00:45:52 发布

边缘设备跑大模型？DeepSeek-R1-Distill-Qwen-1.5B实时推理实战

你是不是觉得大模型只能在云端服务器上跑，边缘设备想都别想？今天我要告诉你，这个想法过时了。随着模型压缩技术的进步，现在已经有专门为边缘设备优化的大模型了。

DeepSeek-R1-Distill-Qwen-1.5B就是这样一个模型。它只有15亿参数，却能在NVIDIA T4这样的边缘设备上实现实时推理。这意味着你可以在本地设备上部署一个智能助手，不需要联网，不需要等待云端响应，数据隐私还更有保障。

这篇文章我会手把手带你完成这个模型的部署和测试。从环境准备到服务启动，再到实际调用，每个步骤都有详细说明和代码示例。即使你之前没接触过模型部署，跟着做一遍也能搞定。

1. 模型介绍：为什么选择DeepSeek-R1-Distill-Qwen-1.5B

1.1 模型背景与技术特点

DeepSeek-R1-Distill-Qwen-1.5B是DeepSeek团队专门为边缘计算场景设计的轻量化模型。它基于Qwen2.5-Math-1.5B基础模型，通过知识蒸馏技术融合了R1架构的优势。

简单来说，知识蒸馏就像老师教学生。原来的大模型是老师，包含了丰富的知识，但体积太大跑不动。这个轻量化模型就是学生，从老师那里学到了核心知识，但体积小了很多，跑起来更快。

这个模型有几个关键特点：

参数效率高：通过结构化剪枝和量化训练，把模型压缩到15亿参数级别，但保持了85%以上的原始精度
任务适配强：在训练时加入了特定领域的数据，比如法律文书、医疗问诊，所以在这些专业场景下表现更好
硬件友好：支持INT8量化部署，内存占用比普通模式降低了75%

1.2 边缘设备上的优势

为什么这个模型特别适合边缘设备？我列几个关键数据你就明白了：

特性	传统大模型	DeepSeek-R1-Distill-Qwen-1.5B	优势
内存占用	通常需要16GB+	量化后约2-3GB	降低75%
推理速度	较慢，需要云端	在T4上可达实时响应	本地实时
数据隐私	需要上传云端	完全本地处理	隐私安全
网络依赖	必须联网	离线可用	无网络要求

在实际测试中，这个模型在NVIDIA T4上能达到每秒处理20-30个token的速度，对于大多数应用场景来说，这个速度已经足够实用了。

2. 环境准备与快速部署

2.1 系统要求与前置准备

在开始之前，我们先确认一下你的环境是否符合要求。这个模型对硬件的要求其实不高：

最低配置要求：

GPU：NVIDIA T4或同等性能（显存4GB以上）
内存：8GB系统内存
存储：10GB可用空间
系统：Ubuntu 20.04或更高版本

软件依赖：

Python 3.8+
CUDA 11.8（如果使用GPU）
vLLM 0.4.0+

如果你用的是云服务器或者已经配置好的开发环境，这些依赖可能已经安装好了。不确定的话，可以用下面的命令检查：

# 检查Python版本
python3 --version

# 检查CUDA是否可用
nvidia-smi

# 检查vLLM是否安装（如果未安装，后续会安装）
python3 -c "import vllm" 2>/dev/null && echo "vLLM已安装" || echo "vLLM未安装"

2.2 一键部署脚本

为了简化部署过程，我准备了一个完整的部署脚本。你只需要复制粘贴，就能完成所有安装和配置：

#!/bin/bash
# deepseek_deploy.sh - DeepSeek-R1-Distill-Qwen-1.5B一键部署脚本

echo "开始部署DeepSeek-R1-Distill-Qwen-1.5B模型服务..."

# 1. 创建工作目录
WORK_DIR="/root/workspace"
mkdir -p $WORK_DIR
cd $WORK_DIR
echo "工作目录: $WORK_DIR"

# 2. 创建Python虚拟环境
echo "创建Python虚拟环境..."
python3 -m venv deepseek_env
source deepseek_env/bin/activate

# 3. 安装依赖包
echo "安装依赖包..."
pip install --upgrade pip
pip install vllm==0.4.0
pip install openai
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 4. 下载模型（如果本地没有）
MODEL_DIR="$WORK_DIR/models"
mkdir -p $MODEL_DIR

if [ ! -d "$MODEL_DIR/DeepSeek-R1-Distill-Qwen-1.5B" ]; then
    echo "开始下载模型..."
    # 这里使用huggingface的模型，你需要有访问权限
    # 或者使用其他下载方式
    echo "请手动下载模型到 $MODEL_DIR/DeepSeek-R1-Distill-Qwen-1.5B 目录"
    echo "可以从HuggingFace下载: DeepSeek-R1-Distill-Qwen-1.5B"
else
    echo "模型已存在: $MODEL_DIR/DeepSeek-R1-Distill-Qwen-1.5B"
fi

# 5. 创建启动脚本
echo "创建启动脚本..."
cat > start_model.sh << 'EOF'
#!/bin/bash
source /root/workspace/deepseek_env/bin/activate

MODEL_PATH="/root/workspace/models/DeepSeek-R1-Distill-Qwen-1.5B"
LOG_FILE="/root/workspace/deepseek_qwen.log"

echo "启动DeepSeek-R1-Distill-Qwen-1.5B模型服务..."
echo "模型路径: $MODEL_PATH"
echo "日志文件: $LOG_FILE"

# 使用vLLM启动模型服务
python3 -m vllm.entrypoints.openai.api_server \
    --model $MODEL_PATH \
    --served-model-name DeepSeek-R1-Distill-Qwen-1.5B \
    --host 0.0.0.0 \
    --port 8000 \
    --max-model-len 2048 \
    --gpu-memory-utilization 0.9 \
    --enforce-eager \
    --quantization int8 2>&1 | tee $LOG_FILE
EOF

chmod +x start_model.sh

echo "部署完成！"
echo "请确保模型文件已放置在: $MODEL_DIR/DeepSeek-R1-Distill-Qwen-1.5B"
echo "然后运行: ./start_model.sh 启动服务"

把这个脚本保存为deepseek_deploy.sh，然后运行：

# 给脚本执行权限
chmod +x deepseek_deploy.sh

# 运行部署脚本
./deepseek_deploy.sh

脚本会帮你完成所有环境配置。如果一切顺利，你会看到部署完成的提示。

3. 启动模型服务

3.1 手动启动服务

如果你更喜欢手动操作，或者想了解每个步骤的具体作用，可以按照下面的步骤来：

首先，确保你在正确的工作目录：

cd /root/workspace

激活Python虚拟环境：

source deepseek_env/bin/activate

然后启动模型服务。这里我建议使用screen或tmux，这样即使你断开连接，服务也能继续运行：

# 使用screen创建新会话
screen -S deepseek_model

# 在screen会话中启动服务
python3 -m vllm.entrypoints.openai.api_server \
    --model /root/workspace/models/DeepSeek-R1-Distill-Qwen-1.5B \
    --served-model-name DeepSeek-R1-Distill-Qwen-1.5B \
    --host 0.0.0.0 \
    --port 8000 \
    --max-model-len 2048 \
    --gpu-memory-utilization 0.9 \
    --enforce-eager \
    --quantization int8 2>&1 | tee deepseek_qwen.log

按Ctrl+A然后按D可以退出screen会话，服务会在后台继续运行。

3.2 检查服务状态

服务启动后，我们需要确认它是否正常运行。有几种方法可以检查：

方法一：查看启动日志

cd /root/workspace
tail -f deepseek_qwen.log

如果看到类似下面的输出，说明服务启动成功：

INFO 07-15 14:30:15 llm_engine.py:149] Initializing an LLM engine with config: ...
INFO 07-15 14:30:20 model_runner.py:101] Loading model weights...
INFO 07-15 14:30:25 model_runner.py:123] Model loaded successfully.
INFO 07-15 14:30:25 llm_engine.py:201] LLM engine initialized.
Uvicorn running on http://0.0.0.0:8000

方法二：检查端口监听

netstat -tlnp | grep 8000

应该能看到8000端口正在被监听。

方法三：直接测试API

curl http://localhost:8000/v1/models

如果返回类似下面的JSON，说明API服务正常：

{
  "object": "list",
  "data": [
    {
      "id": "DeepSeek-R1-Distill-Qwen-1.5B",
      "object": "model",
      "created": 1234567890,
      "owned_by": "vllm"
    }
  ]
}

4. 模型使用与测试

4.1 基础调用示例

现在服务已经跑起来了，我们来实际测试一下。我准备了一个完整的测试脚本，包含了各种使用场景：

# test_deepseek.py - DeepSeek-R1-Distill-Qwen-1.5B测试脚本
from openai import OpenAI
import time


class DeepSeekClient:
    """DeepSeek模型客户端封装"""
    
    def __init__(self, base_url="http://localhost:8000/v1"):
        """
        初始化客户端
        
        Args:
            base_url: API服务地址，默认本地8000端口
        """
        self.client = OpenAI(
            base_url=base_url,
            api_key="none"  # vLLM本地部署不需要API密钥
        )
        self.model = "DeepSeek-R1-Distill-Qwen-1.5B"
        
    def simple_chat(self, prompt, system_prompt=None, temperature=0.6, max_tokens=512):
        """
        简单对话接口
        
        Args:
            prompt: 用户输入
            system_prompt: 系统提示（可选）
            temperature: 温度参数，控制随机性
            max_tokens: 最大生成token数
            
        Returns:
            模型回复内容
        """
        messages = []
        
        # 添加系统提示（如果有）
        if system_prompt:
            messages.append({"role": "system", "content": system_prompt})
        
        # 添加用户输入
        messages.append({"role": "user", "content": prompt})
        
        try:
            start_time = time.time()
            
            response = self.client.chat.completions.create(
                model=self.model,
                messages=messages,
                temperature=temperature,
                max_tokens=max_tokens,
                stream=False
            )
            
            end_time = time.time()
            elapsed_time = end_time - start_time
            
            if response.choices:
                content = response.choices[0].message.content
                tokens_used = response.usage.total_tokens if response.usage else 0
                
                print(f"⏱  响应时间: {elapsed_time:.2f}秒")
                print(f" 使用token数: {tokens_used}")
                print(f" 回复内容:\n{content}\n")
                
                return content
            else:
                print(" 未收到有效回复")
                return None
                
        except Exception as e:
            print(f" API调用错误: {e}")
            return None
    
    def stream_chat(self, prompt, system_prompt=None):
        """
        流式对话，实时显示生成内容
        
        Args:
            prompt: 用户输入
            system_prompt: 系统提示（可选）
        """
        messages = []
        
        if system_prompt:
            messages.append({"role": "system", "content": system_prompt})
        messages.append({"role": "user", "content": prompt})
        
        print("AI正在思考...\n")
        print("AI: ", end="", flush=True)
        
        full_response = ""
        
        try:
            stream = self.client.chat.completions.create(
                model=self.model,
                messages=messages,
                temperature=0.6,
                max_tokens=1024,
                stream=True
            )
            
            start_time = time.time()
            
            for chunk in stream:
                if chunk.choices[0].delta.content is not None:
                    content = chunk.choices[0].delta.content
                    print(content, end="", flush=True)
                    full_response += content
            
            end_time = time.time()
            elapsed_time = end_time - start_time
            
            print(f"\n\n⏱  总响应时间: {elapsed_time:.2f}秒")
            print(f" 回复长度: {len(full_response)}字符")
            
            return full_response
            
        except Exception as e:
            print(f"\n 流式对话错误: {e}")
            return ""
    
    def batch_test(self, test_cases):
        """
        批量测试多个用例
        
        Args:
            test_cases: 测试用例列表，每个元素是(prompt, system_prompt)元组
        """
        print(" 开始批量测试...\n")
        
        results = []
        
        for i, (prompt, system_prompt) in enumerate(test_cases, 1):
            print(f" 测试用例 {i}/{len(test_cases)}")
            print(f"💭 用户输入: {prompt[:50]}..." if len(prompt) > 50 else f"💭 用户输入: {prompt}")
            
            if system_prompt:
                print(f"⚙  系统提示: {system_prompt[:50]}..." if len(system_prompt) > 50 else f"⚙  系统提示: {system_prompt}")
            
            response = self.simple_chat(prompt, system_prompt)
            results.append(response)
            
            print("-" * 50 + "\n")
        
        return results


def main():
    """主测试函数"""
    # 初始化客户端
    client = DeepSeekClient()
    
    print("=" * 60)
    print("DeepSeek-R1-Distill-Qwen-1.5B 模型测试")
    print("=" * 60)
    
    # 测试用例定义
    test_cases = [
        # (用户输入, 系统提示)
        (
            "请用中文介绍一下人工智能的发展历史",
            "你是一个知识渊博的AI助手，请用简洁明了的语言回答"
        ),
        (
            "写一个Python函数，计算斐波那契数列的第n项",
            "你是一个编程专家，请提供高效且可读性好的代码"
        ),
        (
            "秋天的夜晚有什么特点？请用诗歌的形式描述",
            "你是一个诗人，请创作优美的诗句"
        ),
        (
            "什么是机器学习？用简单的例子解释",
            "你是一个耐心的老师，请用小白能听懂的方式解释"
        ),
        (
            "帮我写一封工作邮件的开头，主题是项目进度汇报",
            "你是一个专业的职场助手，请用正式得体的语言"
        )
    ]
    
    # 执行批量测试
    client.batch_test(test_cases)
    
    # 单独测试流式对话
    print("\n" + "=" * 60)
    print("流式对话测试")
    print("=" * 60)
    
    client.stream_chat(
        "请详细说明深度学习和机器学习的区别",
        "你是一个技术专家，请用对比的方式解释"
    )


if __name__ == "__main__":
    main()

运行这个测试脚本：

cd /root/workspace
python test_deepseek.py

你会看到模型对各种问题的回复，包括响应时间、使用的token数等信息。

4.2 使用技巧与最佳实践

根据DeepSeek官方的建议，使用这个模型时有一些技巧可以让效果更好：

温度设置建议：

推荐温度值：0.5-0.7（我一般用0.6）
温度太低（如0.1）：回复会过于保守，缺乏创意
温度太高（如1.0）：可能会产生重复或不连贯的内容

提示词编写技巧：

# 好的提示词示例
good_prompt = """
请逐步推理，并将最终答案放在\\boxed{}内。

问题：一个长方形的长是8厘米，宽是5厘米，求它的面积和周长。
"""

# 调用示例
response = client.simple_chat(good_prompt)

处理思维链中断： 有时候模型可能会输出"\n\n"然后停止，这是它在思考过程中可能出现的情况。官方建议强制模型在每次输出开始时使用"\n"：

# 改进的提示词
enhanced_prompt = "\\n请回答以下问题：什么是人工智能？"

数学问题专用格式： 对于数学问题，使用特定的格式要求：

math_prompt = """
请逐步推理，并将最终答案放在\\boxed{}内。

计算：(3 + 5) × 2 ÷ 4 = ?
"""

5. 性能优化与监控

5.1 模型参数调优

为了让模型在边缘设备上跑得更快更稳，我们可以调整一些参数：

# optimized_client.py - 优化版客户端
from openai import OpenAI
import json


class OptimizedDeepSeekClient:
    """优化版的DeepSeek客户端"""
    
    def __init__(self, base_url="http://localhost:8000/v1"):
        self.client = OpenAI(base_url=base_url, api_key="none")
        self.model = "DeepSeek-R1-Distill-Qwen-1.5B"
        
        # 优化参数配置
        self.optimized_params = {
            "temperature": 0.6,      # 平衡创意和稳定性
            "max_tokens": 1024,      # 控制生成长度
            "top_p": 0.9,           # 核采样参数
            "frequency_penalty": 0.1, # 减少重复
            "presence_penalty": 0.1,  # 鼓励多样性
        }
    
    def optimized_chat(self, prompt, system_prompt=None, **kwargs):
        """使用优化参数的对话"""
        messages = []
        
        if system_prompt:
            messages.append({"role": "system", "content": system_prompt})
        
        messages.append({"role": "user", "content": prompt})
        
        # 合并参数，用户自定义参数优先
        params = {**self.optimized_params, **kwargs}
        
        try:
            response = self.client.chat.completions.create(
                model=self.model,
                messages=messages,
                **params
            )
            
            return response.choices[0].message.content
            
        except Exception as e:
            print(f"优化调用错误: {e}")
            return None
    
    def benchmark_test(self, prompt, iterations=10):
        """性能基准测试"""
        print(f" 开始性能测试，迭代次数: {iterations}")
        
        times = []
        tokens_list = []
        
        for i in range(iterations):
            import time
            
            start_time = time.time()
            
            response = self.client.chat.completions.create(
                model=self.model,
                messages=[{"role": "user", "content": prompt}],
                temperature=0.6,
                max_tokens=256,
                stream=False
            )
            
            end_time = time.time()
            
            elapsed_time = end_time - start_time
            tokens_used = response.usage.total_tokens if response.usage else 0
            
            times.append(elapsed_time)
            tokens_list.append(tokens_used)
            
            if (i + 1) % 5 == 0:
                print(f"  已完成 {i + 1}/{iterations} 次迭代")
        
        # 计算统计信息
        avg_time = sum(times) / len(times)
        avg_tokens = sum(tokens_list) / len(tokens_list)
        tokens_per_second = avg_tokens / avg_time if avg_time > 0 else 0
        
        print(f"\n 测试结果:")
        print(f"   平均响应时间: {avg_time:.3f}秒")
        print(f"   平均使用token数: {avg_tokens:.1f}")
        print(f"   平均速度: {tokens_per_second:.1f} token/秒")
        print(f"   最快响应: {min(times):.3f}秒")
        print(f"   最慢响应: {max(times):.3f}秒")
        
        return {
            "avg_time": avg_time,
            "avg_tokens": avg_tokens,
            "tokens_per_second": tokens_per_second
        }


# 使用示例
if __name__ == "__main__":
    client = OptimizedDeepSeekClient()
    
    # 性能测试
    print("性能基准测试...")
    results = client.benchmark_test("请用一句话介绍人工智能", iterations=5)
    
    # 优化调用示例
    print("\n优化调用示例...")
    response = client.optimized_chat(
        "写一个简短的科技新闻标题",
        "你是一个新闻编辑"
    )
    print(f"回复: {response}")

5.2 资源监控脚本

在边缘设备上运行，我们需要监控资源使用情况：

#!/bin/bash
# monitor_resources.sh - 资源监控脚本

echo "DeepSeek模型服务资源监控"
echo "按 Ctrl+C 停止监控"
echo ""

while true; do
    clear
    
    echo "====== $(date) ======"
    echo ""
    
    # 1. 检查模型服务进程
    echo "1. 进程状态:"
    pgrep -f "vllm.entrypoints.openai.api_server" > /dev/null
    if [ $? -eq 0 ]; then
        echo "    模型服务运行中"
        
        # 获取进程ID和资源使用
        PID=$(pgrep -f "vllm.entrypoints.openai.api_server")
        echo "   进程ID: $PID"
        
        # CPU使用率
        CPU_USAGE=$(ps -p $PID -o %cpu | tail -n 1)
        echo "   CPU使用率: $CPU_USAGE%"
        
        # 内存使用
        MEM_USAGE=$(ps -p $PID -o %mem | tail -n 1)
        MEM_KB=$(ps -p $PID -o rss | tail -n 1)
        MEM_MB=$(echo "scale=2; $MEM_KB / 1024" | bc)
        echo "   内存使用: $MEM_USAGE% (${MEM_MB}MB)"
    else
        echo "    模型服务未运行"
    fi
    
    echo ""
    
    # 2. GPU状态
    echo "2. GPU状态:"
    if command -v nvidia-smi &> /dev/null; then
        nvidia-smi --query-gpu=name,memory.total,memory.used,memory.free,utilization.gpu,temperature.gpu --format=csv,noheader | while IFS=, read -r name total used free util temp; do
            echo "   显卡: $name"
            echo "   显存: 已用${used} / 总共${total}"
            echo "   使用率: $util"
            echo "   温度: ${temp}°C"
        done
    else
        echo "   ℹ  未检测到NVIDIA GPU"
    fi
    
    echo ""
    
    # 3. 系统资源
    echo "3. 系统资源:"
    echo "   负载: $(uptime | awk -F'load average:' '{print $2}')"
    echo "   内存: $(free -h | awk '/^Mem:/ {print "已用:" $3 "/" $2 " (" $3/$2*100 "%)"}')"
    echo "   磁盘: $(df -h / | awk 'NR==2 {print "已用:" $3 "/" $2 " (" $5 ")"}')"
    
    echo ""
    
    # 4. 服务端口检查
    echo "4. 网络端口:"
    if netstat -tlnp 2>/dev/null | grep :8000 > /dev/null; then
        echo "    端口8000监听正常"
    else
        echo "    端口8000未监听"
    fi
    
    echo ""
    echo "5. 最近日志摘要:"
    if [ -f "/root/workspace/deepseek_qwen.log" ]; then
        tail -5 /root/workspace/deepseek_qwen.log | while read line; do
            echo "   $line"
        done
    else
        echo "   日志文件不存在"
    fi
    
    # 等待5秒
    sleep 5
done

运行监控脚本：

chmod +x monitor_resources.sh
./monitor_resources.sh

这个脚本会实时显示系统资源使用情况，帮助你了解模型服务的运行状态。

6. 实际应用场景

6.1 本地智能助手

有了这个本地部署的模型，你可以构建一个完全离线的智能助手：

# local_assistant.py - 本地智能助手
import json
from datetime import datetime
from optimized_client import OptimizedDeepSeekClient


class LocalAIAssistant:
    """本地AI助手"""
    
    def __init__(self):
        self.client = OptimizedDeepSeekClient()
        self.conversation_history = []
        
    def chat_loop(self):
        """交互式聊天循环"""
        print(" 本地AI助手已启动（输入'退出'结束对话）")
        print("=" * 50)
        
        while True:
            try:
                user_input = input("\n你: ").strip()
                
                if user_input.lower() in ['退出', 'exit', 'quit']:
                    print("👋 再见！")
                    break
                
                if not user_input:
                    continue
                
                # 记录对话历史
                self.conversation_history.append({
                    "role": "user",
                    "content": user_input,
                    "time": datetime.now().strftime("%H:%M:%S")
                })
                
                # 构建上下文（最近3轮对话）
                messages = []
                for msg in self.conversation_history[-6:]:  # 最多3轮对话
                    messages.append({"role": msg["role"], "content": msg["content"]})
                
                # 调用模型
                print("\nAI正在思考...", end="", flush=True)
                
                response = self.client.optimized_chat(
                    user_input,
                    system_prompt="你是一个有帮助的本地AI助手，请用友好、专业的语气回答"
                )
                
                print("\r" + " " * 20 + "\r", end="")  # 清除"正在思考"提示
                
                if response:
                    print(f"AI: {response}")
                    
                    # 记录AI回复
                    self.conversation_history.append({
                        "role": "assistant",
                        "content": response,
                        "time": datetime.now().strftime("%H:%M:%S")
                    })
                else:
                    print("AI: 抱歉，我暂时无法回答这个问题。")
                    
            except KeyboardInterrupt:
                print("\n\n👋 对话结束")
                break
            except Exception as e:
                print(f"\n 错误: {e}")
    
    def save_conversation(self, filename="conversation_history.json"):
        """保存对话历史"""
        with open(filename, 'w', encoding='utf-8') as f:
            json.dump(self.conversation_history, f, ensure_ascii=False, indent=2)
        print(f"💾 对话已保存到 {filename}")
    
    def load_conversation(self, filename="conversation_history.json"):
        """加载对话历史"""
        try:
            with open(filename, 'r', encoding='utf-8') as f:
                self.conversation_history = json.load(f)
            print(f" 已加载对话历史，共{len(self.conversation_history)}条记录")
        except FileNotFoundError:
            print(" 未找到历史记录文件")


if __name__ == "__main__":
    assistant = LocalAIAssistant()
    assistant.chat_loop()
    assistant.save_conversation()

6.2 批量文档处理

这个模型也适合处理本地文档：

# document_processor.py - 文档处理工具
import os
import re
from pathlib import Path
from optimized_client import OptimizedDeepSeekClient


class DocumentProcessor:
    """文档处理工具"""
    
    def __init__(self):
        self.client = OptimizedDeepSeekClient()
        
    def summarize_text(self, text, max_length=200):
        """文本摘要"""
        prompt = f"""
请为以下文本生成一个简洁的摘要，不超过{max_length}字：

{text[:2000]}  # 限制输入长度
"""
        
        response = self.client.optimized_chat(
            prompt,
            system_prompt="你是一个专业的文本摘要工具，请提取核心信息"
        )
        
        return response
    
    def extract_keywords(self, text, num_keywords=5):
        """提取关键词"""
        prompt = f"""
请从以下文本中提取{num_keywords}个最重要的关键词：

{text[:1000]}
"""
        
        response = self.client.optimized_chat(
            prompt,
            system_prompt="你是一个关键词提取工具，请用逗号分隔关键词"
        )
        
        # 清理响应
        keywords = [k.strip() for k in response.split(',') if k.strip()]
        return keywords[:num_keywords]
    
    def translate_text(self, text, target_language="英文"):
        """文本翻译"""
        prompt = f"""
请将以下文本翻译成{target_language}：

{text[:1000]}
"""
        
        response = self.client.optimized_chat(
            prompt,
            system_prompt=f"你是一个专业的翻译助手，请将内容准确翻译成{target_language}"
        )
        
        return response
    
    def batch_process_files(self, folder_path, output_folder="processed"):
        """批量处理文件夹中的文本文件"""
        folder = Path(folder_path)
        output_dir = Path(output_folder)
        output_dir.mkdir(exist_ok=True)
        
        # 支持的文件类型
        text_extensions = ['.txt', '.md', '.json', '.csv']
        
        results = []
        
        for file_path in folder.glob("*"):
            if file_path.suffix.lower() in text_extensions:
                print(f"处理文件: {file_path.name}")
                
                try:
                    # 读取文件内容
                    with open(file_path, 'r', encoding='utf-8') as f:
                        content = f.read()
                    
                    # 生成摘要
                    summary = self.summarize_text(content)
                    
                    # 提取关键词
                    keywords = self.extract_keywords(content)
                    
                    # 保存结果
                    result = {
                        "filename": file_path.name,
                        "summary": summary,
                        "keywords": keywords,
                        "original_size": len(content),
                        "summary_size": len(summary)
                    }
                    
                    results.append(result)
                    
                    # 保存到文件
                    output_file = output_dir / f"{file_path.stem}_processed.json"
                    import json
                    with open(output_file, 'w', encoding='utf-8') as f:
                        json.dump(result, f, ensure_ascii=False, indent=2)
                    
                    print(f"    处理完成，摘要长度: {len(summary)}字")
                    print(f"    关键词: {', '.join(keywords)}")
                    
                except Exception as e:
                    print(f"    处理失败: {e}")
        
        print(f"\n 批量处理完成！共处理 {len(results)} 个文件")
        print(f" 结果保存在: {output_dir.absolute()}")
        
        return results


# 使用示例
if __name__ == "__main__":
    processor = DocumentProcessor()
    
    # 测试单个功能
    test_text = """
人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大。
"""
    
    print("文本摘要测试:")
    summary = processor.summarize_text(test_text)
    print(f"摘要: {summary}")
    
    print("\n关键词提取测试:")
    keywords = processor.extract_keywords(test_text)
    print(f"关键词: {keywords}")
    
    print("\n翻译测试:")
    translation = processor.translate_text(test_text[:100], "英文")
    print(f"翻译: {translation}")
    
    # 批量处理示例（需要实际文件）
    # processor.batch_process_files("./documents", "./processed_docs")