极简部署deepseek7B | 教程

在现代自然语言处理（NLP）领域，大型语言模型（LLM）如DeepSeek正变得越来越流行。这些模型能够生成连贯、上下文相关的文本，适用于各种应用，包括聊天机器人、内容生成和问答系统。本文将介绍如何在Ubuntu 22.04系统上，使用Python 3.10.12、Transformers 4.49.0和Torch 2.6.0加载和运行DeepSeek 7B模型。

Open_Li

1399人浏览 · 2025-02-28 16:27:02

Open_Li · 2025-02-28 16:27:02 发布

系统环境准备

操作系统
Ubuntu 22.04
内存
32GB（建议，以确保流畅运行）
显卡
无（本指南使用CPU，GPU会显著提升性能）
Python版本
3.10.12
配套库
Transformers 4.49.0
- Torch 2.6.0

下载DeepSeek 7B模型

首先，需要从ModelScope平台下载DeepSeek 7B模型文件包。访问DeepSeek-R1-Distill-Qwen-7B模型页面，直接下载模型文件（避免使用Git克隆，以节省时间）。下载完成后，将文件解压到指定目录，例如/home/tool/deepseek/7b/DeepSeek-R1-Distill-Qwen-7B。

安装必要的Python库

确保系统中已安装Python 3.10.12，然后安装Transformers和Torch库。可以通过pip命令安装：

pip install transformers==4.49.0 torch==2.6.0

加载模型

接下来，编写Python脚本（如deepseek_demo.py）来加载和运行模型。以下是脚本的核心部分：

from transformers import AutoModelForCausalLM, AutoTokenizer

import torch

model_path = "/home/tool/deepseek/7b/DeepSeek-R1-Distill-Qwen-7B"  # 模型路径

device = "cpu"  # 使用CPU，如有GPU可改为"cuda"

# 加载模型和分词器

tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained(

    model_path,

    trust_remote_code=True,

    torch_dtype=torch.float16,  # 使用半精度浮点数以节省内存

    device_map="auto"

).to(device)

# 生成响应函数

def generate_response(prompt):

    messages = [{"role": "user", "content": prompt}]

    inputs = tokenizer.apply_chat_template(

        messages,

        add_generation_prompt=True,

        return_tensors="pt"

    ).to(device)

    outputs = model.generate(

        inputs,

        max_new_tokens=512,

        do_sample=True,

        temperature=0.8,

        top_p=0.9

    )

    response = tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True)

    return response

# 测试对话

if __name__ == "__main__":

    while True:

        user_input = input("用户：")

        if user_input.lower() == "exit":

            break

        print("助手：", generate_response(user_input))

运行脚本

在终端中运行脚本：