手把手教你本地部署深度（DeepSeek）大模型

[HuggingFace模型库](https://huggingface.co/deepseek-ai)- [官方GitHub仓库](https://github.com/deepseek-ai)**声明**：本文部署方案基于公开技术文档整理，具体实施请遵守相关许可协议。### 3.1 量化部署（8bit量化）1. 模型文件需单独下载（约14GB）

A-余笙

1188人浏览 · 2025-03-02 21:24:56

A-余笙 · 2025-03-02 21:24:56 发布

**本文使用环境**：

- Ubuntu 20.04 LTS

- NVIDIA RTX 3090 (24GB显存)

- Python 3.10

- CUDA 11.8

---

## 一、准备工作

### 1.1 获取模型文件

推荐从官方渠道获取模型（以DeepSeek-7B-Chat为例）：

```bash

# 使用官方下载工具

pip install modelscope

python -c "from modelscope import snapshot_download; snapshot_download('deepseek-ai/deepseek-llm-7b-chat')"

```

**文件目录结构**：

```

/deepseek-llm-7b-chat

├── config.json

├── model-00001-of-00003.safetensors

├── model.safetensors.index.json

└── tokenizer.json

```

### 1.2 环境配置

```bash

# 创建虚拟环境

conda create -n deepseek python=3.10 -y

conda activate deepseek

# 安装依赖库

pip install torch==2.0.1+cu118 --extra-index-url https://download.pytorch.org/whl/cu118

pip install transformers==4.34.0 accelerate sentencepiece

```

---

## 二、快速启动推理服务

### 2.1 编写启动脚本（run.py）

```python

from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "/path/to/deepseek-llm-7b-chat"

tokenizer = AutoTokenizer.from_pretrained(model_path)

model = AutoModelForCausalLM.from_pretrained(

model_path,

device_map="auto",

torch_dtype=torch.bfloat16

)

def chat():

while True:

prompt = input("User: ")

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

outputs = model.generate(**inputs, max_length=512)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(f"Assistant: {response[len(prompt):]}")

if __name__ == "__main__":

chat()

```

### 2.2 启动服务

```bash

python run.py --model-path ./deepseek-llm-7b-chat

```

---

## 三、高级配置技巧

### 3.1 量化部署（8bit量化）

```python

model = AutoModelForCausalLM.from_pretrained(

model_path,

load_in_8bit=True,

device_map="auto"

)

```

### 3.2 多GPU并行

```python

model = AutoModelForCausalLM.from_pretrained(

model_path,

device_map="balanced",

max_memory={i: '24GiB' for i in range(torch.cuda.device_count())}

)

```

---

## 四、常见问题排查

### 4.1 CUDA内存不足

- 解决方案：启用梯度检查点

```python

model.gradient_checkpointing_enable()

```

### 4.2 生成结果不符合预期

```python

# 调整生成参数

outputs = model.generate(

**inputs,

temperature=0.7,

top_p=0.9,

repetition_penalty=1.1,

max_new_tokens=256

)

```

---

## 五、性能优化建议

1. 使用Flash Attention 2：

```python

model = AutoModelForCausalLM.from_pretrained(

model_path,

use_flash_attention_2=True

)

```

2. 启用PagedAttention（需vLLM支持）：

```bash

pip install vLLM

```

```python

from vllm import LLM

llm = LLM(model=model_path, tensor_parallel_size=2)

```

---

## 六、效果演示

![demo](https://img-blog.csdnimg.cn/direct/5f4b4f4d4d3b4f4a9b4c4d4e4f4b4c4d.png)

```text

用户：帮我写一首关于春天的诗

DeepSeek：

春风拂面柳丝长，细雨润物百花香。

燕子归来寻旧垒，纸鸢飞舞映晴光。

```

---

**注意事项**：

1. 模型文件需单独下载（约14GB）

2. 首次运行会自动生成分词器缓存

3. 建议至少24GB显存运行7B版本

**相关资源**：

- [官方GitHub仓库](https://github.com/deepseek-ai)

- [HuggingFace模型库](https://huggingface.co/deepseek-ai)

---

如果觉得本文有帮助，欢迎点赞⭐收藏📌关注✅，获取更多AI部署实战技巧！

---

**声明**：本文部署方案基于公开技术文档整理，具体实施请遵守相关许可协议。

**下一期预告**：《DeepSeek模型微调实战：打造专属行业大模型》

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

毕业论文写不动？Gemini 3.1 Pro帮你提效五倍

DeepSeek技术社区

2026年实测：Gemini 3 Pro中文能力深度拆解与国内免费镜像站推荐

DeepSeek技术社区

Gemini 3.1 Pro vs GPT-5.2，场景选型指南

DeepSeek技术社区

所有评论(0)

查看更多评论

A-余笙

@weixin_62922042

已为社区贡献4条内容

手把手教你本地部署深度（DeepSeek）大模型

A-余笙

所有评论(0)

温馨提示：您尚未绑定手机号

A-余笙