精读：DeepSeek自学手册-从理论模型训练到实践模型应用【附全文阅读】

不过，有多种替代方案，包括秘塔 AI 搜索、纳米 AI 搜索等在线平台，腾讯云等大厂云服务，华为等手机厂商的集成，以及 Cursor 等 AI 编程工具的接入。V3 在数学、代码任务上表现卓越，训练成本低，采用创新架构，训练时优化了数据使用。文档还介绍了 DeepSeek 的提示词技巧、使用模式、应用场景，以及受注册人数激增和外部攻击影响，其官方 APP 和 Web 应用出现卡慢等情况，同时给出了

智慧化智能化数字化方案

956人浏览 · 2025-03-24 10:45:00

智慧化智能化数字化方案 · 2025-03-24 10:45:00 发布

本文档主要面向对大语言模型技术感兴趣，尤其是希望深入了解 DeepSeek 模型的技术爱好者、开发者和相关行业从业者。

(本解读资料未在绑定资源内）

DeepSeek 包含强大的非推理型模型 V3 和推理型模型 R1。V3 在数学、代码任务上表现卓越，训练成本低，采用创新架构，训练时优化了数据使用。R1 擅长复杂任务，通过独特训练方式提升性能，且能进行模型蒸馏。

在使用技巧方面，DeepSeek 有多种提示词技巧，不同模式下使用方法各异。如 R1 推理模式可把 R1 当人交流，还能学习其思维链、方法论等。

DeepSeek 应用场景广泛，文本生成可实现文风转换、内容批量生成；编程领域能进行代码生成、调试、解释等；绘图方面可借助工具生成思维导图、流程图等；还能接入多种软件、硬件和知识库。

目前，DeepSeek 官方服务受注册量和外部攻击影响，出现卡慢和 API 充值暂停的情况。不过，有多种替代方案，包括秘塔 AI 搜索、纳米 AI 搜索等在线平台，腾讯云等大厂云服务，华为等手机厂商的集成，以及 Cursor 等 AI 编程工具的接入。若选择本地部署，需依据不同版本的配置要求，结合自身设备条件和应用场景进行选择。

DeepSeek 是一个强大的大语言模型，包括非推理型的 DeepSeekV3 和推理型的 DeepSeekR1。V3 在数学、代码等任务上表现出色，训练成本不到 600 万美元，采用了无额外损耗的负载均衡、Multi-Head Latent Attention 等创新架构；R1 擅长处理复杂任务，在数学、代码等方面性能比肩 OpenAI o1，通过冷启动数据和多阶段训练优化。文档还介绍了 DeepSeek 的提示词技巧、使用模式、应用场景，以及受注册人数激增和外部攻击影响，其官方 APP 和 Web 应用出现卡慢等情况，同时给出了多种在线和本地部署的替代方案。

详细总结

DeepSeek 模型概述
- DeepSeekV3：是一个强大的 MoE（混合专家）语言模型，非推理型。训练成本不到 600 万美元，在数学、代码等任务上表现优异，能与闭源模型竞争。其架构包含无额外损耗的负载均衡、Multi-Head Latent Attention（MLA）、DeepSeek MoE、多 Token 预测（MTP）策略等创新点。训练步骤包括预训练（无监督学习）、精调（监督学习和强化学习），使用了多种数据，提高了数学和编程样本比例，扩展多语言覆盖范围。
- DeepSeekR1：是强大的推理模型，擅长处理复杂任务，在数学、代码、自然语言推理等任务上性能比肩 OpenAI o1 正式版，小模型超越 OpenAI o1-mini。训练跳过监督微调，采用冷启动数据和多阶段训练，还进行了模型蒸馏，将推理能力转移到小模型。
DeepSeek 使用技巧
- 提示词技巧：部分技巧在 DeepSeekR1 和 V3 中通用，如清晰、具体地表达，提供背景 / 规则，占位符标记等；部分技巧在 R1 中视情况而定，如使用示例、设定角色；逐步思考 / COT 在 R1 中失效。
- 使用模式：推理模式下把 R1 当人看、说人话，学习其思维链，请教方法论，还可使用 V3+R1 组合拳；联网模式基于 RAG 检索增强生成，非实时性问题不建议开启；基础模式基本沿用以前提示词技巧。
DeepSeek 应用场景
- 文本生成：包括文风转换 / 仿写、内容批量生成，如生成电影解说文案、书籍金句、AI 绘画提示词等。
- 编程：代码生成涵盖 APP、小程序、小游戏开发，自动化脚本、Processing 动画等；还可进行代码调试、解释、注释，生成技术文档。
- 绘图：通过生成 Markdown 格式文本导入 Xmind 等工具绘制思维导图；生成 Mermaid 格式文本导入 draw.io 绘制流程图等图形图表；生成 SVG 矢量图；通过生成代码脚本实现 Photoshop 图片批量处理。
- API 应用：可接入 Word、WPS 等文档软件，Obsidian、FastGPT 等 AI 知识库，以及 iPhone、安卓手机等智能硬件。
- 其他：用于自我探索和发现，分析心理问题；助力乙游（恋爱模拟游戏）剧本创作。
DeepSeek 现状与替代方案
- 现状：截至 2025 年 2 月 10 日，受注册人数激增和外部恶意攻击影响，DeepSeek 官方 APP 和 Web 应用出现卡慢、服务器繁忙情况，官网 API 申请入口暂停充值。
- 替代方案：在线搜索方面，有秘塔 AI 搜索、纳米 AI 搜索等；大模型云服务平台如硅基流动，提供在线使用和 API 申请；国内大厂云服务 & 产品，如腾讯云、百度云千帆等已接入；手机厂商如华为、荣耀等也接入了 DeepSeek-R1；还有 AI 编程工具如 Cursor 和 Windsu 忏接入；本地部署需根据不同版本模型配置要求进行，提供了不同版本的硬件配置要求及适用场景。

模型	类型	参数规模	架构特点	训练数据	性能表现
DeepSeekV3	非推理型 MoE 语言模型	72B（总参数），37B（激活参数）	无额外损耗的负载均衡、MLA、DeepSeek MoE、MTP	提高数学和编程样本比例，扩展多语言覆盖范围	在数学、代码等任务上吊打开源模型，接近 GPT-4o 等闭源模型
DeepSeekR1	推理模型	671B（总参数）	/	冷启动数据，多阶段训练	在数学、代码等任务上性能比肩 OpenAI o1，语言能力独一档

关键问题

DeepSeekV3 和 DeepSeekR1 在训练过程中有哪些不同？
- DeepSeekV3 先进行预训练，再通过精调（监督学习和强化学习），使用大量无标注数据集、基于规则和模型的奖励模型等进行训练，提高数学和编程样本比例并扩展多语言覆盖范围。DeepSeekR1 跳过监督微调，直接将强化学习应用于基础模型，借助冷启动数据和多阶段训练优化，还进行模型蒸馏将推理能力转移到小模型。
DeepSeek 在代码生成方面有哪些具体应用场景？
- DeepSeek 在代码生成方面可用于开发 APP、小程序、小游戏，如用 Python 开发贪吃蛇游戏、开发 iOS 应用等；还能生成自动化脚本，如 Python 数据采集脚本；以及制作 Processing 动画，如以 “哪吒” 为元素的动态粒子消散动画。此外，还可用于代码改写、注释、解释等，辅助理解和优化代码。
DeepSeek 的替代方案中，本地部署需要注意什么？
- 本地部署 DeepSeek 需要注意硬件配置要求，不同版本模型对 CPU、内存、硬盘、显卡要求不同，如 1.5B 模型需 4 核 CPU、8GB 内存等，671B 满血版则需 64 核服务器集群、512GB + 内存等。同时要根据实际应用场景选择合适版本，建议从轻量级模型开始尝试。还可采用量化技术、合适的推理框架优化，部分大模型也可考虑云部署。手机端可使用 Chatbox + 硅基流动 DeepSeek API 部署，电脑端可使用 Chatbox/Chery Studio + 硅基流动 DeepSeek API 部署。