本文档主要面向对大语言模型技术感兴趣,尤其是希望深入了解 DeepSeek 模型的技术爱好者、开发者和相关行业从业者。

(本解读资料未在绑定资源内)

        DeepSeek 包含强大的非推理型模型 V3 和推理型模型 R1。V3 在数学、代码任务上表现卓越,训练成本低,采用创新架构,训练时优化了数据使用。R1 擅长复杂任务,通过独特训练方式提升性能,且能        进行模型蒸馏。

        在使用技巧方面,DeepSeek 有多种提示词技巧,不同模式下使用方法各异。如 R1 推理模式可把 R1 当人交流,还能学习其思维链、方法论等。

        DeepSeek 应用场景广泛,文本生成可实现文风转换、内容批量生成;编程领域能进行代码生成、调试、解释等;绘图方面可借助工具生成思维导图、流程图等;还能接入多种软件、硬件和知识库。

        目前,DeepSeek 官方服务受注册量和外部攻击影响,出现卡慢和 API 充值暂停的情况。不过,有多种替代方案,包括秘塔 AI 搜索、纳米 AI 搜索等在线平台,腾讯云等大厂云服务,华为等手机厂商的集成,以及 Cursor 等 AI 编程工具的接入。若选择本地部署,需依据不同版本的配置要求,结合自身设备条件和应用场景进行选择。

        DeepSeek 是一个强大的大语言模型,包括非推理型的 DeepSeekV3 和推理型的 DeepSeekR1V3 在数学、代码等任务上表现出色,训练成本不到 600 万美元,采用了无额外损耗的负载均衡、Multi-Head Latent Attention 等创新架构R1 擅长处理复杂任务,在数学、代码等方面性能比肩 OpenAI o1,通过冷启动数据和多阶段训练优化。文档还介绍了 DeepSeek 的提示词技巧、使用模式、应用场景,以及受注册人数激增和外部攻击影响,其官方 APP 和 Web 应用出现卡慢等情况,同时给出了多种在线和本地部署的替代方案。



详细总结

  1. DeepSeek 模型概述
    • DeepSeekV3:是一个强大的 MoE(混合专家)语言模型,非推理型。训练成本不到 600 万美元,在数学、代码等任务上表现优异,能与闭源模型竞争。其架构包含无额外损耗的负载均衡、Multi-Head Latent Attention(MLA)、DeepSeek MoE、多 Token 预测(MTP)策略等创新点。训练步骤包括预训练(无监督学习)、精调(监督学习和强化学习),使用了多种数据,提高了数学和编程样本比例,扩展多语言覆盖范围。
    • DeepSeekR1:是强大的推理模型,擅长处理复杂任务,在数学、代码、自然语言推理等任务上性能比肩 OpenAI o1 正式版,小模型超越 OpenAI o1-mini。训练跳过监督微调,采用冷启动数据和多阶段训练,还进行了模型蒸馏,将推理能力转移到小模型。
  2. DeepSeek 使用技巧
    • 提示词技巧:部分技巧在 DeepSeekR1 和 V3 中通用,如清晰、具体地表达,提供背景 / 规则,占位符标记等;部分技巧在 R1 中视情况而定,如使用示例、设定角色;逐步思考 / COT 在 R1 中失效。
    • 使用模式:推理模式下把 R1 当人看、说人话,学习其思维链,请教方法论,还可使用 V3+R1 组合拳;联网模式基于 RAG 检索增强生成,非实时性问题不建议开启;基础模式基本沿用以前提示词技巧。
  3. DeepSeek 应用场景
    • 文本生成:包括文风转换 / 仿写、内容批量生成,如生成电影解说文案、书籍金句、AI 绘画提示词等。
    • 编程:代码生成涵盖 APP、小程序、小游戏开发,自动化脚本、Processing 动画等;还可进行代码调试、解释、注释,生成技术文档。
    • 绘图:通过生成 Markdown 格式文本导入 Xmind 等工具绘制思维导图;生成 Mermaid 格式文本导入 draw.io 绘制流程图等图形图表;生成 SVG 矢量图;通过生成代码脚本实现 Photoshop 图片批量处理。
    • API 应用:可接入 Word、WPS 等文档软件,Obsidian、FastGPT 等 AI 知识库,以及 iPhone、安卓手机等智能硬件。
    • 其他:用于自我探索和发现,分析心理问题;助力乙游(恋爱模拟游戏)剧本创作。
  4. DeepSeek 现状与替代方案
    • 现状:截至 2025 年 2 月 10 日,受注册人数激增和外部恶意攻击影响,DeepSeek 官方 APP 和 Web 应用出现卡慢、服务器繁忙情况,官网 API 申请入口暂停充值。
    • 替代方案:在线搜索方面,有秘塔 AI 搜索、纳米 AI 搜索等;大模型云服务平台如硅基流动,提供在线使用和 API 申请;国内大厂云服务 & 产品,如腾讯云、百度云千帆等已接入;手机厂商如华为、荣耀等也接入了 DeepSeek-R1;还有 AI 编程工具如 Cursor 和 Windsu 忏接入;本地部署需根据不同版本模型配置要求进行,提供了不同版本的硬件配置要求及适用场景。

模型

类型

参数规模

架构特点

训练数据

性能表现

DeepSeekV3

非推理型 MoE 语言模型

72B(总参数),37B(激活参数)

无额外损耗的负载均衡、MLA、DeepSeek MoE、MTP

提高数学和编程样本比例,扩展多语言覆盖范围

在数学、代码等任务上吊打开源模型,接近 GPT-4o 等闭源模型

DeepSeekR1

推理模型

671B(总参数)

/

冷启动数据,多阶段训练

在数学、代码等任务上性能比肩 OpenAI o1,语言能力独一档


关键问题

  1. DeepSeekV3 和 DeepSeekR1 在训练过程中有哪些不同?
    • DeepSeekV3 先进行预训练,再通过精调(监督学习和强化学习),使用大量无标注数据集、基于规则和模型的奖励模型等进行训练,提高数学和编程样本比例并扩展多语言覆盖范围。DeepSeekR1 跳过监督微调,直接将强化学习应用于基础模型,借助冷启动数据和多阶段训练优化,还进行模型蒸馏将推理能力转移到小模型。
  2. DeepSeek 在代码生成方面有哪些具体应用场景?
    • DeepSeek 在代码生成方面可用于开发 APP、小程序、小游戏,如用 Python 开发贪吃蛇游戏、开发 iOS 应用等;还能生成自动化脚本,如 Python 数据采集脚本;以及制作 Processing 动画,如以 “哪吒” 为元素的动态粒子消散动画。此外,还可用于代码改写、注释、解释等,辅助理解和优化代码。
  3. DeepSeek 的替代方案中,本地部署需要注意什么?
    • 本地部署 DeepSeek 需要注意硬件配置要求,不同版本模型对 CPU、内存、硬盘、显卡要求不同,如 1.5B 模型需 4 核 CPU、8GB 内存等,671B 满血版则需 64 核服务器集群、512GB + 内存等。同时要根据实际应用场景选择合适版本,建议从轻量级模型开始尝试。还可采用量化技术、合适的推理框架优化,部分大模型也可考虑云部署。手机端可使用 Chatbox + 硅基流动 DeepSeek API 部署,电脑端可使用 Chatbox/Chery Studio + 硅基流动 DeepSeek API 部署。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐