【AI-35】Deepseek-各代模型具体情况

模型整合方式的多样性：在大模型的构建中，对于知识库的整合可以有多种方式和策略，而且可能是多种技术的组合运用。同样，在知识融合模块整合超万亿 token 的领域知识库时，除了 RAG 技术外，也可能存在其他类似的或辅助的技术来实现动态获取和利用知识，不能排除其他可能性，所以说 “很可能借助了 RAG 技术”。像 “I am Claude” 基于空格分词会被分割为（“I”，“am”，“Claude”）

W Y

2081人浏览 · 2025-02-22 15:13:58

W Y · 2025-02-22 15:13:58 发布

Deepseek各代模型具体情况

Deepseek 的一代、二代、三代以及 R1 模型的相关信息如下：

DeepSeek-LLM（V1）
token 数：训练数据包含约 2 万亿 tokens。
发布时间：2024 年 1 月 5 日。
DeepSeek V2
token 数：训练数据提升到 8.1T tokens。在8.1万亿token的高质量、多样化语料库上做预训练，支持128K tokens的上下文长度。
发布时间：2024 年 5 月 7 日。
DeepSeek V3
token 数：在14.8万亿token上做预训练，上下文长度Token数为65,792，最大输入Token数为57,344，最大输出Token数为8,192。
发布时间：2024 年 12 月 26 日。
DeepSeek R1
token 数：上下文长度Token数为65,792，最大输入Token数为57,344，最大输出Token数为32,768。
发布时间：2025 年 1 月 31 日

在人工智能领域，“Token” 一般被翻译为 “标记”“词例” 或 “词元”。token 数是衡量模型处理文本量的一个重要指标。token 是语言类模型中处理文本的最小单元或基本元素。比如，在自然语言处理中，模型会将输入的文本分解成一个个 token 来进行计算和理解。像 “I am Claude” 基于空格分词会被分割为（“I”，“am”，“Claude”），“Claude 是一款 AI” 基于词典分词可分为（“Claude”，“是”，“一款”，“AI”）。

DeepSeek R1的token数不以万亿计，主要有以下原因：

1. 目标定位不同
前几代模型可能更侧重于通用语言理解和生成等基础能力的训练，对数据的广度和多样性要求较高。而R1定位于强化推理能力，需要针对性地构建和整合大量有助于提升推理的高质量数据，包含复杂推理过程的长链推理数据，因此token的量级和构成与前几代有所不同。
DeepSeek R1的技术突破源于后训练阶段的强化学习设计，其注重在强化学习等技术上提升推理等能力，而非依赖超大规模的token数据来提升性能，通过这种方式可在较小标注数据量下取得较好效果。

2. 训练策略差异
R1采用了独特的训练策略，冷启动阶段使用少量高质量CoT数据微调模型，后续强化学习阶段也与前几代的训练方式有所不同。这种训练策略可能不需要前几代相同规模或类型的数据，而是更注重数据的质量和推理任务的相关性，通过高效地利用数据来推理性能。

3. 知识融合需求
R1强调整合超万亿token的领域知识库，这些知识可能来自各种专业领域和特定场景，为了实现知识的有效融合和利用，需要对数据进行筛选、整理和标注等处理，使得最终用于训练的token数不同。

4. 应用场景与需求导向差异
R1主要面向多种实际应用场景，如AI眼镜等端侧设备智能化。在这些场景中，更重要的是模型在有限资源和特定任务下的高效运行与准确推理，对大规模token数据的需求并不如预训练阶段构建通用基础模型那么强烈。

5. 成本与效率的综合考量
使用海量token数据进行训练成本极高，包括计算资源、时间和资金等方面。R1通过技术创新降低了对大规模数据的依赖，以实现更高效的训练和部署，提升性价比，使其能以较低成本服务于广大用户和企业。

6. 已有基础与优化方向
R1基于DeepSeek-V3-Base模型架构。V3已经在14.8万亿token上完成了预训练。R1在此基础上，通过继承其部分特性并进行针对性优化，如采用YaRN技术扩展上下文长度等，就能够满足自身的性能提升需求，而无需再次使用海量token进行训练。

DeepSeek R1 在通用语言理解和生成能力上会比 V3 弱吗？

设计定位不同：虽然定位不是以通用语言理解和生成能力为首要目标，更专注于复杂问题解决和深度推理等高级任务，但在通用语言任务如MMLU（Massive Multitask Language Understanding）和DROP（Dataset for Reading Comprehension with Cloze-style Questions）中也略优于V3。【MMLU是一个大规模的多任务语言理解，用于评估语言模型在多个领域和任务上的知识理解和推理能力，DROP用于评估和改进阅读理解模型，专注于测试模型对文本中数字和离散实体的推理能力。】
技术原理支撑：R1采用大规模强化学习技术、多阶段训练等，如通过冷启动数据微调构建长推理链基础能力，在强化学习优化阶段引入语言一致性奖励机制等。这些技术使它在处理语言任务时，尤其是与推理相关的语言生成，能够有逻辑、有条理地进行。并非缺乏通用语言理解和生成的基础能力。
知识融合和迁移：R1整合超万亿的领域知识库，这些知识可以在一定程度上帮助模型进行语言生成。在处理具体任务时，模型能够将相关领域知识和语言生产相结合，从而生成更丰富更有深度的内容。
预训练方面：在预训练阶段，模型会接触大量的文本数据，学习语言的通用模式、语义信息等基础知识，这是其理解和处理自然语言的基础。超万亿 token 的领域知识库中的部分知识可能在预训练过程中就被模型学习和吸收，成为模型参数所承载的知识的一部分，帮助模型建立起对各种领域概念、关系等的基础理解。
RAG 方面：RAG 即检索增强生成，能够在模型生成内容时，根据输入实时地从外部知识库中检索相关信息，并将其融入到生成过程中。DeepSeek-R1 的知识融合模块在整合超万亿 token 的领域知识库时，也很可能借助了 RAG 技术，使得模型在推理和生成阶段可以动态地获取和利用知识库中的特定领域知识，以生成更准确、更符合需求的内容。比如用户提出特定领域问题时，通过 RAG 技术从超万亿 token 的领域知识库中快速检索出相关信息，辅助模型生成高质量回答。

【技术细节不完全明确：尽管 DeepSeek-R1 开源了模型权重等内容，但关于其对超万亿 token 领域知识库具体的整合方式和技术运用，官方可能并没有完全详尽地披露所有细节。在没有确凿的、明确的技术文档或官方说明表明超万亿 token 的领域知识库一定是怎样在预训练中被处理，以及一定是采用了 RAG 技术来整合的情况下，不能绝对肯定地给出结论。
模型整合方式的多样性：在大模型的构建中，对于知识库的整合可以有多种方式和策略，而且可能是多种技术的组合运用。即使在预训练阶段，模型可能会从超万亿 token 的领域知识库中学习知识，但具体学习的程度、范围以及方式可能存在多种情况，不一定是全部知识都能被吸收，所以说 “部分知识可能被学习和吸收”。同样，在知识融合模块整合超万亿 token 的领域知识库时，除了 RAG 技术外，也可能存在其他类似的或辅助的技术来实现动态获取和利用知识，不能排除其他可能性，所以说 “很可能借助了 RAG 技术”。】