
如何下载Deepseek开源模型?
下述内容来自官方简介机翻。第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型,没有监督微调 (SFT) 作为初步步骤,在推理方面表现出了卓越的性能。随着 RL 的出现,DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。然而,DeepSeek-R1-Zero 遇到了无
Deepseek各用途各版本开源代码可在HuggingFace进行下载:
下述内容来自官方简介并基于大语言模型进行翻译。
DeepSeek-R1
我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是通过大规模强化学习(RL)训练的模型,在没有监督微调(SFT)作为初步步骤的情况下,展现了出色的推理性能。在 RL 的作用下,DeepSeek-R1-Zero 自然地展现出了许多强大且有趣的推理行为。然而,DeepSeek-R1-Zero 遇到了一些挑战,例如无休止的重复、可读性差和语言混用等问题。为了解决这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,它在 RL 之前加入了冷启动数据。DeepSeek-R1 在数学、代码和推理任务上达到了与 OpenAI-o1 相当的性能。为了支持研究社区,我们已开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及从 DeepSeek-R1 基于 Llama 和 Qwen 提炼出的六个稠密模型。DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中超过了 OpenAI-o1-mini,创造了稠密模型的新最先进结果。
DeepSeek-V2
我们推出了 DeepSeek-V2,一款强大的专家混合模型(Mixture-of-Experts,MoE)语言模型,具有经济的训练和高效的推理特性。它包含 236B 总参数,其中每个 token 激活 21B 参数。与 DeepSeek 67B 相比,DeepSeek-V2 不仅在性能上更强,同时节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,并将最大生成吞吐量提升了 5.76 倍。
DeepSeek-V3
我们介绍了 DeepSeek-V3,一款强大的专家混合模型(Mixture-of-Experts,MoE)语言模型,总参数量为 671B,每个 token 激活 37B 参数。为了实现高效推理和成本效益的训练,DeepSeek-V3 采用了多头潜在注意力(Multi-head Latent Attention,MLA)和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了充分验证。此外,DeepSeek-V3 首创了一种无辅助损失的负载均衡策略,并设定了多 token 预测训练目标,以提升模型性能。我们在 14.8 万亿个多样化且高质量的 token 上预训练了 DeepSeek-V3,然后进行了监督微调和强化学习阶段,充分发挥其能力。全面评估结果表明,DeepSeek-V3 超越了其他开源模型,并达到了与领先闭源模型相当的性能。尽管性能优异,DeepSeek-V3 完全训练所需的 GPU 时间仅为 2.788M H800 小时。此外,其训练过程非常稳定。在整个训练过程中,我们未遇到任何不可恢复的损失激增,也未进行任何回滚操作。
DeepSeek-VL
我们提出了DeepSeek-VL,一个开源的视觉-语言(VL)模型,旨在支持现实世界的视觉与语言理解应用。我们的方法围绕三个关键维度进行结构设计:我们力求确保数据的多样性、可扩展性,并广泛覆盖包括网页截图、PDF、OCR、图表和基于知识的内容等现实世界场景,力求全面呈现实际应用中的多种背景。此外,我们基于真实用户场景创建了一个使用案例分类法,并相应地构建了一个指令调优数据集。使用这个数据集进行微调显著提高了模型在实际应用中的用户体验。考虑到效率以及大多数现实世界场景的需求,DeepSeek-VL采用了一个混合视觉编码器,高效处理高分辨率图像(1024 x 1024),同时保持相对较低的计算开销。这一设计选择确保了模型能够在各种视觉任务中捕捉到关键信息和细节。我们认为,一个高效的视觉-语言模型应首先具备强大的语言能力。为了确保在预训练过程中保持LLM(大语言模型)的能力,我们通过从一开始就整合LLM训练,并精心管理视觉与语言模态之间的竞争动态,探索了一种有效的VL预训练策略。DeepSeek-VL系列(包括1.3B和7B模型)作为现实世界应用中的视觉-语言聊天机器人,展示了卓越的用户体验,在众多视觉-语言基准测试中取得了领先或具有竞争力的表现,同时在语言为主的基准测试中保持了强大的性能。我们已公开1.3B和7B模型,以推动基于这一基础模型的创新。
DeepSeek-VL2
我们推出了 DeepSeek-VL2,一系列先进的大型专家混合模型(Mixture-of-Experts,MoE)视觉语言模型,显著提升了其前身 DeepSeek-VL 的性能。DeepSeek-VL2 在多个任务上展现了卓越的能力,包括但不限于视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位等。我们的模型系列由三个变种组成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2,分别具有 10 亿、28 亿和 45 亿激活参数。与现有的开源稠密模型和基于 MoE 的模型相比,DeepSeek-VL2 在激活参数相似或更少的情况下,达到了具有竞争力或最先进的性能。
Deepseek-Coder
大型语言模型的快速发展已经彻底改变了软件开发中的代码智能。然而,闭源模型的主导地位限制了广泛的研究和开发。为了解决这个问题,我们推出了 DeepSeek-Coder 系列,这是一系列开源代码模型,规模从 1.3B 到 33B 参数不等,完全从 2 万亿个 token 上进行训练。这些模型在高质量的项目级代码语料库上进行了预训练,并采用了填空任务(fill-in-the-blank),使用 16K 的窗口来增强代码生成和填充能力。我们通过广泛的评估证明,DeepSeek-Coder 不仅在多个基准测试中实现了开源代码模型中的最先进性能,而且超越了现有的闭源模型,如 Codex 和 GPT-3.5。此外,DeepSeek-Coder 模型采用宽松许可,既支持研究用途,也允许无限制的商业使用。
DeepSeekCoder-V2
我们推出了 DeepSeek-Coder-V2,一款开源的专家混合模型(Mixture-of-Experts,MoE)代码语言模型,在代码相关任务中达到了与 GPT4-Turbo 相当的性能。具体来说,DeepSeek-Coder-V2 是从 DeepSeek-V2 的一个中间检查点进一步预训练的,使用了额外的 6 万亿个 token。通过这一持续的预训练,DeepSeek-Coder-V2 大幅增强了 DeepSeek-V2 的编码和数学推理能力,同时在通用语言任务中保持了相当的性能。与 DeepSeek-Coder-33B 相比,DeepSeek-Coder-V2 在多个代码相关任务、推理和通用能力方面表现出显著的进步。此外,DeepSeek-Coder-V2 将对编程语言的支持从 86 种扩展到 338 种,同时将上下文长度从 16K 扩展到 128K。
DeepSeek-Math
DeepSeekMath 是以 DeepSeek-Coder-v1.5 7B 为基础初始化的,并在来自 Common Crawl 的数学相关 token 上继续预训练,同时结合自然语言和代码数据,共计 500B token。DeepSeekMath 7B 在不依赖外部工具包和投票技术的情况下,已经在竞争级别的 MATH 基准测试中取得了 51.7% 的令人印象深刻的成绩,接近 Gemini-Ultra 和 GPT-4 的性能水平。为了支持研究,我们将发布基础模型、指令模型和强化学习模型的检查点供公众使用。
DeepSeek-Prover
像 Lean 这样的证明助手已经彻底改变了数学证明验证,确保了高准确性和可靠性。尽管大型语言模型(LLMs)在数学推理方面显示出潜力,但它们在形式化定理证明方面的进展受到训练数据不足的限制。为了解决这个问题,我们提出了一种方法,通过将高中和本科水平的数学竞赛问题转化为形式化的声明,生成大量的 Lean 4 证明数据。这一方法包括将自然语言问题翻译成形式化声明,过滤掉低质量的声明,并生成证明来创建合成数据。在对包含 800 万个形式化声明和证明的合成数据集进行微调后,我们的 DeepSeekMath 7B 模型在 Lean 4 miniF2F 测试中的整体证明生成准确度达到了 46.3%(64 个样本),并在累计测试中达到了 52%,超越了基线 GPT-4(23.0%,64 个样本)和树搜索强化学习方法(41.0%)。此外,我们的模型成功证明了 148 道 Lean 4 国际数学奥林匹克(FIMO)基准问题中的 5 道,而 GPT-4 未能证明任何一道。这些结果展示了利用大规模合成数据提升 LLM 形式化定理证明能力的潜力。
DeepSeek-LLM
开源大型语言模型(LLMs)的快速发展令人瞩目。然而,先前文献中描述的规模定律(scaling law)得出了不同的结论,这给大型 LLM 的扩展带来了不确定性。我们深入研究了规模定律,并提出了我们独特的发现,这些发现有助于在两种常用的开源配置(7B 和 67B)中扩展大规模模型。根据规模定律的指导,我们推出了 DeepSeek LLM 项目,致力于从长远角度推动开源语言模型的进步。为了支持预训练阶段,我们开发了一个数据集,目前包含 2 万亿个 token,并且在不断扩展。我们进一步对 DeepSeek LLM 基础模型进行了监督微调(SFT)和直接偏好优化(DPO),从而创建了 DeepSeek Chat 模型。我们的评估结果表明,DeepSeek LLM 67B 在多个基准测试中超越了 LLaMA-2 70B,特别是在代码、数学和推理领域。此外,开放式评估显示,DeepSeek LLM 67B Chat 的表现优于 GPT-3.5。。
DeepSeek-MoE
在大型语言模型时代,专家混合模型(Mixture-of-Experts,MoE)是一种有前景的架构,可以在扩大模型参数时管理计算成本。然而,传统的 MoE 架构,如 GShard,它从 N 个专家中激活 top-K 个专家,面临着确保专家专业化的挑战,即每个专家都获得非重叠且集中的知识。为此,我们提出了 DeepSeekMoE 架构,旨在实现终极专家专业化。该架构涉及两项主要策略:(1)将专家精细地划分为 mN 个,并从中激活 mK 个专家,允许更灵活地组合激活的专家;(2)将 K_s 个专家隔离为共享专家,旨在捕捉共性知识并减少路由专家中的冗余。我们从一个较小的 2B 参数规模开始,展示了 DeepSeekMoE 2B 在性能上与 GShard 2.9B 相当,后者具有 1.5 倍的专家参数和计算量。此外,DeepSeekMoE 2B 的性能几乎接近于具有相同总参数数量的稠密模型,设定了 MoE 模型的上限。随后,我们将 DeepSeekMoE 扩展到 16B 参数,并展示它在计算量仅为 LLaMA2 7B 的约 40% 时,能够达到与 LLaMA2 7B 相当的性能。此外,我们的初步工作将 DeepSeekMoE 扩展到 145B 参数,验证了其相较于 GShard 架构的显著优势,并显示其性能与 DeepSeek 67B 相当,计算量仅为 28.5%(甚至可能是 18.2%)。
ESFT
参数高效微调(PEFT)对于在资源受限的情况下定制大型语言模型(LLMs)至关重要。尽管已有多种 PEFT 方法用于稠密架构的 LLM,但针对稀疏架构 LLM 的 PEFT 研究仍然较少。在本研究中,我们探讨了适用于专家混合架构(Mixture-of-Experts,MoE)LLM 的 PEFT 方法,本工作主要包含三个方面:
(1)我们研究了在定制任务中激活专家的分散程度,并发现,特定任务的路由分布往往高度集中,而激活专家的分布在不同任务之间有显著差异。
(2)我们提出了专家专业化微调(Expert-Specialized Fine-Tuning,ESFT),该方法仅对与下游任务最相关的专家进行微调,同时冻结其他专家和模块;实验结果表明,我们的方法不仅提高了微调效率,还能够匹配甚至超越全参数微调的性能。
(3)我们进一步分析了 MoE 架构对专家专业化微调的影响。我们发现,MoE 模型中具有更细粒度专家的架构,在选择最相关的专家组合时更具优势,从而提升了训练效率和效果。
根据需求选择适合版本,这里选择Deepseek-LLM
这里不支持批量下载,分别下载后保存到同一个文件夹下面即可进行后续Fine tune操作。
更多推荐
所有评论(0)