DeepSeek

简单介绍：成立时间：DeepSeek23年7月份，技术：数据蒸馏技术背景：知名私募巨头幻方量化孕育而生24年1月发布，同月发布。2月，发布。3月，发布。5月，发布。6月，发布。9月，更新 API 支持文档，宣布合并DeepSeek Coder V2 和 DeepSeek V2 Chat，推出。12月，发布。同月正式上线DeepSeek-V3首个版本并同步开源。25年1月20号，发布数据蒸馏技术Mi

学霸学渣一念之差

3980人浏览 · 2025-02-08 19:45:00

学霸学渣一念之差 · 2025-02-08 19:45:00 发布

文章目录

本文章发表个人拙见，只简单讲解Deepseek，如有不足之处以及疑惑之处可以私信以及在评论区评论反馈给博主。大家点赞三连，才有更新的动力。谢谢！关注博主了解更多的AI知识。

DeepSeek简介

简单介绍：
成立时间：DeepSeek23年7月份，
技术：数据蒸馏技术
背景：知名私募巨头幻方量化孕育而生
24年1月发布DeepSeek LLM，同月发布DeepSeek-Coder。
2月，发布DeepSeekMath。
3月，发布DeepSeek-VL。
5月，发布DeepSeek-V2 。
6月，发布DeepSeek-Coder-V2 。
9月，更新 API 支持文档，宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat ，推出 DeepSeek V2.5 。
12月，发布DeepSeek-VL2 。同月正式上线DeepSeek-V3首个版本并同步开源 。
25年1月20号，发布DeepSeek-R1

技术介绍

数据蒸馏技术
 Mixture-of-Experts（MOE）模型介绍

DeepSeek模型

- DeepSeek LLM

任务：基础大型语言模型系列，
规格：包含7B和67B以及16B参数版本混合专家模型
效果：
DeepSeek LLM 67B Base在推理、编码、数学和中文理解等方面超越了Llama2 70B Base。
DeepSeek LLM 67B Chat在编码和数学方面表现出色。它还展现了显著的泛化能力，
精通中文：DeepSeek LLM 67B Chat在中文表现上超越了GPT-3.5

- DeepSeek-Coder

任务：专为代码生成打造的模型，专注于代码生成、补全、修复及数学推理任务
规格：规格1B到33B版本不等
效果：多种编程语言和各种基准测试中达到了开源代码模型的最先进性能

- DeepSeekMath

任务：能专注于数学推理的模型，能够高效处理复杂的数学问题和逻辑推理任务
规格：规格为7B
效果：DeepSeekMath 7B在竞赛级MATH基准测试51.7%，接近Gemini-Ultra和GPT-4的性能水平

- DeepSeek-VL

任务：视觉语言模型，能够处理图像与文本信息的融合
规格：1.3B和7B模型
效果：在相同模型尺寸下，在广泛的视觉-语言基准测试中达到了最先进或可竞争的性能

- DeepSeek-V2 重点模型

任务：
训练成本：与前代的 67B 稠密模型相比，DeepSeek-V2 的训练成本降低了 42.5%。
KV 缓存占用：推理时的 KV 缓存占用减少了 93.3%，极大降低了显存压力。
吞吐量：最大生成吞吐量提高了 5.76 倍。
DeepSeek-V2 支持长达 128K 的上下文窗口，能够处理复杂的长文本任务。
规格：DeepSeek-V2 拥有 2360 亿参数，是一个超大规模的混合专家（MoE）模型。，在推理过程中，每个 Token 仅激活 210 亿参数，这使得模型在保持高性能的同时，显著降低了显存需求。
效果：在 MMLU 多选题基准测试中，DeepSeek-V2 取得了 78.5 分，排名第二，仅次于 70B 的 LLaMA3。
在中文综合能力评测中，DeepSeek-V2 与 GPT-4-Turbo、文心 4.0 等闭源模型处于同一梯队

- DeepSeek-V3

效果：在知识类任务（MMLU, MMLU-Pro, GPQA, SimpleQA）上的水平接近Claude-3.5-Sonnet-1022。在美国数学竞赛和全国高中数学联赛上，DeepSeek-V3大幅超过了其他所有开源闭源模型。另外，在生成速度上，DeepSeek-V3的生成吐字速度从20TPS（Transactions Per Second每秒完成的事务数量）大幅提高至60TPS

- DeepSeek-R1

效果：DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。DeepSeek-V3和DeepSeek-R1两款大模型，成本价格低廉，性能却与OpenAI相当

DeepSeek小结

成本低廉：DeepSeek目前来说在成本价格上低廉，在性能方面能与OpenAI相当。幻方量化19年建立了超算中心，提供科研级基础算力，加速复杂神经网络研究。并有着「萤火」系列AI训练平台。为DeepSeek打下夯实基础。
代码生成能力突出：DeepSeek-Coder V2 的代码生成准确率达到了 90.2%，超过了 GPT-4-Turbo。后续可能有着DeepSeek-Coder-V3版本，这个可能是一重大突破！
强大的语言和推理能力：在数学推理和逻辑推理任务上，DeepSeek-R1 等模型能够快速准确地给出答案，推理过程清晰明了。
易用与灵活：给AI开发人员提供规模1B到33B的选择，适合电脑或服务器进行部署。