本文章发表个人拙见,只简单讲解Deepseek,如有不足之处以及疑惑之处可以私信以及在评论区评论反馈给博主。大家点赞三连,才有更新的动力。谢谢!关注博主了解更多的AI知识。

DeepSeek简介

简单介绍:
成立时间:DeepSeek23年7月份,
技术:数据蒸馏技术
背景:知名私募巨头幻方量化孕育而生
24年1月发布DeepSeek LLM,同月发布DeepSeek-Coder
2月,发布DeepSeekMath
3月,发布DeepSeek-VL
5月,发布DeepSeek-V2
6月,发布DeepSeek-Coder-V2
9月,更新 API 支持文档,宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat ,推出 DeepSeek V2.5
12月,发布DeepSeek-VL2 。同月正式上线DeepSeek-V3首个版本并同步开源
25年1月20号,发布DeepSeek-R1

技术介绍

数据蒸馏技术
Mixture-of-Experts(MOE)模型介绍

DeepSeek模型

- DeepSeek LLM

任务:基础大型语言模型系列,
规格:包含7B和67B以及16B参数版本混合专家模型
效果
DeepSeek LLM 67B Base推理、编码、数学和中文理解等方面超越了Llama2 70B Base
DeepSeek LLM 67B Chat编码和数学方面表现出色。它还展现了显著的泛化能力
精通中文DeepSeek LLM 67B Chat中文表现上超越了GPT-3.5

- DeepSeek-Coder

任务:专为代码生成打造的模型,专注于代码生成、补全、修复及数学推理任务
规格:规格1B到33B版本不等
效果:多种编程语言和各种基准测试中达到了开源代码模型的最先进性能

- DeepSeekMath

任务:能专注于数学推理的模型,能够高效处理复杂的数学问题和逻辑推理任务
规格:规格为7B
效果:DeepSeekMath 7B在竞赛级MATH基准测试51.7%,接近Gemini-Ultra和GPT-4的性能水平

- DeepSeek-VL

任务:视觉语言模型,能够处理图像与文本信息的融合
规格:1.3B和7B模型
效果:在相同模型尺寸下,在广泛的视觉-语言基准测试中达到了最先进或可竞争的性能

- DeepSeek-V2 重点模型

任务
训练成本:与前代的 67B 稠密模型相比,DeepSeek-V2 的训练成本降低了 42.5%。
KV 缓存占用:推理时的 KV 缓存占用减少了 93.3%,极大降低了显存压力。
吞吐量:最大生成吞吐量提高了 5.76 倍。
DeepSeek-V2 支持长达 128K 的上下文窗口,能够处理复杂的长文本任务。
规格:DeepSeek-V2 拥有 2360 亿参数,是一个超大规模的混合专家(MoE)模型。,在推理过程中,每个 Token 仅激活 210 亿参数,这使得模型在保持高性能的同时,显著降低了显存需求。
效果:在 MMLU 多选题基准测试中,DeepSeek-V2 取得了 78.5 分,排名第二,仅次于 70B 的 LLaMA3。
在中文综合能力评测中,DeepSeek-V2 与 GPT-4-Turbo、文心 4.0 等闭源模型处于同一梯队

- DeepSeek-V3

效果:在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平接近Claude-3.5-Sonnet-1022。在美国数学竞赛和全国高中数学联赛上,DeepSeek-V3大幅超过了其他所有开源闭源模型。另外,在生成速度上,DeepSeek-V3的生成吐字速度从20TPS(Transactions Per Second每秒完成的事务数量)大幅提高至60TPS

- DeepSeek-R1

效果:DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。DeepSeek-V3和DeepSeek-R1两款大模型,成本价格低廉,性能却与OpenAI相当

DeepSeek小结

  • 成本低廉:DeepSeek目前来说在成本价格上低廉,在性能方面能与OpenAI相当。幻方量化19年建立了超算中心,提供科研级基础算力,加速复杂神经网络研究。并有着「萤火」系列AI训练平台。为DeepSeek打下夯实基础。
  • 代码生成能力突出:DeepSeek-Coder V2 的代码生成准确率达到了 90.2%,超过了 GPT-4-Turbo。后续可能有着DeepSeek-Coder-V3版本,这个可能是一重大突破!
  • 强大的语言和推理能力:在数学推理和逻辑推理任务上,DeepSeek-R1 等模型能够快速准确地给出答案,推理过程清晰明了。
  • 易用与灵活:给AI开发人员提供规模1B到33B的选择,适合电脑或服务器进行部署。

DeepSeek启示

  • 1.早在24年5月DeepSeek-V2模型已经以极低的推理成本引发AI行业关注,被称为“AI界的拼多多”。为何在年底年初段时间爆出,背后的深层原理值得思考
  • 2.普通人在DeepSeek如何从中定位,是否需要进行本地部署。
  • 3.DeepSeek跟之前的Kimi,豆包以及智谱清言等模型相比,各自的差异性在哪?
  • 4.AI技术在不断的进步更新,作为AI人员应保持高度的学习心态学习。
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐