
DeepSeek
简单介绍:成立时间:DeepSeek23年7月份,技术:数据蒸馏技术背景:知名私募巨头幻方量化孕育而生24年1月发布,同月发布。2月,发布。3月,发布。5月,发布。6月,发布。9月,更新 API 支持文档,宣布合并DeepSeek Coder V2 和 DeepSeek V2 Chat,推出。12月,发布。同月正式上线DeepSeek-V3首个版本并同步开源。25年1月20号,发布数据蒸馏技术Mi
文章目录
本文章发表个人拙见,只简单讲解Deepseek,如有不足之处以及疑惑之处可以私信以及在评论区评论反馈给博主。大家点赞三连,才有更新的动力。谢谢!关注博主了解更多的AI知识。
DeepSeek简介
简单介绍:
成立时间:DeepSeek23年7月份,
技术:数据蒸馏技术
背景:知名私募巨头幻方量化孕育而生
24年1月发布DeepSeek LLM,同月发布DeepSeek-Coder。
2月,发布DeepSeekMath。
3月,发布DeepSeek-VL。
5月,发布DeepSeek-V2 。
6月,发布DeepSeek-Coder-V2 。
9月,更新 API 支持文档,宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat ,推出 DeepSeek V2.5 。
12月,发布DeepSeek-VL2 。同月正式上线DeepSeek-V3首个版本并同步开源 。
25年1月20号,发布DeepSeek-R1
技术介绍
数据蒸馏技术
Mixture-of-Experts(MOE)模型介绍
DeepSeek模型
- DeepSeek LLM
任务:基础大型语言模型系列,
规格:包含7B和67B以及16B参数版本混合专家模型
效果:
DeepSeek LLM 67B Base在推理、编码、数学和中文理解等方面超越了Llama2 70B Base。
DeepSeek LLM 67B Chat在编码和数学方面表现出色。它还展现了显著的泛化能力,
精通中文:DeepSeek LLM 67B Chat在中文表现上超越了GPT-3.5
- DeepSeek-Coder
任务:专为代码生成打造的模型,专注于代码生成、补全、修复及数学推理任务
规格:规格1B到33B版本不等
效果:多种编程语言和各种基准测试中达到了开源代码模型的最先进性能
- DeepSeekMath
任务:能专注于数学推理的模型,能够高效处理复杂的数学问题和逻辑推理任务
规格:规格为7B
效果:DeepSeekMath 7B在竞赛级MATH基准测试51.7%,接近Gemini-Ultra和GPT-4的性能水平
- DeepSeek-VL
任务:视觉语言模型,能够处理图像与文本信息的融合
规格:1.3B和7B模型
效果:在相同模型尺寸下,在广泛的视觉-语言基准测试中达到了最先进或可竞争的性能
- DeepSeek-V2 重点模型
任务:
训练成本:与前代的 67B 稠密模型相比,DeepSeek-V2 的训练成本降低了 42.5%。
KV 缓存占用:推理时的 KV 缓存占用减少了 93.3%,极大降低了显存压力。
吞吐量:最大生成吞吐量提高了 5.76 倍。
DeepSeek-V2 支持长达 128K 的上下文窗口,能够处理复杂的长文本任务。
规格:DeepSeek-V2 拥有 2360 亿参数,是一个超大规模的混合专家(MoE)模型。,在推理过程中,每个 Token 仅激活 210 亿参数,这使得模型在保持高性能的同时,显著降低了显存需求。
效果:在 MMLU 多选题基准测试中,DeepSeek-V2 取得了 78.5 分,排名第二,仅次于 70B 的 LLaMA3。
在中文综合能力评测中,DeepSeek-V2 与 GPT-4-Turbo、文心 4.0 等闭源模型处于同一梯队
- DeepSeek-V3
效果:在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平接近Claude-3.5-Sonnet-1022。在美国数学竞赛和全国高中数学联赛上,DeepSeek-V3大幅超过了其他所有开源闭源模型。另外,在生成速度上,DeepSeek-V3的生成吐字速度从20TPS(Transactions Per Second每秒完成的事务数量)大幅提高至60TPS
- DeepSeek-R1
效果:DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。DeepSeek-V3和DeepSeek-R1两款大模型,成本价格低廉,性能却与OpenAI相当
DeepSeek小结
- 成本低廉:DeepSeek目前来说在成本价格上低廉,在性能方面能与OpenAI相当。幻方量化19年建立了超算中心,提供科研级基础算力,加速复杂神经网络研究。并有着「萤火」系列AI训练平台。为DeepSeek打下夯实基础。
- 代码生成能力突出:DeepSeek-Coder V2 的代码生成准确率达到了 90.2%,超过了 GPT-4-Turbo。后续可能有着DeepSeek-Coder-V3版本,这个可能是一重大突破!
- 强大的语言和推理能力:在数学推理和逻辑推理任务上,DeepSeek-R1 等模型能够快速准确地给出答案,推理过程清晰明了。
- 易用与灵活:给AI开发人员提供规模1B到33B的选择,适合电脑或服务器进行部署。
DeepSeek启示
- 1.早在24年5月DeepSeek-V2模型已经以极低的推理成本引发AI行业关注,被称为“AI界的拼多多”。为何在年底年初段时间爆出,背后的深层原理值得思考
- 2.普通人在DeepSeek如何从中定位,是否需要进行本地部署。
- 3.DeepSeek跟之前的Kimi,豆包以及智谱清言等模型相比,各自的差异性在哪?
- 4.AI技术在不断的进步更新,作为AI人员应保持高度的学习心态学习。
更多推荐
所有评论(0)