这里是引用
1月27日,DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT;同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。而1月11日,DeepSeek的App才刚刚上线iOS和安卓的应用市场。

本文引用地址:https://www.eepw.com.cn/article/202502/466922.htm
640.png

DeepSeek横空出世

DeepSeek,成立于2023年7月17日,全称杭州深度求索人工智能基础技术研究有限公司,专注于开发先进的大语言模型(LLM)和相关技术。在团队配置上,相比OpenAI拥有1200名研究人员,DeepSeek团队只有139名研发人员,其中算子、推理框架、多模态等研发工程师以及深度学习方面的研究人员共有约70人。

2023年5月,DeepSeek创始人梁文锋开始进入通用人工智能(AGI)领域,从公开的工作经历和职业生涯来看,他的创业范畴横跨金融和人工智能领域,在量化投资和高性能计算领域具有深厚的背景和丰富的经验。2015年,30岁的梁文锋和朋友一起创办了杭州幻方科技有限公司,立志成为世界顶级的量化对冲基金;2016年10月,幻方量化(High-Flyer)推出第一个AI模型,第一份由深度学习生成的交易仓位上线执行;到2017年底,几乎所有的量化策略都采用AI模型计算;2019年,幻方量化成为国内首个募资超过1000亿元的的量化对冲基金。

在AI科技领域,美国长期以来都是创新的引领者,一直以来都被认为是追赶者的中国公司,第一次在AI行业中站上世界舞台的中心。而且,DeepSeek的核心研究员都是中国本土培养的博士,没有海外留学的背景,在一定程度上打破了技术创新只能在美国出现的刻板印象。

DeepSeek的全球热议还带来了美股的惊天震动,英伟达单日大跌近17%,市值蒸发近6000亿美元(相当于人民币4.3万亿),创美股单日跌幅最高纪录。原因不仅是因为DeepSeek训练成本下降,带来了芯片算力需求可能会下降的恐慌,也源自传统的美国科技资本逻辑受到的冲击。

出道即巅峰

DeepSeek可以说是“出道即巅峰”,2024年12月26日宣布旗下全新系列模型DeepSeek-V3首个版本上线并同步开源,总参数达6710亿,采用创新的MoE架构和FP8混合精度训练,并公布了长达53页的训练和技术细节。真正让DeepSeek火出圈的是 —— 其总训练成本只有557.6万美元,而GPT-4o的约为1亿美元,使用25000个GPU芯片。

在DeepSeek发表的原始报告中有详细解释这笔成本的计算:在预训练阶段,每兆个token上训练DeepSeek-V3仅需要180K H800 GPU小时,也就是说在拥有2048个H800 GPU的丛集上需要3.7天。因此,预训练阶段在不到两个月的时间内完成,耗费2664K GPU小时。加上上下文长度扩充所需的119K GPU小时和后制训练所需的5K GPU小时,DeepSeek-V3的完整训练仅需2.788M GPU小时。假设H800 GPU的租赁价格为每GPU小时2美元,总训练成本仅为557.6万美元。

DeepSeek-V3通过数据与算法层面的优化,大幅提升算力利用效率,实现了协同效应。这证明,模型效果不仅依赖于算力投入,即使在硬件资源有限的情况下,依托数据与算法层面的优化创新,仍然可以高效利用算力,实现较好的模型效果。

· DeepSeekMoE(Mixture of Experts,混合专家)

传统稠密模型,比如GPT-3.5,在训练和推理过程中激活全部参数。然而事实上,并非模型的每个部分都是当前任务所必需的。因此,MoE的理念是将模型区分为多个「专家」,推理时只激活对任务必要的专家。MoE模型的效率优势正源于其选择性激活机制,与传统模型(如Llama)需要激活全部网络权重不同,MoE通过对计算网络进行分类,显著降低计算成本。

MoE模型此前未被广泛应用的主要障碍是训练难度大,容易出现信息分类不当,DeepSeek V3通过创新性的算法和工程优化,成功突破这一限制。DeepSeek在V3模型论文中称,相较于传统MoE,DeepSeekMoE使用了“更细粒度”的专家,使专家更加专门化,单个专家仅数十亿参数,提升了任务适配性;同时,DeepSeekMoE将一些专家隔离为“共享专家”,用于减轻专家之间的知识冗余,从而使V3模型在激活相同数量专家和参数的情况下表现更好。

· MTP(Multi-Token Prediction,多tokens预测)

传统大模型回答用户需求时只预测下一个token,V3通过MTP技术同时预测下2个token。这里的关键是第二个预测token的准确性问题(即「接受率」,预测的token能被最终采用的比例)。DeepSeek评估称,在不同生成主题中,
来源:https://www.eepw.com.cn/article/202502/466922.htm

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐