在这个新的开端,最引人注目的,当属 DeepSeek 所引发的巨大波澜。

DeepSeek 的迅速崛起令人瞩目,它的影响力广泛传播,不仅成为白宫圆桌会议上严肃探讨的议题,也在杭州咖啡馆里成为人们津津乐道的话题,甚至成为全球股市做多与做空的攻防标的。

一场围绕着技术与文明归属的全球风暴正以 DeepSeek 为中心,在太平洋两岸轰轰烈烈地展开。

面对 DeepSeek 的横空出世,各界反应截然不同。

有人视其为东方智慧的突围,有人警惕其为规则破坏的威胁,而华人社区的争论更显撕裂——既有民族自豪的欢呼,亦有对"技术捷径"的尖锐质疑。

风暴中心的DeepSeek,恰似一面棱镜。折射出的不仅是地缘博弈的暗流,更是人类智慧跨越疆界的璀璨光谱,映照出人性幽深处难以捉摸的复杂。但有一点不要忘记,DeepSeek 的诞生绝不是单一国家的成果,它不仅是中国的骄傲,更是全人类智慧合作的结晶。

1、Transformer 基础架构未变

DeepSeek 模型基于谷歌公司于 2017 年提出的 Transformer 架构,并未实现从0到1的颠覆性基础理论创新,但其在模型算法和工程优化方面的系统级创新却不容小觑。其算法和工程创新主要包括了MoE专家模型、低秩注意力机制、强化学习、小模型蒸馏、FP8混合精度等工程创新。

很多理论早就有了,但DeepSeek是第一个将这些理论进行工程实践,就算不是从0到1,也可以说是从1到100的突破。

2、混合专家架构(MoE)

混合专家架构(Mixture of Experts,MoE)最早由谷歌提出,旨在通过动态激活部分网络参数来提高深度学习模型的计算效率。DeepSeek采用了这一架构,通过将网络参数分成多个“专家”,每次推理时只激活部分专家,降低了计算资源消耗,在不增加计算成本的前提下处理更复杂的任务。

这是一个典型的全球合作成果,科学家们跨越多个学科,从算法到硬件的优化共同推动了这一技术的发展。

3、多头潜在注意力(MLA)机制

多头注意力机制(MultiHead Attention,MHA)Transformer架构的重要组成部分,应用于自然语言处理任务。DeepSeek在此基础上发展出了多头潜在注意力机制(MLA),通过低秩联合压缩技术优化了键值(KV) 矩阵,从而显著减少了内存消耗并提高了推理效率。

MLA的核心思想是通过“潜在向量”来表达信息,避免了传统注意力机制中的高维数据存储问题。不管怎样黑,这在工程实践方面是一个突破。

4、多Token预测(MTP)训练目标

传统的训练目标通常是逐个生成Token,逐步推理。而多Token预测(MTP)技术则通过在训练阶段一次性预测多个Token,显著提高了训练速度并加速了模型的收敛过程。

DeepSeek引入这种方法,进一步提升了其在大规模数据集上的训练效率,尤其是在长文本的生成任务中,大大减少了计算资源的消耗。

5、FP8混合精度训练框架

FP8结合了数值分析、计算机架构优化和机器学习算法的最新进展,混合精度训练技术通过减少浮点数的精度要求(从传统的FP16或FP32到FP8),降低了内存需求并加速了计算过程。

这项技术能够在不显著损失模型精度的情况下,显著提高训练速度。DeepSeek的成功表明,混合精度训练框架可以在大规模深度学习任务中提供更高效的解决方案。

6、放弃微调拥抱“强化学习”

DeepSeek与OpenAI的o系列看起来的做法相比,在对待监督学习上更加激进。这也是参考了OpenAI的进化步骤,模型的重点从“语言交互”变成“数理逻辑”,前者是有大量的现成的数据的,但后者很多都是停留在脑子里的抽象思考

但强化学习也是多年前的产物了,只是DeepSeek做得更极致。

7、长上下文处理能力“更进一步”

长上下文处理能力是自然语言处理技术的一个重要里程碑。它结合了深度学习中的长短期记忆(LSTM)网络和Transformer架构的优势,DeepSeek能够处理长达128K的上下文长度,这一技术突破使得DeepSeek在处理长篇文章、技术文档等复杂内容时展现出强大的能力。

为了实现这一目标,DeepSeek在模型架构和优化算法上做出了巨大努力

8、开源的DeepSeek是给全世界的礼物

DeepSeek采取了完全开源的策略,通过MIT许可协议公开其模型和技术报告。

这是非常了不起的,我自己早期也做过一些技术项目,说实在的,当你投入了那么高的成本后,就算是让项目死亡,大部分人也不愿意开源的,凭什么呢?不要以为做这个决定容易,特别是一个小公司,因为它开源之后很有可能最终被大公司给取代。所以说DeepSeek是给全世界的礼物,这一决策将激发无数科研人员和工程师的创新。

9、蒸馏的争议被过于放大了

OpenAI指控DeepSeek通过“蒸馏”技术,未经授权地利用其模型输出数据来训练自己的模型,涉嫌侵犯知识产权。

还有张图描述 DeepSeek 从 OpenAI 的 “专属领地” 获取数据,可 OpenAI 在互联网上广泛抓取数据,难道就合规合理、毫无争议? DeepSeek 选择向全球开源,把成果回馈大众,这才是真正的普惠精神。虽然存在一些争议,但还没有严重到被“千夫所指”的程度。

懂技术的人应该明白,训练模型蒸馏语料信息很正常,甚至可以说互相蒸馏是一种必然,其实你用最新的O3模型也在蒸馏DeepSeek中文语料。

DeepSeek的技术是远强于“教师模型”的,如果只依靠“蒸馏”不可能做到现在这样的推理能力的。

10、多语言支持“AI大同世界”

DeepSeek不仅支持自然语言的理解与生成,还支持多种编程语言的处理。 通过广泛的数据训练和复杂的算法优化,DeepSeek能够在多种语言的上下文中提供高效的解答。

也许有一天,在DeepSeek的基础上,印度工程师可以用梵语诗律重构LSTM的时间箭头,玛雅后裔能将太阳历法编码成时序预测的傅里叶变换,埃及学者同样能在MoE架构中,破译象形文字与神经网络的同源基因。

11、低训练成本解放“中小公司”

DeepSeek通过优化模型架构和训练策略,成功将其训练成本控制在557万美元左右,相比其他同类大模型,成本显著较低。

当然这里存在一些争议,很多大模型公司提出怀疑,但幻方量化就算管理着千亿基金,但那是人家的钱,能拿出20个亿搞大模型就不得了。

还有人声称其背后有神秘力量支持,但如果没有自身的努力,又怎能让人们相信这样一家量化公司有这样的技术能力呢?”

所以DeepSeek低训练成本大致是可信的,不过低到557万美元就看人家怎么计算了。但最起码在硬件加速技术、算法优化和资源管理等多方面一定有创新。这给中小公司提供了榜样和动力。

以上,是从一些争议点来谈为什么DeepSeek是中国的同时也是世界的,当然要理解这些争议,同时希望DeepSeek更强大。

12、少谈“国运”多谈“世界”

少谈国运,多谈世界。

从技术的角度来看,DeepSeek实际上是全球共享的技术创新,它的起点是这个世界。同时它又通过开源策略、MIT许可协议发布其模型和技术报告,反馈给这个世界

动辄谈国运,反而使得DeepSeek的民族主义情绪太强烈,引发更多的对抗。这样的大模型技术,一定是全世界的合力。

13、算力限制与逆全球化问题

有人猜测说DeepSeek 在算力上使用了英伟达的最新 GPU,美国政府也正在调查新加坡是否存在对接管道。就算这是真的,可这是 DeepSeek 的原罪吗?这难道不是美国搞逆全球化的错?

算力的全球流动性受到政治力量的影响,指责DeepSeek在这一点上的“责任”并不公正,技术的全球化应该是开放的,而不应该受到政治因素造成的封锁。

14、幻想不是DeepSeek的错,而是你的错

有一些用户指责 DeepSeek 幻想、胡编乱造,进而认为 DeepSeek 有问题。

其实这是你自己的问题,生成式AI的本质就是“幻想”, 你怎么可能要求它说的完全准确呢?如果你用过其他GPT的话绝不可能说这样的话。

生成式AI的能力是通过概率和模型推理的结果,因此无法完全保证准确无误。 正如使用GPT的用户都明白,生成式AI有其局限性,它的判断和输出也受限于输入数据和训练过程中的假设。完全依赖AI输出并将其作为最终答案的做法是不科学的,**用户应该保持批判性思维和审慎态度。
如果你幻想AI能够“完美”输出内容,或将其视为无误的全知全能工具,是一种愚蠢的看法。

也就是说这是你的错,不是DeepSeek的错。

15、理解“隐私和数据保护”和“国家安全和伦理担忧”

欧洲隐私调查:

意大利数据保护机构Garante因DeepSeek未能充分回应其隐私政策问题,已下令在意大利封禁其聊天机器人。

美国封禁:

海军已禁止其成员使用DeepSeek,理由是潜在的安全和伦理问题。

澳大利亚禁令:

政府因国家安全担忧,已禁止在政府设备上使用DeepSeek。

这样的担心是正常的,因为没有人知道 DeepSeek 的官方数据权限是如何设置的。不过,由于 DeepSeek 已经开源,这些政府和机构可以将模型下载到本地再运行。

16、量化技术没有原罪,请讲逻辑

量化交易技术本身并非错误,而是制度设计存在问题。

很多人嘲笑DeepSeek,因为它的后面是幻方量化公司,所以它是有原罪的。

这种逻辑实在难以理解,然而持这种观点的人却不在少数。

量化交易作为一种依赖于数学模型和计算机技术的交易方式,旨在制定能带来超额收益的多种 “大概率” 事件策略,避免了在市场极度狂热或悲观的情况下作出非理性的投资决策。

在规则制度内合规交易时,量化交易不仅可以为市场提供流动性,还能更好地实现价值发现功能。

但如果制度设计不完善,个别 “变味” 的量化交易可能涉嫌操纵股价、助涨助跌,扰乱市场秩序,不利于市场稳定。

但这是量化的错吗?难道是菜刀的错吗?

我们的逻辑要清晰!

17、世界开始接入DeepSeek模型

不管争议有多大,世界正在接入DeepSeek模型:

微软的Azure平台:

微软将DeepSeek的R1 AI模型集成到其Azure云平台和GitHub开发者工具中。

亚马逊Web Services(AWS):

亚马逊宣布在其AWS平台上提供DeepSeek的R1模型,用户可以通过AWS的基础设施访问和使用该模型。

英伟达也在它的平台里接入了DeepSeek的R1 AI模型,但使用体验欠佳。

而在国内,众多大公司也纷纷开启与 DeepSeek 的对接工作,一场全球范围内的技术融合浪潮正汹涌澎湃地展开。

这种广泛的技术传播与应用,无疑是 DeepSeek 在国际 AI 领域强大影响力的有力证明。

18、DeepSeek要勇敢往前走

在赞扬与指责的交织声中,DeepSeek 更应坚定地踏上独立发展的道路,勇敢地向技术深处进军。

技术的进步需要自由的探索空间,政府应减少不必要的干预,让 DeepSeek 能够在市场的海洋中自由遨游,成长为真正的世界级大模型。

我们生活在一个快速发展的时代,不应陷入不懂装懂的困境,尤其是在安全审查和意识形态等方面,不应成为技术发展的阻碍。

如今的中国,已然具备足够的自信,TikTok 在全球的风靡,以及 DeepSeek 在技术领域的突破,都深刻印证了市场化的强大力量。

结语:DeepSeek不仅属于中国,更属于全世界。

DeepSeek走到今天,是站在巨人的肩膀上。
不仅仅是国外大模型,国内其它模型也做出了贡献。
干翻全世界这样的话要少说,毫无意义。
如果你真的支持它,那就多用,让数据的飞轮转动起来。
但如果你没有用过,也试着先去用用再批判。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐