这两天DeepSeek大火破圈,成了现象级,服务器经常出现无法回答的情况。

4de3c9d10581b9f6ebfcdd46aca64731.jpeg

特朗普就任美国总统后,其政策对中美关系和中国经济的影响是复杂且多层次的。

以下从多个维度展开深度分析,结合具体案例、历史背景及长期趋势,探讨其政策逻辑、实际影响以及中国的应对策略。

01

从“竞合”到“战略竞争”

02

DeepSeek真有那么强?

上面是使用最近火出天际的DeepSeek(R1)写出来的,朋友们觉得如何?

而提示词也很简单:“请你深度思考特朗普就任美国总统后,会对中美关系以及中国经济会有什么影响”。

如同这篇文章《这才是DeepSeek的正确使用方式!你还在用GPT那套就废了,春节前最后预警》里说的:“DeepSeek不需要你写"专业提示词",它需要的是真实场景和具体需求。”

一开始,我并没有选中“深度思考(R1)”,可以看出来,它回答的内容也还中规中矩,并没有引起我的注意。

d0de4750aee55d088dace511efb7ca71.png

190a4eb4a5a3e80758a5c45aa5f709f8.png

04f807b9dc5d150861151e767bd1c359.png

我决定打开“深度思考(R1)”选项试试:

9809560b3a2eb7f10cd4a85a16909be3.png

大模型用了9秒进行反思,推导,发散性的思维。感觉像看大模型在思考的“心理活动”。

3742b5d120033126a813a263893873e6.png

于是得到了开头整篇几乎惊艳到我的时政分析文章。

而根据朋友们的测试:

“试了几个数学物理软件问题,回答都挺好的”;

“写一首春节拜年的七律诗”;

“为我推荐一个超短线策略,要尽量保证高成功率”;

“仿照《过秦论》写作的《过美利坚论》。”

.......等等,不一而足,DeepSeek表现都让人满意。

后面让它继续生成文章的标题:

7427197ad72f4e3fd18f417a0e25edc5.png

37c0dcb4fb81c593995e5720002961d3.png

682ef3923cc2856c8926c8ee01ea9ce9.png

让我意外的是最后一句建议,按偏严肃类,偏大众类,偏产业类分别给了参考意见,很贴切作者的需求。

最让我觉得有趣的是:不是回答得如何精彩,而是它自我反思、拆解问题、多角度尝试的思考。

这种像人一样“心理活动”的推演,恰恰是算法对人类思维最真实的映射。

达到这样的效果,是不需要额外用什么提示词,大模型自行按照自己的思考给出的,足已说明它的“智能”已经上了一个台阶。

这一现象的出现,证明了DeepSeek R1 论文的革命性研究结论:

模型的思考能力是可以自我涌现出来的。

b792085c01a383ad8a0ba61a03eaac0b.jpeg

如论文中的截图所示,DeepSeek-R1-Zero 通过重新评估其初始方法,学会为问题分配更多的思考时间。

「等等,等等,等等。这是我可以标记的一个顿悟时刻。让我们逐步重新评估,以确定是否可以得到正确的总数 · · ·」

Meta 的 Eric Xu 在X上,这样评论 R1 Zero 的革命性:

“DeekSeek R1的价值在于用纯强化学习就能实现模型“思考”这条路走通走宽了。

这是一项有哲学意义的工作:思考(或者说意识)真的是一个涌现现象,不是人类特有的,是模型通过针对一个奖励函数学习就能完成的。

这是通往 AGI 上重要的一步。”

初看起来R1只是为了数理推理能力做优化和训练,实际上大模型却在翻译、写作、总结等任务上的表现得都非常出色。

03

前世今生

2023年11月2日:DeepSeek发布了首个开源代码大模型DeepSeekCoder,支持多种编程语言的代码生成、调试和数据分析任务。

2023年11月29日:推出参数规模达670亿的通用大模型DeepSeekLLM,包括7B和67B的base及chat版本。

技术突破

2024年5月:DeepSeek发布开源模型DeepSeek-V2,推理成本降至每百万token仅1元人民币,仅为GPT-4Turbo的七十分之一。这一“性价比之王”迅速引发中国大模型行业的价格战,字节跳动、腾讯及阿里等大厂纷纷跟进降价。

 2024年9月5日:DeepSeek官方更新API支持文档,宣布合并DeepSeekCoderV2和DeepSeekV2Chat两个模型,升级推出全新的DeepSeekV2.5新模型。

2024年12月13日:发布用于高级多模态理解的专家混合视觉语言模型——DeepSeek-VL2,该模型在多种任务中展现了卓越的能力。

2024年12月26日:正式上线全新系列模型DeepSeek-V3首个版本并同步开源。DeepSeek-V3在知识类任务上的水平显著提升,接近当前表现最好的模型Anthropic公司于10月发布的Claude-3.5-Sonnet-1022。此外,DeepSeek-V3的生成速度从20TPS大幅提高至60TPS,实现了3倍的提升。

2025年1月20日,DeepSeek公司正式发布了其最新的推理模型——DeepSeek R1,并同步开源了模型权重。 

该模型采用纯强化学习的方法,无需监督微调,展现了强大的推理能力。

在数学、代码和自然语言推理等任务上,DeepSeek R1的性能已达到OpenAI o1正式版的水平。

和 DeepSeek 相关的概念股

股权关联方:

浙江东方、通过旗下杭州东方嘉富基金参投DeepSeek天使轮,持股路径为浙江东方 -> 中东方嘉富 -> DeepSeek。

华金资本:珠海国资旗下投资平台,通过华金领越基金间接参与DeepSeek Pre-A轮融资,

算力基础设施供应商:

浪潮信息:为DeepSeek北京亦庄智算中心提供AI服务器集群,并配套英伟达H800GPU及自研的管理平台。

中科曙光:承建DeepSeek杭州训练中心的液冷系统,淡机柜功率密度大35kw,PUE能源利用效率小于1.15

润泽科技:为DeepSeek提供廊坊数据中心3000+机柜资源,采用间接蒸发冷却技术,运营成本较低。

数据及生态合作伙伴:

每日互动、卓创资讯等

垂直领域合作方:

拓尔思、科大讯飞、飞利信、南威软件、并行科技、证通电子等

其他潜在收益方向:

AI芯片与硬件,如寒武纪,景嘉微等国产芯片制造商。。。。

04

一石激起千层浪

R1的出现,证明了即使在资源受限的环境下,中国AI依然能够通过创新和开源,做出世界一流的成果。

《黑神话:悟空》制作人冯骥在微博上总结了六条 DeepSeek 了不起的成就:

1、强大。比肩01的推理能力,暂时没有之一;

2、便宜。参数少,训练开销与使用费用小了一个数量级;

3、开源。任何人均可自行下载与部署,提供论文详细说明训练步骤与窍门,甚至提供了可以运行在手机上的min模型;

4、免费。官方目前提供的服务完全免费,任何人随时随地可用;

5、联网。暂时唯一支持联网搜索的推理模型(o1还不支持);

6、本土。深度求索是一家很小规模的年轻中国公司,由没有海外经历甚至没有资深从业经验的本土团队开发完成。

据 Meta 员工在匿名社交平台Teamblind爆料,DeepSeek V3 的出色表现已经让 Meta 内部感到震惊,仅花费550万美元训练成本的模型,性能却超越了Llama 4。

正当全公司上下都在深入分析V3的技术细节,然而紧随其后的R1发布,更是让Meta感受到了前所未有的压力。

著名投资机构 A16z 的创始人之一 Marc Andressen 评价 R1 ,说它是对世界的珍贵的礼物。

它证明了 OpenAI 是可以被超越的。

它让几乎每家模型公司都可以复现 R1 的方法,并且都有机会超越 OpenAI。

DeepSeek 上线两周100万DAU,苹果商店美区/国区总榜双双第一

前有小红书霸榜苹果,后有大模型DeepSeek后来者居上。

而面对中国大模型的强势进攻,Sam Altman 急了,宣布即将推出的 o3-mini 可以免费使用,并且 Plus 可以大量使用。

而在这之前:20美金的月会员,一个月只能用200次 o1。

DeepSeek V3 仅用了 2048 张 H800 就完成了训练,这种效率提升使市场质疑未来是否需要大规模采购英伟达高端GPU,进而导致英伟达股价短期内大跌超3%,市值蒸发超300亿美元。

截止到写下这些文字的今天,官网已经因为出圈大火而导致服务不可用。

5d7cf3dac55275778ccdc2b436c6a13a.png

DeepSeek R1 因为其对硬件性能要求并不高,可以部署在华为昇腾上,据说得倒官方支持,很快就会上线。

顶级的自研开源大模型+自主可控的GPU硬件+自主可控的训练推理框架,在大模型出来的第三年,就国产自主化闭环了。

虽然 DeepSeek 的能力很强,但是它仍然只支持64K的上下文,相比于现在诸多国内外的大模型支持越来越长的上下文,功能的多样性上显得有点“落后”了。

而这恰恰反映出技术团队的技术路线选择:不在功能上求多求全,非核心能力基本不投入太多资源。

同样的,现在大模型都有的功能:工具调用(function call)、多模态、文生图/文生视频(sora),因为都是需要独立优化的专项能力,所以技术团队也并未在这方面做单独的优化。

从可靠渠道信息得知:DeepSeek在数据标注上非常重视。听说创始人梁文锋也会去打标签。

(这也验证了我个人的判断,大模型做得好,必须在数据标注上花费时间,在这上面花费的时间决定了模型的质量的下限。)

c7e87986200164d786d9cbec78d92016.png

最后,预测一下,DeepSeek 对AI 的影响:

  1. 有自我进化能力的AI时代到来;

  2. 大模型的使用价格会变成白菜价;

  3. 英伟达的芯片帝国价值泡沫面临崩塌;

  4. 加速各行业的大模型落地应用。

官网:https://www.deepseek.com


往期热门文章推荐:

这才是DeepSeek的正确使用方式!你还在用GPT那套就废了,春节前最后预警

Deepseek-R1 & Kimi-1.5读后有感 | 大道至简的o1

DeepSeek-R1 是怎么训练的|深度拆解

我花了5天时间,整理了一份AI硬件大全。

万字长文梳理 2024 年的 RAG

仅4B参数!面壁端侧模型MiniCPM 3.0达到GPT-3.5水平

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐