DeepSeek真的有那么强?|特朗普执政对中美关系以及中国经济的影响
“这两天DeepSeek大火破圈,成了现象级,服务器经常出现无法回答的情况。”特朗普就任美国总统后,其政策对中美关系和中国经济的影响是复杂且多层次的。以下从多个维度展开深度分析,结合具体案例、历史背景及长期趋势,探讨其政策逻辑、实际影响以及中国的应对策略。01—从“竞合”到“战略竞争”02—DeepSeek真有那么强?上面是使用最近火出天际的DeepSeek(R1)写出来的,朋友们觉得如何?而提.
“ 这两天DeepSeek大火破圈,成了现象级,服务器经常出现无法回答的情况。”
特朗普就任美国总统后,其政策对中美关系和中国经济的影响是复杂且多层次的。
以下从多个维度展开深度分析,结合具体案例、历史背景及长期趋势,探讨其政策逻辑、实际影响以及中国的应对策略。
01
—
从“竞合”到“战略竞争”
02
—
DeepSeek真有那么强?
上面是使用最近火出天际的DeepSeek(R1)写出来的,朋友们觉得如何?
而提示词也很简单:“请你深度思考特朗普就任美国总统后,会对中美关系以及中国经济会有什么影响”。
如同这篇文章《这才是DeepSeek的正确使用方式!你还在用GPT那套就废了,春节前最后预警》里说的:“DeepSeek不需要你写"专业提示词",它需要的是真实场景和具体需求。”
一开始,我并没有选中“深度思考(R1)”,可以看出来,它回答的内容也还中规中矩,并没有引起我的注意。
我决定打开“深度思考(R1)”选项试试:
大模型用了9秒进行反思,推导,发散性的思维。感觉像看大模型在思考的“心理活动”。
于是得到了开头整篇几乎惊艳到我的时政分析文章。
而根据朋友们的测试:
“试了几个数学物理软件问题,回答都挺好的”;
“写一首春节拜年的七律诗”;
“为我推荐一个超短线策略,要尽量保证高成功率”;
“仿照《过秦论》写作的《过美利坚论》。”
.......等等,不一而足,DeepSeek表现都让人满意。
后面让它继续生成文章的标题:
让我意外的是最后一句建议,按偏严肃类,偏大众类,偏产业类分别给了参考意见,很贴切作者的需求。
最让我觉得有趣的是:不是回答得如何精彩,而是它自我反思、拆解问题、多角度尝试的思考。
这种像人一样“心理活动”的推演,恰恰是算法对人类思维最真实的映射。
达到这样的效果,是不需要额外用什么提示词,大模型自行按照自己的思考给出的,足已说明它的“智能”已经上了一个台阶。
这一现象的出现,证明了DeepSeek R1 论文的革命性研究结论:
模型的思考能力是可以自我涌现出来的。
如论文中的截图所示,DeepSeek-R1-Zero 通过重新评估其初始方法,学会为问题分配更多的思考时间。
「等等,等等,等等。这是我可以标记的一个顿悟时刻。让我们逐步重新评估,以确定是否可以得到正确的总数 · · ·」
Meta 的 Eric Xu 在X上,这样评论 R1 Zero 的革命性:
“DeekSeek R1的价值在于用纯强化学习就能实现模型“思考”这条路走通走宽了。
这是一项有哲学意义的工作:思考(或者说意识)真的是一个涌现现象,不是人类特有的,是模型通过针对一个奖励函数学习就能完成的。
这是通往 AGI 上重要的一步。”
初看起来R1只是为了数理推理能力做优化和训练,实际上大模型却在翻译、写作、总结等任务上的表现得都非常出色。
03
—
前世今生
2023年11月2日:DeepSeek发布了首个开源代码大模型DeepSeekCoder,支持多种编程语言的代码生成、调试和数据分析任务。
2023年11月29日:推出参数规模达670亿的通用大模型DeepSeekLLM,包括7B和67B的base及chat版本。
技术突破
2024年5月:DeepSeek发布开源模型DeepSeek-V2,推理成本降至每百万token仅1元人民币,仅为GPT-4Turbo的七十分之一。这一“性价比之王”迅速引发中国大模型行业的价格战,字节跳动、腾讯及阿里等大厂纷纷跟进降价。
2024年9月5日:DeepSeek官方更新API支持文档,宣布合并DeepSeekCoderV2和DeepSeekV2Chat两个模型,升级推出全新的DeepSeekV2.5新模型。
2024年12月13日:发布用于高级多模态理解的专家混合视觉语言模型——DeepSeek-VL2,该模型在多种任务中展现了卓越的能力。
2024年12月26日:正式上线全新系列模型DeepSeek-V3首个版本并同步开源。DeepSeek-V3在知识类任务上的水平显著提升,接近当前表现最好的模型Anthropic公司于10月发布的Claude-3.5-Sonnet-1022。此外,DeepSeek-V3的生成速度从20TPS大幅提高至60TPS,实现了3倍的提升。
2025年1月20日,DeepSeek公司正式发布了其最新的推理模型——DeepSeek R1,并同步开源了模型权重。
该模型采用纯强化学习的方法,无需监督微调,展现了强大的推理能力。
在数学、代码和自然语言推理等任务上,DeepSeek R1的性能已达到OpenAI o1正式版的水平。
和 DeepSeek 相关的概念股
股权关联方:
浙江东方、通过旗下杭州东方嘉富基金参投DeepSeek天使轮,持股路径为浙江东方 -> 中东方嘉富 -> DeepSeek。
华金资本:珠海国资旗下投资平台,通过华金领越基金间接参与DeepSeek Pre-A轮融资,
算力基础设施供应商:
浪潮信息:为DeepSeek北京亦庄智算中心提供AI服务器集群,并配套英伟达H800GPU及自研的管理平台。
中科曙光:承建DeepSeek杭州训练中心的液冷系统,淡机柜功率密度大35kw,PUE能源利用效率小于1.15
润泽科技:为DeepSeek提供廊坊数据中心3000+机柜资源,采用间接蒸发冷却技术,运营成本较低。
数据及生态合作伙伴:
每日互动、卓创资讯等
垂直领域合作方:
拓尔思、科大讯飞、飞利信、南威软件、并行科技、证通电子等
其他潜在收益方向:
AI芯片与硬件,如寒武纪,景嘉微等国产芯片制造商。。。。
04
—
一石激起千层浪
R1的出现,证明了即使在资源受限的环境下,中国AI依然能够通过创新和开源,做出世界一流的成果。
《黑神话:悟空》制作人冯骥在微博上总结了六条 DeepSeek 了不起的成就:
1、强大。比肩01的推理能力,暂时没有之一;
2、便宜。参数少,训练开销与使用费用小了一个数量级;
3、开源。任何人均可自行下载与部署,提供论文详细说明训练步骤与窍门,甚至提供了可以运行在手机上的min模型;
4、免费。官方目前提供的服务完全免费,任何人随时随地可用;
5、联网。暂时唯一支持联网搜索的推理模型(o1还不支持);
6、本土。深度求索是一家很小规模的年轻中国公司,由没有海外经历甚至没有资深从业经验的本土团队开发完成。
据 Meta 员工在匿名社交平台Teamblind爆料,DeepSeek V3 的出色表现已经让 Meta 内部感到震惊,仅花费550万美元训练成本的模型,性能却超越了Llama 4。
正当全公司上下都在深入分析V3的技术细节,然而紧随其后的R1发布,更是让Meta感受到了前所未有的压力。
著名投资机构 A16z 的创始人之一 Marc Andressen 评价 R1 ,说它是对世界的珍贵的礼物。
它证明了 OpenAI 是可以被超越的。
它让几乎每家模型公司都可以复现 R1 的方法,并且都有机会超越 OpenAI。
DeepSeek 上线两周100万DAU,苹果商店美区/国区总榜双双第一
前有小红书霸榜苹果,后有大模型DeepSeek后来者居上。
而面对中国大模型的强势进攻,Sam Altman 急了,宣布即将推出的 o3-mini 可以免费使用,并且 Plus 可以大量使用。
而在这之前:20美金的月会员,一个月只能用200次 o1。
DeepSeek V3 仅用了 2048 张 H800 就完成了训练,这种效率提升使市场质疑未来是否需要大规模采购英伟达高端GPU,进而导致英伟达股价短期内大跌超3%,市值蒸发超300亿美元。
截止到写下这些文字的今天,官网已经因为出圈大火而导致服务不可用。
DeepSeek R1 因为其对硬件性能要求并不高,可以部署在华为昇腾上,据说得倒官方支持,很快就会上线。
顶级的自研开源大模型+自主可控的GPU硬件+自主可控的训练推理框架,在大模型出来的第三年,就国产自主化闭环了。
虽然 DeepSeek 的能力很强,但是它仍然只支持64K的上下文,相比于现在诸多国内外的大模型支持越来越长的上下文,功能的多样性上显得有点“落后”了。
而这恰恰反映出技术团队的技术路线选择:不在功能上求多求全,非核心能力基本不投入太多资源。
同样的,现在大模型都有的功能:工具调用(function call)、多模态、文生图/文生视频(sora),因为都是需要独立优化的专项能力,所以技术团队也并未在这方面做单独的优化。
从可靠渠道信息得知:DeepSeek在数据标注上非常重视。听说创始人梁文锋也会去打标签。
(这也验证了我个人的判断,大模型做得好,必须在数据标注上花费时间,在这上面花费的时间决定了模型的质量的下限。)
最后,预测一下,DeepSeek 对AI 的影响:
-
有自我进化能力的AI时代到来;
-
大模型的使用价格会变成白菜价;
-
英伟达的芯片帝国价值泡沫面临崩塌;
-
加速各行业的大模型落地应用。
官网:https://www.deepseek.com
往期热门文章推荐:
这才是DeepSeek的正确使用方式!你还在用GPT那套就废了,春节前最后预警
更多推荐
所有评论(0)