支付宝开放平台-开发者社区——AI 日报「2 月 7 日」
从 DeepSeek 让训练成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能对比,人均年薪千万的顶尖人才,还指出目前 DeepSeek 的成本估算是错误的,推测其拥有大约 5 万块Hopper GPU……上周的 CES 2025,黄仁勋有提到,在英伟达看来,Scaling Laws 仍在继续,所有新 RTX 显卡都在遵循三个新的扩展维度:预训练、后训练和测试时间(推理),提供了更佳的实时
1️⃣DeepSeek无问西东!先行者早已趟平全国产之路
量子位|阅读原文
DeepSeek太过火爆,整个国产AI产业都调动起来了!春节没过完,就已迅速适配多个国产芯片,并在各大云平台上线,好生热闹~
这一系列动向主要聚焦于以下三个方面:
- 平台层:像华为云、阿里云、腾讯云等云厂商先后接入DeepSeek相关大模型服务,价格不变甚至有的更便宜、性能与官方相当,直接零门槛部署API开发各种应用。
- 算力层:一些国产算力玩家,像昇腾、壁仞等,他们联合生态玩家完成了与模型的适配,也纷纷上线了DeepSeek R1模型服务。
- 应用层:AI应用厂商、手机助手也在接入和部署国产模型。像我们更日常的手机端,华为小艺助手已接入DeepSeek,只需升级至原生鸿蒙系统就可以体验。
除了模型本身的技术优势,还有一个关键因素,是应对国际算力供应链的不确定性,面对来自国际的压力,实现大模型自主可控愈发紧迫起来。
2️⃣70年AI研究得出了《苦涩的教训》:为什么说AI创业也在重复其中的错误?
机器之心|阅读原文
人人都在做垂直 AI 产品,为什么要反其道而行?Scaling Laws 是否失灵,这个话题从 2024 年年尾一直讨论至今,也没有定论。
Ilya Sutskever 在 NeurIPS 会上直言:大模型预训练这条路可能已经走到头了。上周的 CES 2025,黄仁勋有提到,在英伟达看来,Scaling Laws 仍在继续,所有新 RTX 显卡都在遵循三个新的扩展维度:预训练、后训练和测试时间(推理),提供了更佳的实时视觉效果。
研究人员曾一次又一次试图通过精巧的工程设计来提升性能,但最终都败给了简单粗暴的「加大算力」方案。而今天,AI 产品的开发者们,似乎正在重走这条老路。
核心内容已经总结好了:
- 历史证明,通用方法总是在 AI 领域胜出;
- 当下 AI 应用领域的创业者正在重蹈 AI 研究者过去的覆辙;
- 更强大的 AI 模型将催生通用型 AI 应用,同时也会削弱 AI 模型「套壳」软件的附加价值。
3️⃣SemiAnalysis万字解析DeepSeek:训练成本、技术创新点、以及对封闭模型的影响
Founder Park|阅读原文
这可能是迄今为止海外对 DeepSeek 最全面的一份分析报告,来自知名半导体研究机构 Semianalysis。从 DeepSeek 让训练成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能对比,人均年薪千万的顶尖人才,还指出目前 DeepSeek 的成本估算是错误的,推测其拥有大约 5 万块Hopper GPU……关于 DeepSeek目前很多甚嚣尘上的传言,这篇文章依据现有信息给出了更客观的论述。
一些关键点:
- 推测 DeepSeek 大约有5万块 Hopper GPU,在 GPU 上的投资总额超过 5 亿美元
- 广为讨论的 600 万美元成本仅指预训练过程中 GPU 的花费,这只是模型总成本的一部分。
- DeepSeek 团队目前约 150 人,从北大浙大等中国高校招聘人才,年薪可达千万。
- 大多数架构上的成就都与 V3 相关,而 V3 也是 R1 的基础模型。
- 多头潜在注意力(MLA) 是 DeepSeek 大幅降低推理成本的关键创新,将每次查询所需的 KV 缓存减少了约 93.3%
- 在推理性能上 R1 与 o1 不相上下,而 o3 的能力明显高于 R1 和 o1。
- R1 并未削弱 o1 在技术上的优势,反而以更低的成本提供了相似的能力。
对此,你怎么看?
支付宝/钉钉扫码加入支付宝开发者钉组织,可了解支付宝开放能力最新动态,订阅文档更新消息,和同城同行业交流业务,与支付宝产研沟通交流。
更多推荐
所有评论(0)