今年年初,deepseek真的火到爆,出圈的原因是强大的技术能力,以及无私慷慨的开源策略。

deepseek最出圈的产品自然是deepseek-r1推理模型。然而作为几乎同时期发布的推理模型kimi k1.5,kimi k1.5却没有掀起半点波澜。

现象的背后,是更深刻的商业逻辑、技术能力的差异。

deepseek介绍

在这里插入图片描述

deepseek创始人梁文锋本硕毕业于浙江大学,2008年研二开始研究自动化交易炒股,据说研三就赚到了100万。毕业后,当了三年散户,也挣得盆满钵满,思考散户到机构的转变。于是,2013年,和同学徐进成立杭州雅克比投资管理有限公司。两年后,杭州雅克比被放弃。2015年,重新成立一家新公司——幻方科技。

2015-2017年,梁文锋转型成功,早期积累的量化交易策略开花结果,幻方管理资产规模突破30亿。期间的2016年,幻方上线了第一个由GPU计算的量化策略。

2019年,幻方自研萤火一号AI集群,搭载500块显卡,使用200Gbps高速网络互联。同年,管理的资金突破100亿。

2020年,萤火一号总投资近2亿,搭载1100块显卡。

2021年,幻方投资10亿,建设萤火二号,搭载约1万张英伟达A100显卡。同年,管理的资金突破1000亿。

然而,2021年,幻方量化旗下100余款产品业绩下跌逾10%,于是,幻方逐渐降低资金管理规模;2023-2024年大A行情差,股民怨言如潮,监管层也开始对量化开始进行监管。AI集群既然无法全力为量化交易发挥作用,那就为他们找一个新的方向。

2023年,梁文峰于7月创办杭州深度求索人工智能基础技术研究有限公司,

2024年5月,发布MoE模型DeepSeek-V2;12月26日,发布训练成本仅为openai GPT-4o的1/18的DeepSeek V3;

2025年1月20日,发布DeepSeek - R1,效果和OpenAI o1不相上下。

Kimi介绍

在这里插入图片描述

kimi创始人杨植麟通过信息学奥林匹克竞赛保送指清华大学热能工程系,大二时转入计算机系,2015年以年级第一的成绩毕业。博士就读于卡内基梅隆大学语言技术研究所,师从苹果公司AI负责人Ruslan Salakhutdinov和Google AI智能首席科学家William W. Cohen。

博士期间,提出XLNet,在20个标准任务上超过了Google BERT模型;提出Transformer-XL,首个全面超越RNN的注意力语言模型。

博士后,2019年,回国创立循环智能(Recurrent AI),赋能华为研发盘古NLP,获2021年世界人工智能大会“SAIL之星”称号。

2023年,4月17日,创立月之暗面科技有限公司(Moonshot AI);10月9日,推出首个支持输入20万汉字的智能助手产品Kimi Chat。

2024年,3月,启动200万字长文本内测;10月11日,月之暗面正式上线具备AI自主搜索能力的Kimi探索版,搜索量是普通版的10倍,一次搜索即可精读500个页面;

2025年1月20日,发布多模态思考模型k1.5。

商业逻辑

大模型行业是典型的重资产行业,无论是硬件成本还是人力成本,都非常非常高。

DeepSeek V3用了256台8xH800服务器训练,每台8xH800服务器价格约210万~350万H800价格,DeepSeek V3在GPU上的硬件成本约5.3亿~8.9亿,这个成本可想而知了。

DeepSeek团队假设约100人,年平均工资约50w,人力成分约5000w(都往低了估算)。

DeepSeek和Kimi目前都主营C端场景,提供问答、检索服务,以及API调用服务。

DeepSeek通过开源、强技术能力以及和母公司幻方联动,积累用户,实现潜在盈利。开源可以迅速积累行业口碑,建立用户生态。

同能力的MoE模型相较于Dense模型,所需的显存更大,潜在的开源社区用户更少,开源社区的接受能力更弱。DeepSeek出圈的原因和它逆天的效果关系很大。我相信,如果Qwen2.5 70B能后训练出媲美openai o1的模型,那么Qwen2.5 72B也能出圈。

DeepSeek母公司——幻方是一家股票相关公司,如果利用更少的成本,训练出最好的模型,那么加大算力一定能达到最佳效果的推论就会被打破,依赖于该推论的英伟达市值一定会下降。如果幻方前期就开始做空英伟达,那么英伟达跌的5000多亿美金市值,有多少进入到幻方口袋里。硬件成本、人力成本相较于巨额股市营收,又真的多么? 由于和幻方联动,DeepSeek暂未有任何融资的消息。

Kimi不具备自我造血能力,依赖融资。2024年8月,kimi完成最新一轮3亿美金融资,累计融资超过20亿美金。相较于DeepSeek的硬件成本、人力成本,kimi还有投放成本。

2024年10月,kimi的广告投放金额达到2.2亿元,11月,广告投放金额再次达到2个亿。2024年全年,Kimi的累计投放金额达到5.4亿元。

如此激进的投放策略,一方面看不到盈利的方向,另一方面,自身的产品力真的能支撑激增的用户量吗?

kimi创办之初,主打长上下文,24年3月18日,开始200万字上下文版本内测,到现在还没有全量上线?24年10月11日,上线具备AI自主搜索能力的Kimi探索版,到现在还仅支持单个用户每天使用5次?

未来,kimi还是依赖融资生存吗?但自身融资环境并不好啊。接连爆出杨植麟套现4000万美金、仲裁风波、张予彤利益冲突等一系列问题,融资还能顺利走下去吗?

技术能力

大模型行业最重要的就是技术,技术支撑起估值,估值反哺技术。Minimax创始人在与“晚点对话”中谈到,

  • “千万不要用上一代移动互联网产品方法论来思考新产品”
  • “中国大部分公司,不管创业公司还是大厂,都还在用做推荐系统的方法来做大模型产品。”,“推荐” 的逻辑是:用户越多,反馈越多,推荐引擎越聪明。
  • “更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。”
  • “ChatGPT 的 DAU 是 Claude 的 50 倍到 100 倍,但它们的模型其实差不多。”
    所以,技术能力是大模型企业的核心。

DeepSeek的技术能力毋庸置疑,利用1/18的成本,得到和openai GPT-4o性能类似的DeepSeek V3;率先复现openai o1,且开源。

Kimi的技术能力则不好说了,

  • 创业之初,主推长文本,去年3月内测200万字上下文版本模型,到现在还没有全量;然而,minimax研发线性注意力机制新架构,推出MiniMax-01,支持400 万 token 上下文,已全量。
  • 现在,重视推理模型,但kimi k1.5没掀起多大的水花。
  • 基本不开源

总结

Kimi创始人杨植麟学术方面才华横溢,谷歌学术他引3W+,担任中国最好的计算机学院——清华大学交叉信息研究院的助理教授,逆天开局。DeepSeek创始人梁文锋没有博士学位,独自探索量化交易,完成0-1的散户赚钱,以及1-100的机构创建、盈利、壮大的过程,跑通了技术、管理的全流程链路。

两者都是典型的天才,DeepSeek具备自我造血能力,能够更加纯粹的探索技术,干翻openai。而Kimi资金来自于融资,天然具备商业化压力,在底层技术研发部分不够纯粹。

在2025年年初,无论从用户量、还是技术能力,kimi与deepseek差距越来越明显,kimi要加油了!!!

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐