问:deepseek v2模型发布后引发大模型价格战,有人说你们是行业的鲶鱼,你们是有意成为鲶鱼吗?
答:我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。

问:引发价格战这个结果让你们意外吗?
答:非常意外,没想到价格让大家这么敏感,我们只是按自己步调做事,核算成本后定价,原则是不贴钱也不赚暴利,在成本之上稍有利润。五天后智谱AI跟进,之后多家大厂也有动作,智谱AI降的是入门级产品,同级别的模型仍收费贵,字节是第一个将旗舰模型降到和我们一样价格的,触发其他大厂降价,我们没想到大厂会亏钱做,因为他们模型成本比我们高很多,最后变成类似互联网烧钱补贴的逻辑。从外部看像抢用户,但我们降价一方面是探索下一代模型结构成本降低了,另一方面觉得无论API还是AI都应普惠,人人用得起。

问:大部分中国公司直接沿用现有模型结构做应用,为什么你们从模型结构切入?
答:我们的目标是AGI,这意味着要研究新模型结构,在有限资源下实现更强模型能力,这是迈向更大模型的基础研究之一。除模型结构,我们还做了构造数据、让模型更像人类等大量研究,并体现在发布的模型里。而且现有模型结构在训练效率和成本上与国外先进水平有差距。

问:国内与国外在模型结构和训练方面的差距主要来自哪里?
答:训练效率上,国内最好水平与国外最好的相比,模型结构和训练动力可能有一倍差距,要消耗两倍算力才能达到同样效果;数据效率上可能也有一倍差距,即要消耗两倍训练数据和算力才能达到同样效果,合起来要多消耗四倍算力,我们要做的就是缩小这些差距。

问:大部分中国公司既做模型又做应用,为什么DeepSeek目前只做研究探索?
答:我们觉得现在最重要的是参与全球创新浪潮,过去中国公司习惯拿别人技术创新成果做应用变现,这不是理所当然的。这一波浪潮我们出发点不是趁机赚钱,而是走到技术前沿推动生态发展。过去我们习惯美国搞技术创新,中国做应用,但随着经济发展,中国应成为技术创新贡献者,不能一直搭便车。

问:为什么DeepSeek v2会让硅谷很多人惊讶?
答:在美国每天大量创新中,这其实很普通,但因为是中国公司以创新贡献者身份加入,毕竟大部分中国公司习惯跟随而非创新。

问:大模型是重投入游戏,很多公司先考虑商业化,你们选择创新又开源分享,如何形成护城河?
答:在颠覆性技术面前,原有护城河短暂,即便OpenAI也无法阻止被赶超。我们把价值沉淀在团队上,同事在过程中成长,积累经验,形成可创新的组织和文化就是我们的护城河。开源发论文对技术人员有成就感,开源更像文化行为,公司这么做有文化吸引力。

问:怎么看类似朱啸虎的市场信仰派观点?
答:朱啸虎是自洽的(补充资料:朱啸虎分享投资心得,强调AIGC创业需回归商业本质,AI非万能需结合具体场景,中国AI技术不落后,关键在数据和用户体验。他认为AIGC是未来10年发展重点,呼吁创业者拥抱AI,避免盲目投资底层技术,聚焦垂直场景优化用户体验。)但他的打法更适合快速赚钱的公司,而美国最赚钱的公司多是厚积薄发的高科技公司。

问:做大模型单纯技术领先难形成绝对优势,你们看到更大的东西是什么?
答:中国AI不能永远跟随,中美差距是原创和模仿之差,若不改变中国永远是追随者。英伟达领先是西方技术社区和产业共同努力结果,中国AI发展也需生态,很多国产芯片发展不起来因缺乏配套技术社区。所以中国需有人站到技术前沿。

问:DeepSeek有早期OpenAI的理想主义气质且开源,后面会闭源吗?
答:我们不会闭源,认为先有强大技术生态更重要。

问:有融资计划吗?有媒体报道关于独立拆分上市计划。
答:短期内没有融资计划,我们面临的问题是高端芯片被禁运,而非钱。

问:很多人认为做AGI和做量化不同,做AGI需高举高打、结盟,你们现在不做应用是没运营基因吗?
答:我们认为当前是技术创新爆发期,非应用爆发期。长远希望形成生态,业界用我们技术和产出,我们负责基础模型和前沿创新,其他公司基于此构建To B、To C业务,若形成完整产业链,我们没必要自己做应用,若有需要做应用也无障碍,但研究和技术创新永远是第一优先级。

问:选择API为什么选DeepSeek而不是大厂?
答:未来可能是专业化分工,基础大模型需持续创新,大厂有能力边界不一定适合。技术虽无绝对秘密,但实现需要时间和成本,像英伟达显卡理论易复制,但重新组织团队和追赶下一代技术都需时间,实际护城河宽。

问:你们降价后大厂跟进,怎么看创业公司与大厂竞争的新解法?
答:我们不太在意,提供服务不是主要目标,目标是实现AGI,目前没看到新解法,大厂有现成用户,但现金流业务也是包袱,可能被颠覆。

问:怎么看DeepSeek之外六家大模型创业公司的中局?
答:可能活下来2 - 3家,现在都在烧钱阶段,自我定位清晰、能精细化运营的更有机会活下来,其他公司可能脱胎换骨,有价值的东西不会消失,会换种方式存在。

问:关于竞争,你思考的原点是什么?
答:常思考一个东西能否让社会运行效率变高,以及能否在产业分工链条上找到擅长位置,只要终局能让社会效率更高就成立,中间很多是阶段性的,过度关注会眼花缭乱。

问:做出DeepSeek v2的是怎样一群人?
答:没有高深莫测的人才,多是普通高校应届毕业生、没毕业的博士、实习生,还有毕业才几年的年轻人,V2模型团队成员都来自本土,没有海外回来的人,也许我们能自己打造顶尖人才。

问:这次MLA创新是如何发生的?
答:idea最早来自一个年轻研究员的个人兴趣,他总结出Attention架构主流变迁规律后,突发奇想去设计替代方案,从想法到落地漫长,为此组了team,花几个月跑通。

问:这种发散性灵感诞生与你们组织架构有关,AGI探索充满不确定性,是否需要更多管理动作?
答:我们全是自下而上,一般不前置分工,自然分工,每个人自带想法,遇到问题会拉人讨论。当一个想法显示出潜力,会自上而下调配资源。

问:听说DeepSeek对于卡和人的调集非常灵活,是真的吗?
答:是的,每个人对于卡和人的调动不设上限,如果有想法,无需审批就能调用训练集群的卡,同时因为不存在层级和跨部门,只要对方有兴趣,可灵活调用所有人。

问:这种松散管理方式取决于筛选到强热爱驱动的人,听说你们擅长从细节招人,是真的吗?
答:我们选人的标准一直是热爱和好奇心,所以很多人有奇特经历,对做研究的渴望远超对钱的在意。

问:大公司的AI Lab和创业公司对于创新产生的价值有什么不同?
答:不管是谷歌实验室、OpenAI,甚至中国大厂的AI都很有价值,创新很大程度是一种偶然,最后是OpenAI做出来也有历史偶然性。

问:你们办公区设置特殊门,有同事说这给偶然留出空隙,与创新有关吗?
答:是的,创新首先是信念问题,像OpenAI做出GPT时,国内对前沿创新缺乏信心。创新需要自信,这种信心年轻人身上更明显。

问:你们不参与融资、很少对外发声,如何确保DeepSeek是做大模型人才的首选?
答:因为我们在做最难的事,对顶级人才来说,解决世界上最难的问题最有吸引力,顶尖人才在中国被低估,因为硬核创新少,我们做的事对他们有吸引力。

问:前一段OpenAI发布未等来GPT 5,很多人质疑技术曲线放缓和摩尔定律,你们怎么看?
答:我们偏乐观,整个行业看起来符合预期,OpenAI也不是神,不可能一直冲在前面。

问:你们觉得AGI还要多久实现?DeepSeek的AGI路线图有哪些坐标?
答:可能是两年、五年或者十年,总之会在有生之年实现。路线图在公司内部也没统一意见,但确实压住了三个方向,一是数学和代码,二是多模态,三是自然语言本身,数学和代码是AGI天然实验场,类似围棋,是封闭可验证系统,有可能通过自我学习实现高智能,多模态参与人类真实世界学习对AGI也必要。

问:你觉得大模型终局是什么样态?
答:会有专门公司提供基础模型和基础服务,会有很长链条的专业分工,更多人在此基础上满足社会多样化需求。

问:过去一年中国大模型创业有很多变化,比如王慧文中场退出,你怎么看?
答:王慧文自己承担所有损失,让其他人全身而退,他做了对自己最不利但对大家都好的选择,做人很厚道,我很佩服。

问:现在你精力最多放在哪里?
答:主要精力在研究下一代大模型,还有很多未解决的问题。

问:其他几家大模型创业公司坚持既要又要,DeepSeek敢于专注模型研究,是因为模型能力不够吗?
答:所有套路都是上一代产物,未来不一定成立,用互联网商业逻辑讨论未来AI盈利模式不合适,就像马化腾创业时讨论通用电器和可口可乐一样。

问:过去字节有很强技术和创新基因且成长顺利,这是你偏乐观的原因吗?
答:字节某种程度上增强了我们对技术驱动型创新的信心,但也不是一帆风顺,我们经历了漫长积累过程,外部看到的是字节2015年后部分,其实我们做了16年。

问:现在经济下行,资本进入冷周期,对原创式创新是否会带来更多抑制?
答:我倒觉得未必,中国产业结构调整会更依赖硬核技术创新,当很多人发现赚快钱靠运气,会更愿意做真正创新,所以我对此乐观。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐