深度剖析字节豆包

全文19000字+，我将围绕着产品发展历程、产品定位、核心竞争力、核心产品能力对比、产品发展探索思考、产品规划等多个方面，站在当下，重新深入的回顾和分析字节豆包这块款产品。

三白有话说

2112人浏览 · 2025-07-25 13:51:52

三白有话说 · 2025-07-25 13:51:52 发布

写在前面的话

1.为什么写这篇文章？

去年6月的时候，三白写了第一篇字节豆包的文章，很荣幸的是，当时这篇文章帮助了很多有意愿从事AI产品经理转型，以及正在面试国内AI产品岗位的朋友，同时也上架了人人都是产品经理社区，全网阅读量超过了10万。

将近一年过去以后，考虑到第一篇文章中很多内容基本已经过时了，豆包的产品相比之前已经有了不少更新，然而向我索要阅读文章的朋友还很多，加上近期收到来自人人都是产品经理社区平台朋友的续更邀请，这周花了一些时间围绕着豆包这款产品，再次输出一篇更新版、更深度的产品分析。

全文19000字+，我将围绕着产品发展历程、产品定位、核心竞争力、核心产品能力对比、产品发展探索思考、产品规划等多个方面，站在当下，重新深入的回顾和分析字节豆包这块款产品。分析内容中，我也将深度的对比豆包、腾讯元宝、Deepseek、Kimi这几个国内头部AI产品在能力上的差异表现，完整内容概括如下脑图

2.文章内容和信息来源

本篇文章创作方式和全部内容信息主要来源于：

1.创作方式：通过AI快研侠快速创建研究大纲、收集参考资料、并一键快速生成研究初稿后，个人进一步二创后输出，AI工具极大的提升了我高质量研究创作的效率；

2.信息来源：包括互联网公开信息和市面研究分析，个人通过大量阅读和信息梳理后，增加个人原创观点后输出；同时也来自字节、腾讯、阿里等国内大厂AI从业人员交流观点。

声明：全文所有知识和信息均为个人的理解和输出，并未得到官方印证，仅供学习参考，不可用于商业用途或引为依据。

3.适合群体

1.AI产品经理或者有意转型做AI产品经理的朋友

2.大模型行业研究人员

3.有兴趣学习AI知识内容的朋友

全文目录如下：

一.产品的发展历程

1.1 豆包的由来：从一个内部孵化项目，到字节的AI超级应用

1.产品的前身

2.产品的发展和战略定位思考

3.成为字节的AI超级应用：豆包的用户规模发展

4.豆包的AI应用探索，字节的AI应用版图扩张

5.通过豆包应用扩大豆包模型影响力，形成“AI应用→大模型→云”闭环

1.2 产品发展的重要里程碑

1.2.1 豆包产品层的重要里程碑

1.2.2 模型层的重要里程碑

1.3 重要产品迭代历程

1.3.1 不同时间段，豆包的产品迭代重点

1.3.2 不同产品模块的产品迭代方向

二.从产品的角度看字节豆包

2.1 豆包的产品定位是什么？

1.一句话概述豆包的产品定位

2.豆包的用户群体（互联网办公群体、大学生）

2.2 豆包的核心产品竞争力是什么？

2.3 豆包的核心产品能力和竞品的对比分析？

2.3.1 AI搜索

2.3.2 AI语音聊天

2.3.3 AI图片生成

2.3.4 AI识图

2.4 豆包的产品发展探索与思考？

2.4.1 从密切探索到逐渐淡化，怎么看待第三方智能体生态？

2.4.2 PC和移动双端如何定位，为何高频迭代PC端和浏览器插件？

2.4.3 为什么如此重视语音聊天功能？

2.4.4 为什么重点投入多模态大模型的发展？

2.4.5 应用场景切入的边界以及选择的逻辑是什么？

2.4.6 产品设计上有哪些值得借鉴的地方？

2.4.7 经历过哪些失败的尝试？

三.从2025年规划的角度看豆包

3.1 从整个字节内部全员公开会信息角度看

3.2 从近期的产品更新动态的角度看

3.3 从近期的组织架构变动的角度看

3.4 从最近的行业动态的角度看

3.5 对于豆包后续发展规划的思考总结

一.产品的发展历程

1.1 豆包的由来：从一个内部孵化项目，到字节的AI超级应用

1.产品的前身

豆包的前身是字节在23年内部孵化的一个产品项目，名称叫Grace，当时因为ChatGPT的火爆，字节内部孵化了这样一个类似的产品，但是当时整个字节还处于对AI和大模型的探索阶段，对于这个项目还没有得到太大的重视，于此同时，以张一鸣为首的字节的高层，正在非常积极主动的研究和思考大模型到底是怎么回事，已经开始在筹备字节在AI领域的重大投入和变革。

2023年8月，豆包开始在国内国内应用市场灰度上线，同一时间，海外同步上线了一款产品cici，从这个时间点开始，字节豆包开始走进中国AI圈的视野，并开始一路狂奔和增长之路。

2.产品的发展和战略定位思考

2023年11月份的时候，字节正式成立单独的面向AI的组织架构flow，当时flow的核心目标以AI应用创新的探索为主，重点聚焦在新的原生AI应用的尝试，而不是赋能字节旧的以抖音等为主产品；

当时字节高层对于AI的重视程度相当高，一方面这个事情据说是张一鸣和CEO梁汝波等亲自牵头，另一方面卷入该项目的人员包括应用端的flow团队（朱骏负责）、大模型端的SEED团队（朱文佳负责）、以及技术中台团队（洪定坤负责）的总人数据内部人员透露人数超过千人，可见战略层对于AI的重视程度相当高，而当时战略层开始把重要的应用聚焦在豆包这款产品，并投入大量的资源扶持豆包的发展，现在回过头来看，其核心的战略定位思考个人觉得可能包括如下3点：

发展字节在AI领域的超级应用，拿到国内AI领域的门票；
探索AI应用的边界和智能的上限，拓展字节AI应用的版图；
作为豆包大模型影响力的背书，推动豆包大模型的发展。

3.成为字节的AI超级应用：豆包的用户规模发展

在过去的一年多里面，豆包一方面在产品层保持非常高频的产品迭代，另外一方面投入了不小的广告投放的资源，重点提升豆包的用户规模，参考Questmobile数据，豆包APP端的月活规模从2023年8月份的时候仅7万左右，到2025年1月份的时候，月活规模已经达到8209万的水平，从目前的增长趋势上看，豆包成为亿级月活规模的应用产品已经是迟早的事情。

从增长的曲线上看，我们可以看到过去一年半里面，豆包的用户规模增长发生过3次增长拐点，其增长包括3个增长阶段；

第一阶段（2023年11月~2024年5月）：从2023年11月份开始，豆包的用户增长规模相比之前的水平开始出现明显增长，并且维持该增长的趋势持续平稳增长；个人的理解，在11月份之前，豆包应该已经做过一波测试投放，并且验证了豆包的留存和使用时长等产品指标达到字节内部可大规模投放标准，23年11月份flow组织架构正式成立之后，豆包开始启动较大规模的应用投放，并维持比较稳定的投放预算，在这半年多里面豆包维持了一段时间稳定的增长。
第二阶段（2024年6月~2024年8月）：24年6月份的时候，豆包开始了第二波加速的增长，可以推测的是，这个时间点字节在豆包上的投放规模又加大了，但是为什么是这个时间点? 根据去年字节AI的迭代动态，个人认为核心的原因一方面是因为豆包大模型在24年5月份的时候刚完成了一波模型推理成本的大幅下降（2024年5月份，字节在火山引擎原动力大会上，首次大规模的降低豆包模型API的成本，以远低于市场竞争对手的价格卷起国内大模型的价格战），模型推理成本的大幅下降，让豆包具备了进一步增长的条件；另外一方面，在这个时间点，豆包大模型在模型性能和整体能力上，应该已经发生过一次重大迭代，模型能力也已经逐渐发展起来。
第三阶段（2024年9月~至今）：24年9月份开始，豆包的用户增长再次加速，开始第三次更大规模的增长冲刺。这个时间点的增长，个人觉得一方面可能来自于业务冲刺豆包全年用户增长目标，另一方面，我们留意到豆包在9月之前在产品层重点发展“拍照答题”功能，加上字节海外教育产品Gauth在AI加持下迅猛增长，9月份正值国内开学季，豆包可能值此机会通过教育相关AI应用功能再次加速增长。

4.豆包的AI应用探索，字节的AI应用版图扩张

值得注意的是，字节在拓展新的AI应用领域的时候，会呈现这样的规律，内部似乎经常会优先在豆包内做某一个AI应用领域的尝试，包括做一个独立的智能体，或者在豆包默认智能体的输入框上方固定一个应用使用入口，当验证该应用场景的可行性并获得正向验证数据之后，他们会推出独立的AI应用，其中包括豆包爱学、星绘、猫箱等产品都经历过在豆包内测试上线的过程。

豆包因此成为了字节内部探索AI应用的重要场地，通过这样的方式，截止至今，字节内部目前已经在不同的应用领域共布局了超过18个AI应用，应用场景覆盖通用Chatbot、Agent开发平台、虚拟社交、AI教育、AI编程、Ai数字分身、AI硬件等多个领域，成为了国内目前应用布局版图最广的厂商，同时，字节目前也是AI应用出海相对更加激进和成功的大厂。

5.通过豆包应用扩大豆包大模型影响力，形成“AI应用→大模型→云”的商业闭环

相比百度在更早以前文心一言就开始通过订阅会员的方式收费不同的是，豆包应用本身在过去一年半里面，暂时都还没有开始商业化，在这样大规模的投入的情况下，豆包应用端仍然不商业化的主要原因，个人认为，从字节战略层面上，他们构建的是“AI应用→大模型→云”的商业闭环。

通过发展豆包应用的用户规模，把字节的豆包大模型带入公共视角，从而在扩大豆包应用用户规模的同时，提升豆包大模型的影响力，从而带动大模型在B端的售卖，这点从字节把大模型的名称从一开始的“云雀大模型”改成“豆包大模型”这个做法上可以窥探出来，他们视图在统一应用和模型的营销品牌。

然而，24年5月份的时候，字节大规模的降低了模型API的价格，如此低价的策略，加上国内企业模型消耗量不算很大的情况下，短期通过大模型盈利几乎比较难，但是通过大模型引进的企业，却有可能在字节的云侧获得商业变现，因为运行大模型必然伴随着对基础服务设施、云服务、GPU等的需求，这便是个人理解的，字节短期在AI和大模型领域的商业闭环。

1.2 产品发展的重要里程碑

过去的一年半里面，字节不管是在豆包产品更新，还是模型的发展上，都保持着比较高频的迭代速度，特别是产品层，基本保持着每周一个小版本，双周一个大版本的进度快速更新，以下主要产品层和模型层两个角度，分别阐述一下豆包过去一年多的关键节点里程碑。

1.2.1 豆包产品层的重要里程碑

概括起来，豆包过去一年半里，豆包的重大产品迭代有如下几个特点：

将AI搜索的功能作为豆包最关键的基础能力之一，持续提升AI搜索的产品能力：包括整合字节内部抖音搜索和头条搜索的能力，并接入Bing等搜索引擎支持全网搜索；以及拓展学术搜索和支持深度搜索模式，豆包对于AI搜索的能力迭代从未停止；
重点发展多模态领域的应用：多模态领域的功能更新和拓展，是豆包过去一年多里面功能新增最频繁的一个模块，包括持续的拓展语音聊天，文生图、图生图、视频生成、图片理解、音乐生成等功能，不仅拓展的范围很广，并且每一个应用领域豆包保持从通用到精专的下钻打磨，特别是语音聊天的功能，由此可见字节对于多模型领域的重视和投入有多高；
深入应用场景，持续的探索通用大模型能力的AI场景化应用：豆包除了不断的拓展通用AI功能，在垂直场景的AI应用落地上也非常的积极，分别围绕着教育（拍题答疑）、办公（数据分析、录音纪要、PPT生成、云盘）、创作（海报生成、分身写真）等多个垂直应用领域，打磨更加贴近应用场景的AI产品体验；
重视智能体生态的搭建：除了自己官方打磨智能体，豆包对于第三方智能体的引入和运营也十分着重，包括官方持续的推出新的智能体，以及豆包和扣子的打通为其供应更多第三方开发者的应用。

1.2.2 模型层的重要里程碑

从字节在模型层的重要里程碑上可以看出来，过去的这段时间里面，字节在模型侧的资源和注意力上，基本都投入在了多模态大模型里面，在多模态领域有比较多的创新和输出，但是在基础大模型的性能提升和创新上明显略显不足，基本像是在持续的追赶国内和海外大模型的，缺少属于字节的创新突破；也难怪DeepSeek-R1火了之后，字节内部在模型侧会发展进一步的重大架构调整，并开始更加重视模型创新研究方向的投入。

1.3 重要产品迭代历程

这部分，我们主要从豆包在一些重要产品功能上，过去一年半的产品迭代细节，深入的了解每一个功能模块都做过哪些迭代，以此了解豆包产品发展过程中的一些思考过程和细节，为了更加清晰的看到整个迭代历程，我将豆包的主要产品迭代整理为如下图所示。

针对上图，概括总结如下：

1.3.1 不同时间段，豆包的产品迭代重点

2023年11月~2024年5月（聚焦智能体生态）：在这段时间里面，豆包的产品迭代的重点，似乎着重关注应用内的智能体生态这个点，具体体现在：

①在这个时间段，持续的推出不同应用领域的官方智能体，探索不同智能体的应用效果，除了豆包默认智能体之外，当时共推出了22个智能体，覆盖学习、语音聊天、AI生图、生活助手、编程助手等多个领域；具体智能体包括英语学习助手、聊天、AI生成漫画、音乐电台、智能体创建助手、ai生成图片、文学伴侣、恋爱大事、旅游规划师、电影评论家、星座运势、起名专家、本地推荐、编程助手

②另外一方面，豆包APP的首页不断地尝试曝光智能体内容，引导用户更多的使用智能体；其中包括将“发现智能体”从右上角隐蔽的角落固定到底部栏，以及APP首页顶部滑动露出智能体；

③同时，通过打通扣子，让扣子成为豆包更专业的智能体供应的来源；这一系列的举措都表明，该阶段豆包的产品迭代重心，在于发展智能体内容生态，并让用户更多的使用智能体，从而提升用户的粘性；
2024年6月~2024年8月（聚集产品自增长能力）：第二阶段里，豆包的产品迭代重心聚焦在PC端和浏览器端的产品更新，持续的通过浏览器插件在外部场景寻找应用入口，以期获得PC端的增长来源，同时又持续优化产品在分享模块的功能体验（聊天消息支持图片分享、支持接着聊），该阶段重心个人理解为是强化产品自增长能力。
2024年9月~至今（聚焦AI搜索、多模态、应用场景）：第三阶段是豆包更加高频迭代的时间点，可以看到在这段时间里面，豆包在AI搜索、多模态和垂直应用场景里面的更品非常频繁，具体包括；

①进一步强化搜索功能，支持学术搜索和深入搜索模式；

②多模态应用更新不断，特别是语音聊天功能保持高频迭代，识图、生图、生视频等功能也开始陆续上线；

③在应用场景上，围绕着办公、生活、创作持续迭代，特别是办公场景，陆续拓展了文档生成、会议录制、云盘、编程、日程提醒等多个应用；

1.3.2 不同产品模块的产品迭代方向

AI搜索：检索能力从抖音搜索和头条搜索拓展到支持全网搜索，持续拓展检索范围，并支持学术、生活等更多垂直领域的检索；
语音聊天：持续优化语音聊天的声音体验、自然度、拟人化特征和记忆长度，提升聊天的真实感；并支持更多模态的输入方式；同时不断地细化具体的聊天场景；
多模态：持续拓展识图、生图、修图、视频生成和音乐生成等多个应用场景的能力；
教育场景应用：重点打磨拍照答题功能；
办公场景应用：围绕办公文档AI（PPT生成、表格数据分析）、会议录音、文档问答、云盘、编程等多个办公核心场景，探索AI应用结合；
写作场景：逐步细化写作场景并补齐AI写作的场景需求，包括联网检索、参考来源定义；
生活场景：聚焦健康咨询、本地生活、出行、音乐推荐等场景；
浏览器插件和PC客户端：重点聚焦阅读、翻译、搜索场景的产品打磨，其中阅读场景重点包括网页、视频、播客、文档等场景的AI阅读。

二.从产品的角度看字节豆包

2.1 豆包的产品定位是什么？

1.一句话概述豆包的产品定位

豆包的产品定位是一个“通用的AI助手”，目前的产品理念看起来更加应景一句话“用AI把互联网的产品重新做一遍，探索AI智能的边界”。

现在我们看到豆包上承载的应用场景越来越多，覆盖娱乐聊天、办公效率、学习效率、生活服务等等多个方面，既有娱乐方向，又有效率方向，并且这个趋势目前看还没有收敛，从产品定位的角度上看，它已经在朝着一站式全场景的AI产品方向走。

很多产品人会认为，这种看起来有点杂乱无章，什么都搞的做法，看似有些定位不清晰和明确，让人琢磨不透，但是个人认为，这个的背后，可能是字节的AI团队，在持续的探索AI智能的边界的体现，毕竟从目前看，并没有哪个企业能清楚的知道大模型和AI的边界在哪里，这也是大厂应该承担起来的责任。

2.豆包的用户群体（互联网办公群体、大学生）

通过QM的用户画像数据可以了解到，目前豆包的主要用户还是以25~40之间的互联网办公用户为主，占比将近70%，其次是19~25岁之间的大学生用户，占比15%左右，而18岁以下的未成年用户和40岁以上的高龄用户，占比均在7%~8%左右；从城市等级上看，目前豆包在一二线城市的用户占比是45%左右，下城市场的用户占比相对更高。

2.2 豆包的核心产品竞争力是什么？

当我们谈及一个类似豆包这样的产品的核心产品竞争力的时候，个人认为，可以从如下几个维度去做对比分析：

基础大模型竞争
多模态大模型竞争
关键产品能力竞争
应用场景拓展竞争
产品生态竞争

我们尝试从这几个维度去对比豆包和deepseek、腾讯元宝、文心一言、kimi等产品:

基础大模型：从基础大模型的角度上看，根据行业内比较权威的SUPERCLUE的测评结果显示，豆包大模型目前不管是在基础模型还是在推理模型上，目前在国内都不是最强的模型，相比之下落后于Deepseek和阿里的模型，因此在基础大模型领域，可能并不具备核心竞争力；
多模态大模型：在多模态领域里面，至少从覆盖面上，豆包是所有的竞争对手里面应用覆盖最广的应用，其中豆包在语音聊天这个领域上，在行业内有很好的产品口碑，也是整体产品体验最好的一方，能明显的拉开和竞品的差距；其次在视觉模型上，豆包目前是所有竞品里面唯一一个支持通过自然语言对话的方式编辑图片的应用，AI图片编辑的能力，也是豆包产品的差异点之一；最后是音乐生成场景，豆包也是目前几个竞品里面唯一一个支持音乐生成能力的应用。
关键产品能力：其中例如AI搜索的产品能力，豆包在资讯检索等方面检索能力更加突出，而元宝依托微信公众号等数据源，也有不错的产品表现，因此在这个领域里面，说实话目前没有哪个产品完全占据绝对竞争力；
应用场景拓展深度：从这个角度上看，目前豆包无疑是在应用场景拓展深度上最深的应用，除了支持丰富的通用AI产品能力，也垂直深度到具体的应用场景，给用户提供更精细的应用领域的产品能力，包括办公、学习、生活等，在垂直应用场景领域的AI工程设计和应用落地，也是其产品竞争力之一，对于用户而言，他们会认知到的一点是，豆包提供了更多直接面向垂直应用场景的AI产品能力，更适合解决具体应用场景问题；

综上所述，个人认为，豆包主要通过在多模态、应用场景拓展、智能体生态这个三个角度，构建属于豆包的产品竞争力。

2.3 豆包的核心产品能力和竞品的对比分析？

前面部分我们提到，豆包主要在多模态、应用场景拓展、智能体生态这几个角度，形成和国内主要竞品的差异，接下来我们从关键的单点产品能力的角度，分析和对比豆包在以下这些产品功能上和主要竞品的差异如何，由于豆包应用的功能太多，无法每个功能都深入分析，因此我主要挑选目前个人觉得比较重要的AI搜索、语音聊天、AI生图、AI识图这4个功能，做进一步深入的分析。

2.3.1 AI搜索

联网搜索的功能基本上是一个Chatbot类产品的标配能力，因此基本上每一个AI的核心玩家都会重点在AI搜索上构建自己产品的竞争力，这个关键领域，目前大家做的如何呢，在此之前，我们先尝试构建一个AI搜索产品的评估体系，个人的理解，一个AI搜索产品的好坏，可以主要从意图识别能力、搜索引擎能力、问答呈现能力三个角度评估。

意图识别能力：指基于用户的输入，识别和理解用户意图，准确匹配用户需求的能力，包括算法识别和用户画像匹配的能力，其中评估维度包括如下：

①快思考和慢思考的决策判断：模型能否准确识别用户的问题是否需要通过深度思考后再回答，还是选择快速回答；

②语义泛化推理能力测试：当用户没有把问题描述清楚的时候，模型是否能准确理解用户的意图；

③是否结合用户的画像身份、偏好、结合上下文、语境、时效；

④是否过度依赖提示词：比如提示词中不提供案例、示范，能够准确命中用户想要的；

⑤意图的联想能力：是否能准确的联想到用户的意图；
搜索引擎的能力：

①搜索引擎的覆盖范围、检索数据源、检索质量；

②检索时效性和准确性；
问答呈现能力

①专业性：包括要点、场景化、幻觉率、案例和数据占比；

②可读性：包括逻辑性、信息呈现的效率、图文混合样式）；

③创新性：除了基于事实，模型是否能有一些创造性的思考；

在这套评估体系之下，我们如何去测验不同的产品的表现，如果用严谨的方式，应该通过一系列专业的模型测试评估的方式，才能获得较为准确的结果，然而对于个人用户而言，我们无法完整这样的工作，个人主要通过一些常见场景下的使用案例，去测试和体验不同产品的表现，从而获得体验层的评估结果，因此以下评估结果可能略显偏颇，仅供参考，具体测评结论概括总结如下：

在意图识别能力上：综合上看，元宝在意图识别的各方面的表现都相对不错；豆包具备较好的快思考和慢思考决策判断的能力以及语义泛化推理能力，但在结合用户画像身份个性化回答的表现上弱一些； deepseek如果没有开启深度推理的模式时，语义泛化和结合用户画像作答上的表现都比较一般；kimi则在快慢思考判断和结合用户画像作答上的表现也一般；
在搜索引擎的能力上：豆包接入的搜索引擎数量最多，检索范围和覆盖率最高，并且支持学术搜索等专业检索，检索结果的时效性也还行，可以检索到最近半小时后以内的内容，但检索内容给的深度比较欠缺； 元宝在检索时效性上表现最好，可以检索到分钟级别最实时的内容，且检索内容的质量和深度上更高，然在检索覆盖度和专业领域检索上可能不如豆包； deepseek和kimi在检索能力上相近，相比之下可能没有豆包和元宝做的更加深入；
在问答呈现能力上：DeepSeek和元宝的表现相对好一些，专业性、可读性、创新性表现都不错，回答结果中有较高比例的案例和数据，结构性表达和段落间的逻辑性也不错，但是在专业术语的使用上稍微欠缺；豆包则主要在可读性上表现弱一些，特别是结构化表达和段落间的逻辑关联性比较弱，这个可能是模型在深度推理能力上的表现不够强大导致的； kimi则在各个方面上的表现都相对一般，回答结果在案例和数据比例上比较低，段落间的逻辑关联性弱，且创新性也比较弱；

综合而言，就AI搜索的产品表现而言，个人认为元宝可能是综合产品能力表现最好的产品，不仅在意图识别能力上综合表现最好，检索结果的时效性和内容深度表现也更好，专业性也不错；

其次是豆包，豆包在检索范围上表现最好，可能可以检索到覆盖率更高的内容，但是在结果呈现上稍微弱一些；

然后是Deepseek，各方面表现都还不错，但是没有非常突出的地方；而kimi在几个竞品中，表现则略显一般，意图识别能力表现一般，回答结果的专业性（案例和数据比例较少）、可读性（段落间关联性弱）、创新性等方面表现都一般。

2.3.2 语音聊天

除了AI搜索的功能，语音聊天也是众多主要的Chatbot类产品都会提供的功能，从最早期的苹果Siri开始，AI智能的标配似乎就离不开语音对话的能力，同时语音聊天也可以拓展产品的使用场景和频率，满足没有具体的使用目的的用户的使用需求；对于语音聊天这个类型的产品能力的对比，同样的我们也先构建一个评估体系，个人认为，评估一个语音聊天产品做的好不好，重点需要关注如下几点：

语音体验

①语音识别能力：长语音断句、中英混合、方言识别

②流畅度和时延：从输入到响应的时间

③输出音色和音质：音色库数量以及音色复制；

④声音表达能力：支持说方言、能唱歌、能模拟声音；

⑤拟人化的体验：支持打断、主动提问、连续回复；

⑥多模态交互语音聊天：支持图片或者摄像头输入、支持回复视觉内容（图片、表情等）
角色个性化能力

①角色扮演能力：扮演具体角色并根据角色聊天的能力

②性格特征表现能力：能表现出幽默、活泼、高冷等等性格
情商表现

①情绪表达和共情能力：具备喜怒哀乐等情绪表达和共情能力；

②主动引导聊天和制造话题的能力：能制造话题引导用户聊天能力

③个性化回复：根据用户画像特征个性化调整语气和回复方式

接下来我们对比一下几个产品在语音聊天方面的表现情况，由于deepseek目前还不支持语音聊天的功能，因此我们主要对比豆包、元宝、kimi这几个产品，整体能力表现概括为如下表，总结而言，三个产品中豆包在语音聊天方面的表现无疑是最好的，其中表现在：

在语音体验方面：具备更强的语音识别能力，包括中英混合的识别率以及方言识别；并且在因长度和时延方面表现最好，同时还提供更丰富的音色库以及更强的音色克隆能力；在声音表达上还支持说方言、能唱歌和模拟声音；并且支持更加拟人化的声音体验，以及多模态输入的聊天能力。
在角色个性化能力上：豆包的角色扮演能力更强，能够准确的模拟相应的角色，并且表现出角色相应的性格特征；
在情商表现上：豆包不仅能在声音中表达情绪，与用户共情，还能结合用户画像和个性化偏好主动引导用户聊天，以及个性化调整说话的语气和方式。

各个产品具体测评案例和语音表现如下：

1.语音识别能力测试

我尝试用憋断气的方式一口气不停顿的语音输入如下这段话，除了内容很长，还夹带英文，英文部分发音的时候特别加强一下发音清晰度，对比三个产品的表现如下：

从断句效果上看，三个产品表现都不错，差异不是很大，但是在中英混合的识别上，豆包的识别准确率比较高，可以最准确的识别，而元宝和kimi的识别准确率比较一般，kimi的识别率错的更加离谱，在本人蹩脚的英语之下，豆包更加准确的识别出来。

2.流畅度和时延

测试不同的产品之间的流畅度和时延的方式比较简单，只需要拿两台手机，同时开启对话模式，然后同时输入语音指令，看哪个设备率先回复，就可以看出来不同产品之间的响应时延，通过两两对比的方式，可以看到，在响应速度上：豆包>元宝>kimi，三个产品之中豆包的响应速度是最快的。

3.输出音质和音色表现

在音质和音色方面，豆包支持最丰富的音色选择，官方提供了很多音色方案，并且还支持克隆自己的音色，而元宝目前只支持3种音色，且不支持克隆音色，kimi目前提供7种音色但支持克隆音色；

就克隆音色的能力而言，目前个人觉得豆包的音色克隆效果最好，还原真实人声的效果最好，主要体现在不仅声音像，而且能够模拟人说话时候的节奏、口吃、口音等表现。

4.声音表达能力

常见的声音的表达能力，包括能说方言，能唱歌和模拟声音，我们尝试让这三个产品模拟说粤语，或者唱周杰伦的《稻香》这首歌，以及模拟发出“嘘”的声音，豆包在这三个任务上，基本可以非常准确的合成出相应的声音，而元宝、kimi以上三个任务都做不了，因此豆包在声音表达能力上最好。

5.聊天拟人化体验

在聊天的拟人化体验方面，豆包目前已经支持通过语音实时打断的聊天体验，同时也具备主动提问carry聊天的能力，另外根据个人了解，目前豆包还在部分角色类的聊天bot中测试可连续回复多个消息这种接近真人聊天的体验，整体上豆包在拟人体验方面做的都更好。

6.多模态语音交互

在多模态语音交互方面，一方面产品最好能支持拍照或者实时开启摄像头实况输入视觉内容，另一方面语音聊天时输出回复的时候，最好也能支持回复图片、表情等视觉内容，目前豆包已经支持拍照输入，并且根据个人了解豆包目前还在尝试支持回复表情等相关的产品能力，因此在多模态交互上，表现也最好。

7.角色个性化能力

在角色的个性化表现上，豆包也具备非常显著的优势，例如你让豆包扮演一个御姐，它可以瞬间从默认的声音状态切换为“御姐”的角色状态，语音表达的时候，更符合一个“御姐”该有的特征，而元宝和kimi不管是声音状态还是回答方式，都没有个性化的扮演该角色；此外，豆包还能够把活泼、高冷、幽默、萌等这些性格特征也表现出来，角色渲染的更加的丰满。

8.情商表现

相比之下，三个产品中豆包的情商是最高的，一方面豆包在语音聊天的过程中，从它的声音上，可以听出来喜怒哀乐，具备表达情绪的能力；另外方面在聊天的过程中，豆包似乎会根据用户的个性化偏好，主动制造话题，引导用户聊天，比如主动聊聊用户的生日等，在这些细节上可以体现出来其主动制造话题和个性化聊天的能力；并且，它也能根据聊天对象调整自己说话的语气和方式，比如对方是个孩子的时候，则更倾向于采用更亲切的口吻交流。

2.3.3 AI生图

对于文生图和图生图等产品，虽然目前市面上有不少这样的产品，但是个人体验下来，大部分生图模型产品目前还停留在提升提示词理解、生图的准确性、生图质量等基础问题阶段，所以也比较难区分出究竟哪些模型更好。

相比之下，我觉得豆包主要是在AI图片编辑以及生成文字海报方面做的相对更加出色，AI图片编辑的功能支持用户针对指定的图片中指定的元素和区域，通过自然语言的方式，发起编辑指令，并且能准确的执行；而文字海报方面，豆包支持生成出带有排版、样式的文字海报，这个方面目前也是和市面上的生图模型和产品形成了一定差异化。

我们通过如下两个案例展示其在AI图片编辑和文字海报方面的表现：

例如一下以下豆包生成的图片，支持打开图片后，点击智能编辑，进一步进入编辑状态；

第一个指令是“让狗把眼睛闭上”，生成后的效果如下，豆包AI编辑的能力，可以实现只让狗的眼睛闭上，而其他的元素不动；

第二个指令是“把背景换成海边”，生成效果如下，豆包成功实现更换背景；

第三个指令是“给狗带个红色围巾，并且男人的衣服换成白色”，豆包成功实现一键换衣，以及搭配装饰功能。以上这几个能力，在局部重绘和编辑的场景下，非常好用。

以上是AI图片编辑的功能展示，另一个比较不错的功能是生成文字海报的功能，个人觉得相比之下实用性也比较高，比如通过豆包输入“生成一张文案为 AI快研侠的海报”，生成结果如下所示，目前生成图像已经能具备一定的排版设计，同时字体也有了设计样式，更加接近实际使用的结果，虽然目前还不支持进一步的文字样式、排版布局等编辑能力，但目前而言也还算不错。

2.3.4 图像理解和AI识图

目前豆包、元宝、deepseek、kimi这几个产品都支持识图的功能，大部分场景下，识图表现的差异可能不大，但在有些极端场景上，目前个人测试下来，豆包和kimi的识图和理解图片的能力表现相对不错，deepseek目前还进支持OCR的能力，还不支持图片理解功能；

比如当你上传一张超长的截图的时候，通过豆包电脑端和kimi，可以准确的识别和提取其中的文字内容，意味着面对超长截图，豆包和kimi 依然具备准确的识别能力，而deepseek因为上传文件大小的限制直接使用不了，元宝则完全无法识别其中内容。

当然，目前对于识图技术里面比较难的“数数量”的这个难题，目前所有产品也都达不到准确数数的能力，比如目前测试通过几个产品数如下图片中有几个药瓶，基本所有产品都会数错，可见目前识图能力方面，大家也都还有提升空间。

2.4 豆包的产品发展探索与思考？

在这一部分里面，我尝试从产品经理的角度思考，豆包在过去一年半里面可能涉及到的一些重大产品问题的思考，其中可能包括一些已经上线并且官方浓墨重彩迭代的领域，也包括一些做过尝试但是最后没有上线的尝试，并结合自己的观察分享个人的一些见解。

2.4.1 从密切探索到逐渐淡化，怎么看待第三方智能体生态？

在1.3部分豆包的重要产品迭代部分，我已经提到过，从2023年11月~2024年5月这最早的这段时间里面，豆包很重视第三方的智能体生态的发展，在这段时间里面不管应用层、流量层、产品层都做了不少尝试，为何前期会如此重视? 而在后期又逐渐淡化在这块的投入和迭代？以及怎么去看待第三方智能体生态这个事情？

1.一开始重视第三方智能体生态发展的原因

个人理解，可能主要包括如下几个原因：

收集灵感，寻找和验证应用场景的切入点，探索不用应用场景的机会；

在豆包团队还没有明确的应用场景布局和AI应用落地方向的前提下，豆包团队除了自己摸索和研究，也选择了让广大的用户群体自己定义和创建智能体，并根据智能体的运行数据，发现哪些应用场景的智能体能获得更明显的数据增长表现，从而达到试探和测试用户应用场景的目的，对于有机会的应用场景，或许字节会选择亲自下场重点做；这样的思路，相当于，当一个新兴的领域，业务自身还不明确往什么方向走的时候，通过构建一个自然生长的环境，然后从中发现机会；
拓展用户的使用场景，提升用户的黏性

同时，一开始因为豆包本身的产品功能比较有限，用户很容易体验一下然后就流失掉了，因此发展第三方智能体也是为了满足用户体验和使用更多AI应用的目的，从而保持用户的新鲜感，提升用户留存，虽然没有获得准确的数据，但是个人可以大胆猜测的是，用户使用智能体的数量或许跟用户的使用留存有正相关的关系，而这段时间豆包努力的引导用户使用更多的智能体，可能也是为了提升智能体的留存；
构建智能体“应用商店”，成为AI应用超级入口

第三点，说的更加大一点，或许豆包团队也在尝试构建AI时代的应用市场，希望未来能收纳更多的智能体，未来发展成为智能体的应用商店，让用户可以在这里找到各种各样的AI应用，从而发展智能体应用生态。

2.第三方智能体主要来自哪些渠道？

2024年5月，在火山引擎原动力大会上，字节flow的产品负责人朱骏公开表示当时豆包的智能体数量已经达到800万左右，如今可能又是一个不同量级的规模，豆包智能体的新增来源主要来自如下几个渠道：

用户在APP自主新建并发布公开：该场景应该是最主要的新增来源，不过该场景下智能体新建的流程非常简单，开发者定义和配置智能体的能力有限，智能体的差异化也不大，所以新增的大部分是一些比较粗糙和简单的智能体，价值不大；
来自扣子的应用开发者发布到豆包：该场景下开发者通过扣子的专业编排能力，定义和编排智能体的能力并发布到豆包，这类智能体的质量相对更高，因为有经过相对更加专业的编排；
来自字节内部业务团队开发，以及联合外部品牌开发应用：在豆包内，有不少智能体是字节内部的业务团队开发的，包括解题答疑助手（来自豆包爱学）、懂车帝等；也有不少的应用，是豆包联合外部的企业开发的智能体，包括什么值得买、同程旅行规划师、淘票票等；

3.后来为何又相对淡化了对第三方智能体的更新和迭代频率

在1.3的产品迭代历程上可以看到，从2024年6月份开始，关于第三方智能体的产品迭代相对就比较少了，基本都是在持续的增加智能体内容，以及完善智能体的分发效率问题，官方对外也不怎么强调智能体规模这个点，个人理解可能是对第三方智能体的态度有些调整，包括如下：

智能体的体量快速起来后，对于AI应用灵感的寻找这个目标，已经基本达到；
第三方智能体的规模虽然高，但是非常出色的智能体没有多少，第三方智能体里面没有看到明星级的智能体出现；
当下受限于模型能力、API生态等，构建一个高质量的智能体并不简单，依托外部开发者生态，暂时可能也难以构建出高质量的智能体。

2.4.2 PC和移动双端如何定位，为何高频迭代PC端和浏览器插件？

豆包PC客户端和浏览器插件从上线以来，一直保持着非常高频的产品迭代，PC端推出了很多产品体验不错，深受办公用户喜爱的功能，并且从个人了解到的信息，字节内部豆包的APP和PC在组织架构上是分开的两个团队在单独运作，在产品层面，APP端和电脑端在产品能力和输出结果上也不完全相同，两端背后使用的模型和技术能力或许也不一样，可见APP端和电脑端并不完全是一个简单的双端同步的逻辑，更像是分开独立发展。

因此，这里值得思考如下几个问题：APP和PC端双端的定位是什么样的？为何高频的打磨和迭代PC端的产品？

1.APP的核心价值是增长价值，PC端的价值在于满足办公学习场景

从用户的使用场景的角度上看，APP端的应用通常满足的是用户在日常生活的应用场景，主要满足移动便捷的需求，而PC端的应用通常满足用户在办公学习的应用场景，主要满足大屏阅读、深度编辑等需求；对于字节而言，APP端可能是用户增长的主战场，通过重点打磨APP端的产品，然后利用字节在APP端流量领域的优势，可以快速的把用户规模做起来，而其中必然有大量的AI用户是办公学习场景的用户，他们需要一个PC端的产品，更好的满足在办公学习阶段的使用需求，因此，APP端的定位个人认为核心价值在于增长，PC端的核心价值在于解决办公和学习场景的用户需求。

2.PC端未来也是一个流量主战场

根据Questmobile数据显示，豆包APP端2月的DAU规模已经超过2000万，而从similarweb的数据上可以看到豆包web端的日活2月连200万都还不到，并且历史增长趋势也比较缓慢，可见豆包内部暂时也并没有大力做PC端的投流和用户增长，而是以自然增长为主，可能大量的PC用户主要还是从APP端自然流转过来的；

但是PC端未来肯定也是一个流量的主战场，根据 a16z 数据显示，2025年2月ChatGPT全球周活4亿中，PC端周活2.25亿，APP端周活1.75亿，可见PC端的用户规模和体量巨大，PC端也是用户的核心使用终端之一，未来该部分可能是APP增长触达瓶颈之后的下一个重要增长来源。

3.办公学习场景是用户在AI应用中的核心场景之一

同时，必须承认的是，目前AI应用的核心落地方向中，办公学习场景必然是非常重要的应用场景之一，根据艾瑞咨询发布的《2024年中国AI移动端应用场景研究报告》显示，移动端AI应用中，56%的用户使用场景在于办公学习，如果换成PC端的数据，或者比例会更高；因此作为核心应用场景，豆包重点发展PC端也非常有必要。

2.4.3 为什么如此重视语音聊天功能？

当谈及对豆包的哪个产品功能印象深刻的时候，我发现身边的很多AI圈的用户第一反应都是觉得它的语音聊天的体验做的很好，这点个人也非常的认同，前面我们也深度对比了不同产品和豆包在语音聊天能力上的对比。如果你有自己研究，你会发现过去一年多里面，字节内部在模型和技术层面上非常重视语音模型的发展，一方面从一开始就重点推出了字节自己的豆包角色扮演模型（语音聊天场景的重要模型），并且一直不断地升级豆包在语音聊天模块的能力，包括支持音色复制、方言、端到端的实时语音模型等，那么豆包为何如此重视语音聊天能力的发展，个人认为主要原因可能包括如下：

1.大模型带动行业对语音技术的需求，发展语音模型有利于云侧商业化

大模型的发展和AI应用的落地，会显著的带动云厂商在云服务模块的需求增长，特别是语音、文档、OCR等等，其中特别是语音部分，引用腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生近期发表的观点：

“我们看到，云上DeepSeek API调用量激增，语音交互的需求也带动了ASR（自动语音识别）与TTS（文本转语音）模型的API调用；模型推理的算力消耗正在高速增长，规模化推理的成本优化，成为云厂商的核心竞争力”

因此，激增起来的语音部分的需求，或许让火山引擎这边看到明显的市场增量机会，所以字节在去年很重视语音模型部分的发展，在语音模型领域先后推出包括音乐大模型、语音识别、语音合成、声音复制、同声传译、音乐大模型等多个语音模型。

2.语音聊天场景对于豆包的增长价值

此外，语音聊天场景的功能对于促进豆包的用户增长或许也有显著的帮助，包括在提升用户的使用时长、用户留存等方面。

根据Questmobile数据显示，豆包和元宝等Chatbot类型的APP，平均一个用户一天的使用时长仅有10分钟左右，而类似像星野、猫箱这类语音聊天类的产品，其平均日使用时长可以高达70~110分钟，可见语音聊天的场景，对于拉升用户在应用内的使用时长，可能有明显的价值。对于以广告业务为核心的字节而言，想必他们必然重视用户使用时长的指标，而拉升用户使用时长，必然意味着提升语音聊天场景的使用渗透。

3.语音聊天可能是豆包选择的产品差异化竞争的切入点

每一个产品都必须要有一个让用户牢牢记住的差异化的能力点，豆包在基础大模型等方面在行业内没有占太大优势的情况下，或许他们选择了从语音聊天入手，尝试构建豆包的差异化竞争点。

2.4.4 为什么重点投入多模态大模型的发展？

在这个问题上，个人的见解相对比较浅薄，基础大模型领域当下已经是非常卷的赛道，并且海外openai等在基础模型的创新和突破上一直处于引领行业趋势的位置，在基础模型上突破相对比较困难，而多模态大模型的领域，不管国内还是海外，可能起点差异还没有特别大，从这个角度切入竞争，或许成功概率和获得影响力的机会大些。

2.4.5 应用场景切入的边界以及选择的逻辑是什么？

在应用场景切入这个角度上看，目前我们看到，豆包目前在应用场景的落地上，主要聚焦办公、教育学习、生活、创作等场景，而对于游戏、社交等领域则没有涉及相关应用落地，其应用场景选择的逻辑是什么样的？这里分享一些我自己的理解。

1.AI的应用场景主要结合互联网时代用户的需求和大模型的能力边界

实际上，目前所有的AI应用场景都并没有脱离互联网时代的用户需求本身，只是满足需求的方式和程度不一样，大模型以一种更加通用和聪明的方式满足用户的需求，而目前的大模型本质上是一个生成式AI的能力，模型的能力也有边界，只能实现生成式AI能够覆盖的应用场景，因此办公、教育学习、生活、创作等领域，存在切入的可行性，而游戏、社交等领域，暂时还没有看到更好的切入方式。

2.参考行业和竞品动态

当然，行业和竞品的应用动态，也会影响字节内部的应用场景的选择，比如切入语音聊天场景，可能因为海外Character.ai的火爆，办公场景可能参考WPS AI等。

3.字节内部的业务体系

最后，豆包内的很多技术能力都是整合字节内部业务的产品和技术能力后支持相应的场景，因此应用场景的选择和切入，也会结合字节内部的业务体系，比如豆包在教育场景的能力，来自原大力教育业务的技术和产品支持。

2.4.6 产品设计上有哪些值得借鉴的地方？

该部分，主要分享一些豆包在产品用户体验上，或者对于产品的用户增长方面，个人比较喜欢和认可的一些产品设计细节。

1.问答结果尾巴附带短视频

如下图，豆包在AI生成回答的时候，除了输出AI问答的结果，同时也会将与该主题相关的短视频内容附加推荐给用户，这个做法的好处个人觉得是“AIGC内容+人工生成内容”组合一起，可能能更好的解答用户的问题；因为AI生成的结果有的时候因为幻觉等原因，可能可信度不一定高，用户容易对回答结果存疑，而搭配上人工部分的内容，可能真实性更高一些，另外匹配相关的短视频内容也能进一步的解答用户的问题；这个方式对于解答知识科普类、旅游类、生活类等场景的问题，体验很不错。

2.对外分享的链接支持接着聊

用户将对话内容通过链接等方式分享出去之后，用户看到内容之后，可以在之前对话记录的基础上，接着聊，这个功能从激发用户使用频率和留存上看，是一个不错的做法；

3.支持复制图片直接粘贴对话框后图片问答

这个功能个人觉得体验也非常不错，特别是我经常需要从微信聊天对话中，或者是从网页中提取图片，在豆包中用识图的功能做信息提取和分析的时候，之前的路径很长，需要保存图片到本地，然后在本地上传到豆包，有这个功能之后，可以直接复制图片，粘贴到豆包对话框，然后豆包直接上传图片，这个过程体验非常丝滑和舒服。

2.4.7 经历过哪些失败的尝试？

1.豆包问答社区和SEO

2024年5月的时候，豆包业务团队曾经尝试在PC端推出“问答”社区的功能，对标知乎问答，官方将问答内容和生成结果沉淀到一个问答社区，社区链接如下：https://www.doubao.com/traffic/ask，并且将AI问答结果应用于搜索引擎SEO，为豆包web端引流，该方式当时引起一定的舆论风波，很多用户谴责豆包利用AI生成内容污染互联网数据，后来运营一段时间后，该功能目前已经下线，问答社区网站目前也不可访问；

个人认为，将AI生成结果用于搜索引擎中的问答这个方式其实也没什么问题，只是当时的时机还不太合适，因为当时模型幻觉的问题还比较严重，AI生成内容还存在很多不实信息，将这些内容用于SEO很可能会导致以讹传讹，混淆真实信息的情况。

2.智能体群聊模式

2024年7月份的时候，个人灰度体验到，豆包当时在测试智能体群聊的功能，支持用户在首页右上角支持发起群聊，添加已经关注的智能体，然后拉群聊天；群中会有一个“托”辅助调动聊天氛围，用户可以@某成员回答问题，但是当时的功能整体体验起来比较一般，群主比较累，需要不停的主动发起聊天，后来这个产品功能并没有全量上线，可能是一个失败的尝试，但是这个idea个人觉得还是挺有意思的，只是产品能力没有做好，可见豆包产品团队在过去一年多真的做了不少AI应用的尝试。

三.从后续发展规划的角度看豆包

最后一部分，我们来尝试聊聊今年豆包的发展规划会是什么样的这个问题，个人观点更多的是来源于和行业人员的交流，以及字节近期的公开动态等信息，并发表个人的一些见解，以下信息也并非实证信息，仅供参考。

3.1 从整个字节内部全员公开会信息角度看

2025年，在字节内部的全员大会上，CEO梁汝波在全员的公开信上表达了对字节2025年的年度关键词，其中对于AI业务的关键词是：探索智能的上限，新的UI交互，加强规模效应；

1.探索智能上限

梁汝波首先将探索智能上限为AI的第一件大事，其实一定程度上，也是在复盘2024年AI的发展策略有点过多的侧重于应用层产品的DAU规模，模型层过多的在适应应用层的发展，一定程度上弱化了对技术边界和模型能力边界的研究探索，比如2024年字节错失OpenAI长链思考模型（2024年9月发布）的跟进机会；

因此，2025年字节在AI的重心会放更多的精力在技术创新和前沿研究上，而降低规模指标的权重和优先，，会把更多的目标聚焦在技术创新和场景的覆盖上；

2.探索AI新的UI 交互

再次之前，AI目前主要的产品形态，还是聚焦在以Chatbot为主要形式的生成式AI的阶段，这不会是AI的最终形态，未来生成式AI+任务执行这种模式的AI应用可能会越来越多；这意味着字节可能会在Auto-Agent、AI硬件等方向上，会有更多的创新交互。

3.2 从近期的产品更新动态的角度看

从最近一段时间的产品动态更新上看，最近AI应用的更新主要集中在推理模型、办公场景，多模态；

这其中一方面因为受到deepseek的影响，豆包加紧推出自己的深度推理模型，另外一方面，从个人最近一段时间的观察发现，近期豆包的产品功能更新基本围绕着AI云盘、AI阅读、文档问答等办公场景相关的功能。

3.3 从近期的组织架构变动的角度看

字节的大模型团队Seed团队在年初开始迎来重大架构调整，原来由朱文佳主导负责的模型团队一分为二，拆分为模型研究团队和模型应用团队，原来最核心的部分模型研究团队交给新进的AI大牛吴永辉，朱文佳原来下面的乔木、项亮、冯佳时等核心成员转移向吴汇报，朱文佳的业务重心转移到负责模型应用方向的业务为主。

从这个可以看到的是，字节接下来对于模型的研究和创新层面的重视，根据对外公开的信息显示，负责大模型前沿研究的团队称为Seed Edge ，该团队目前确定五大研究方向：

第一，探索推理能力的边界，聚焦于通过大规模强化学习等技术推动智能边界的提升；
第二，探索感知能力（理解物理世界的能力）的边界，致力于突破智能与交互的融合，探索世界模型的建模方式；
第三，探索软硬一体的下一代模型设计（AI硬件解决方案），旨在实现训练效率、推理效率、模型性能的多目标优化；
第四，探索下一代 AI 学习范式（架构创新，跳出Transformer架构的创新），挑战现有范式的“共识”，寻找比 Next-Token Prediction 更高效的学习目标；
第五，探索下一个 Scaling 方向（寻找预训练和思维链之外，下一个推进模型发展的方向），继 Pretraining Scaling 和 Test-Time Scaling 之后，寻找推动智能边界演进的新方向。

3.4 从最近的行业动态的角度看

DeepSeek的大火对字节战略规划的影响和思考下一个范式、强化学习和后训练方式：R1的成功，其实是一种后训练模式的创新尝试之后的结果，deepseek在V3的技术上，通过限定一个固定的训练模版和奖励模型，让模型学会先思考后输出，然后将生成的推理数据用于微调基础模型，并上强化学习，于是诞生了R1。这样一套范式，其尝试的路线和方向可能还有很多，未来范式的探索可能能够带来模型能力的进一步创新，因此DS的成功，对字节大模型战略的主要影响可能会是在下一个范式、强化学习和后训练方式等方面的探索。
重点发展多模态大模型：deepseek模型开源之后的结果是国内整体基础模型的能力可能让大家都到达一个持平的水平，短期之内可能不会有更强的基础模型，因此大模型厂商要拉开差距，更应该在多模型这个和R1模型错位的领域去竞争才更有胜算。
Manus大火对字节产品战略的影响和思考：Manus的出现，其实一定程度上印证了字节对于新的UI交互方式创新这个方向的探索的准确性，AI可能不再是仅仅局限于Chatbot的方式和生成式AI的方式。

3.5 对于豆包后续发展规划的思考总结

汇总以上信息，个人觉得豆包后续的发展规划的方向可能包括如下：

寻找AI产品交互方式的创新，其中可能包括：
1. Auto-Agent模式：支持类似Manus模式的工具调用和自动任务处理的AI应用形态；
2. AI硬件探索：除了软件形态的交互方式创新，AI硬件也是交互方式创新的一种形式，后续豆包在AI耳机、AI玩具、AI眼镜等硬件领域的创新，或许也会是重点。
持续探索AI的应用场景边界，寻找应用场景创新，个人认为今年豆包可能重点探索的应用场景包括：
1. 办公场景：包括文档、会议、云盘等办公领域的刚需场景和AI的结合；
2. 个人助理场景：包括生活服务、**电商购物、本地生活、出行等应用场景和AI的结合；
3. 多模态：在多模态的输入和输出上，可能会有更多的创新动作；
字节内部产品生态和AI的打通和结合：包括抖音、头条、飞书等内部产品之间，在产品、数据等层面的打通。