温馨提示运营团队(2025年2月18日整理)原创报告(共210页)

图片

——

正文:

图片

国外知名人形机器人独角兽公司【Figure AI】于2025年2月20日推出其自研通用型视觉-语言-动作(VLA)模型—Helix

2025年3月3日,人形机器人第一股[优必选科技]于发布公司自研全球首个人形机器人多模态推理大模型,该推理大模型基于DeepSeek-R1深度推理技术,借助其强大的数据处理和智能决策能力,让人形机器人具备类似人类常识的推理能力,支持多台人形机器人之间复杂任务的高效拆解、调度与协同。

图片

图片

国内头部人形机器人创企【智元机器人】在机器人“大脑”层面也迎重大技术突破,于今日(2025年3月10日)发布首个通用具身基座大模型-智元启元大模型GO-1(Genie Operator-1),它开创性地提出了Vision-Language-Latent-Action (ViLLA) 架构。

现有的 VLA(Vision-Language-Action)架构,主要依赖真机和合成数据;与VLA架构相比,智元提出的 Vision-Language-Latent-Action (ViLLA) 这一创新性架构通过预测Latent Action Tokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟。在真实世界的灵巧操作和长时任务方面表现卓越,远远超过了已有的开源SOTA模型。

图片

ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力;在推理时,VLM、Latent PlannerAction Expert三者协同工作,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。

基于 ViLLA架构GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。

这一系列的特点可以归纳为4个方面:

  • 人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。

  • 小样本快速泛化:GO-1大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。

  • 一脑多形:GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。

  • 持续进化:GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

图片

通过Vision-Language-Latent-Action (ViLLA) 创新性架构,研究团队在五种不同复杂度任务上测试 GO-1,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%);单独验证了ViLLA 架构中Latent Planner的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。

随着Fiure AI、优必选、智元接连发布自研大模型,再一次验证了小编往期看法:自研机器人大模型,将是人形机器人创企未来唯一出路!!

... ... ...

本文仅展示极少部分,接下来,小编将详细盘点具身智能大模型领域,全球初创公司(Skild AI、Covariant、有鹿机器人、X Square等)介绍及产品进展、全球科技巨头/大厂(谷歌、英伟达、微软、OpenAI、华为、阿里、腾讯、字节等)现阶段产品进展、人形机机器人本体厂家与科技巨头/大厂合作现状以及科技巨头入局人形机器人本体赛道现状。

... ... ...

本文内容仅展示一部分,更多详细解读,扫码加入知识星球“机器人头条”,查看完整版文章:[原创]具身智能大模型赛道:科技巨头技术进展、初创公司盘点,第一款“机器人通用大脑”花落谁家(文字6W+)并深度了解“具身智能&人形机器人”赛道

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐