阶跃同时开源视频生成+实时语音模型,我愿称之「多模态界的Deepseek」
你可能还不清楚,阶跃星辰这家创业公司成立还不到 2 年,这已经是他们发布的是第 11 款多模态模型。这 11 个模型涵盖了图片理解、视频理解、图像生成、视频生成、语音识别、语音复刻和生成所有的模态和类别。
说真的,DeepSeek 让中国的开源大模型在全世界杀疯了。
就在刚刚,阶跃也宣布联合吉利汽车集团开源了两个最新的模型——
一个是视频生成模型 **Step-Video-T2V,**一个是支持实时语音对话的语音模型 Step-Audio。

一发布就迅速在推特上火了,来自 HuggingFace 的工程师称这是下一个 DeepSeek,HuggingFace 官号和 CEO 也都转发了这个 post。


从官方自测效果来看,非常惊艳。重点是,这俩模型全都开源了。
而且,在「跃问」APP 上,都能免费不限次的用。
好家伙,一个视频,一个语音,妥妥的多模态最具挑战的两大赛道。
不过,看到是「多模态卷王」阶跃星辰发布的,我也就不意外了。

先来看下 Step-Video-T2V 这个视频生成参数量怪兽。
Ps:跃问 App 和跃问网页端都能免费不限次生成。
传送门:
https://yuewen.cn/videos
我如果没记错的话,上一届开源最大的还是腾讯混元 130 亿参数,阶跃这次干到 300 亿参数,直接成了开源届老大。
从阶跃官方发布的技术报告里看,阶跃对这个新发布的 Step-Video-T2V 视频模型做了非常全面的评测,分成运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个类别。

简单解释下这个表格是怎么评估的——
每一行是一个类别,比如食物、风景、人物、运动等,四列对应 4 个评估维度:指令遵循度、动作流畅度、物理合理性、美学吸引力。
每组数字是两个模型的打分,比如 1273-1221,说明 Step-Video-T2V 得分更高。
绿色表示 Step-Video-T2V 在该项指标上表现优于 Hunyuan。黄色反过来,无高亮代表没有明显胜出。
在大多数类别和评估维度上,Step-Video-T2V 的得分都是超越了上一届最好的开源模型(腾讯混元)。
先带你们看几个 show case。
提示词:低角度旋转镜头围绕着一个鼓手和他的架子鼓。鼓手穿着深色 T 恤和浅色裤子,戴着帽子,手臂上有纹身。
我看完第一遍,直呼 360 度旋转无死角啊,第二遍再看下细节,鼓手、架子鼓、T 恤、裤子、帽子甚至纹身都生成齐了,旋转速度非常快的同时,也没有出现变形和错位,运镜非常流畅,我愿称它是运镜大师!
再来看一个关于人的超复杂 case——
提示词:视频中,一名男子身穿单薄的衣物,在甲板上冒着大雨翻找渔网。他皮肤黝黑,头发凌乱地贴在额头上,雨水顺着他的脸颊流下,模糊了他的视线。他的双手被雨水淋湿,显得冰冷而无助。但他仍然坚持不懈地摸索着渔网,希望能够有所收获。然而,每次他都只能失望地摇头。他的表情无法看清,但从他的动作中可以感受到一丝焦虑和疲惫。整个场景被大雨笼罩,雨滴砸在甲板上发出清脆的声音。这个视频采用纪实黑白照片的拍摄方式,具有复古照片质量,展现了二战期间的艰辛生活。
画面一出现,就会有种在看电影镜头的错觉,淋湿的头发、顺着往下滴的水滴、黝黑的皮肤被雨水淋湿后的就会有光泽感,还有远处水蒙蒙的山景,真的太真了!
我在跃问 APP 里跑了一个——

提示词:一只猪飞向一个人
直接看视频吧——
跑着跑着回过头看向屏幕,我去它都知道屏幕外是人??
最后一个,复杂运动生成——
让国宝玩一个高难度的旋转跳跃,模型对熊猫、地面坡度、滑板的空间关系理解非常到位了。
理解物理规律&生成复杂运动是现在所有 AI 视频的难点,一个镜头做不好就会穿帮。实测 Step-Video-T2V 在这方面相比上一代模型有明显体感上的提升。
而且,人物的五官细节、大幅度的运镜、复杂运动的把控这些都处理的不错。
这里要再强调一嘴,这个模型是开源的。
GitHub:
https://github.com/stepfun-ai/Step-Video-T2V
Hugging Face:
https://huggingface.co/stepfun-ai/stepvideo-t2v
Model Scope:
https://modelscope.cn/models/stepfun-ai/stepvideo-t2v
技术报告:
https://arxiv.org/abs/2502.10248
再来看下这次同时发布的另一个开源模型——Step-Audio,支持实时语音通话的语音模型。
同样的,在跃问 APP 上能直接体验。
搬出我难度十级的 case——
它竟然听懂绕口令了。
这个情绪也到位,像跟闺蜜聊悄悄话一样。
关于模型,直接划重点——
-
情绪、方言、多语种、唱歌,支持复刻不同角色的音色
-
开源整套实时语音通话方案,简单部署就能端到端体验,上手成本极低
我这里必须要再提一嘴,今年伴随着多模态 AI 的繁荣,能提供情绪价值的 AI 玩具、硬件产品类赛道,是很有可能迎来大爆发的。
这些 AI 玩具,一个非常重要的功能,就是语音能力。而市面上可用的支持实时语音通话的开源模型非常有限。
阶跃这一波语音模型开源,我觉得是踩到点上了的,无论是直接部署还是微调,这类产品的玩法上限都被极大的拉高了。
贴一下这个语音模型的体验地址和技术报告链接:
GitHub 地址:
https://github.com/stepfun-ai/Step-Audio
Hugging Face:
https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
Model Scope:
https://modelscope.cn/collections/Step-Audio-a47b227413534a
技术报告:
https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf
我更深入了研究了下,我发现这个 **Step-**audio-chat 模型,可以在语音对话的同时,去完成工具调用(比如调用搜索引擎、知识库等),这个能力对于落地 AI 产品来说是不可缺少的。从这一点出发,Step-audio-chat 可能是业内首个做到产品级的开源语音交互模型。
此外,来看下 Step-Audio-chat 在学术测试基准上的表现。

其在 Llama Question、Web Question 等一系列语音问答测试集上,全面超越了 Qwen2-Audio 等此前的开源模型,成为了新的开源语音 SOTA。
另外我还发现一个比较有意思的点,做研究的都知道,语音的学术测试基准,其实是有点跟不上现在大众对于 AI 语音能力的预期了的,如何更接地气的评测一个语音大模型在实际需求上的表现,其实是一个很重要的研究问题。
为此,阶跃干脆“顺手”自建了一个全新、开源的语音评估体系—— StepEval-Audio-360 基准测试,包括角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等 9 个维度。

从这个基准,更能看出 Step-Audio 这个模型的惊艳表现。
此外,我无意间发现 Step-Video-T2V 这款模型采用的都是最宽松的 MIT 开源协议,可以商用和任意编辑。
MIT 许可证——没有对修改文件的具体要求,不涉及商标专利使用的条款,只需保留原始版权声明和许可声明,更简单灵活。
最后
你可能还不清楚,阶跃星辰这家创业公司成立还不到 2 年,这已经是他们发布的是第 11 款多模态模型。
这 11 个模型涵盖了图片理解、视频理解、图像生成、视频生成、语音识别、语音复刻和生成所有的模态和类别。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。


👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)

👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
更多推荐


所有评论(0)