阶跃同时开源视频生成+实时语音模型，我愿称之「多模态界的Deepseek」

你可能还不清楚，阶跃星辰这家创业公司成立还不到 2 年，这已经是他们发布的是第 11 款多模态模型。这 11 个模型涵盖了图片理解、视频理解、图像生成、视频生成、语音识别、语音复刻和生成所有的模态和类别。

再不会python就不礼貌了

1099人浏览 · 2025-02-25 10:29:02

再不会python就不礼貌了 · 2025-02-25 10:29:02 发布

说真的，DeepSeek 让中国的开源大模型在全世界杀疯了。

就在刚刚，阶跃也宣布联合吉利汽车集团开源了两个最新的模型——

一个是视频生成模型 **Step-Video-T2V，**一个是支持实时语音对话的语音模型 Step-Audio。

一发布就迅速在推特上火了，来自 HuggingFace 的工程师称这是下一个 DeepSeek，HuggingFace 官号和 CEO 也都转发了这个 post。

从官方自测效果来看，非常惊艳。重点是，这俩模型全都开源了。

而且，在「跃问」APP 上，都能免费不限次的用。

好家伙，一个视频，一个语音，妥妥的多模态最具挑战的两大赛道。

不过，看到是「多模态卷王」阶跃星辰发布的，我也就不意外了。

先来看下 Step-Video-T2V 这个视频生成参数量怪兽。

Ps：跃问 App 和跃问网页端都能免费不限次生成。

传送门：

https://yuewen.cn/videos

我如果没记错的话，上一届开源最大的还是腾讯混元 130 亿参数，阶跃这次干到 300 亿参数，直接成了开源届老大。

从阶跃官方发布的技术报告里看，阶跃对这个新发布的 Step-Video-T2V 视频模型做了非常全面的评测，分成运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个类别。

简单解释下这个表格是怎么评估的——

每一行是一个类别，比如食物、风景、人物、运动等，四列对应 4 个评估维度：指令遵循度、动作流畅度、物理合理性、美学吸引力。

每组数字是两个模型的打分，比如 1273-1221，说明 Step-Video-T2V 得分更高。

绿色表示 Step-Video-T2V 在该项指标上表现优于 Hunyuan。黄色反过来，无高亮代表没有明显胜出。

在大多数类别和评估维度上，Step-Video-T2V 的得分都是超越了上一届最好的开源模型（腾讯混元）。

先带你们看几个 show case。

提示词：低角度旋转镜头围绕着一个鼓手和他的架子鼓。鼓手穿着深色 T 恤和浅色裤子，戴着帽子，手臂上有纹身。

我看完第一遍，直呼 360 度旋转无死角啊，第二遍再看下细节，鼓手、架子鼓、T 恤、裤子、帽子甚至纹身都生成齐了，旋转速度非常快的同时，也没有出现变形和错位，运镜非常流畅，我愿称它是运镜大师！

再来看一个关于人的超复杂 case——

提示词：视频中，一名男子身穿单薄的衣物，在甲板上冒着大雨翻找渔网。他皮肤黝黑，头发凌乱地贴在额头上，雨水顺着他的脸颊流下，模糊了他的视线。他的双手被雨水淋湿，显得冰冷而无助。但他仍然坚持不懈地摸索着渔网，希望能够有所收获。然而，每次他都只能失望地摇头。他的表情无法看清，但从他的动作中可以感受到一丝焦虑和疲惫。整个场景被大雨笼罩，雨滴砸在甲板上发出清脆的声音。这个视频采用纪实黑白照片的拍摄方式，具有复古照片质量，展现了二战期间的艰辛生活。

画面一出现，就会有种在看电影镜头的错觉，淋湿的头发、顺着往下滴的水滴、黝黑的皮肤被雨水淋湿后的就会有光泽感，还有远处水蒙蒙的山景，真的太真了！

我在跃问 APP 里跑了一个——

提示词:一只猪飞向一个人

直接看视频吧——

跑着跑着回过头看向屏幕，我去它都知道屏幕外是人？？

最后一个，复杂运动生成——

让国宝玩一个高难度的旋转跳跃，模型对熊猫、地面坡度、滑板的空间关系理解非常到位了。

理解物理规律&生成复杂运动是现在所有 AI 视频的难点，一个镜头做不好就会穿帮。实测 Step-Video-T2V 在这方面相比上一代模型有明显体感上的提升。

而且，人物的五官细节、大幅度的运镜、复杂运动的把控这些都处理的不错。

这里要再强调一嘴，这个模型是开源的。

GitHub：

https://github.com/stepfun-ai/Step-Video-T2V

Hugging Face：

https://huggingface.co/stepfun-ai/stepvideo-t2v

Model Scope：

https://modelscope.cn/models/stepfun-ai/stepvideo-t2v

技术报告：

https://arxiv.org/abs/2502.10248

再来看下这次同时发布的另一个开源模型——Step-Audio，支持实时语音通话的语音模型。

同样的，在跃问 APP 上能直接体验。

搬出我难度十级的 case——

它竟然听懂绕口令了。

这个情绪也到位，像跟闺蜜聊悄悄话一样。

关于模型，直接划重点——

情绪、方言、多语种、唱歌，支持复刻不同角色的音色
开源整套实时语音通话方案，简单部署就能端到端体验，上手成本极低

我这里必须要再提一嘴，今年伴随着多模态 AI 的繁荣，能提供情绪价值的 AI 玩具、硬件产品类赛道，是很有可能迎来大爆发的。

这些 AI 玩具，一个非常重要的功能，就是语音能力。而市面上可用的支持实时语音通话的开源模型非常有限。

阶跃这一波语音模型开源，我觉得是踩到点上了的，无论是直接部署还是微调，这类产品的玩法上限都被极大的拉高了。

贴一下这个语音模型的体验地址和技术报告链接：

GitHub 地址：

https://github.com/stepfun-ai/Step-Audio

Hugging Face：

https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b

Model Scope：

https://modelscope.cn/collections/Step-Audio-a47b227413534a

技术报告：

https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

我更深入了研究了下，我发现这个 **Step-**audio-chat 模型，可以在语音对话的同时，去完成工具调用（比如调用搜索引擎、知识库等），这个能力对于落地 AI 产品来说是不可缺少的。从这一点出发，Step-audio-chat 可能是业内首个做到产品级的开源语音交互模型。

此外，来看下 Step-Audio-chat 在学术测试基准上的表现。

其在 Llama Question、Web Question 等一系列语音问答测试集上，全面超越了 Qwen2-Audio 等此前的开源模型，成为了新的开源语音 SOTA。

另外我还发现一个比较有意思的点，做研究的都知道，语音的学术测试基准，其实是有点跟不上现在大众对于 AI 语音能力的预期了的，如何更接地气的评测一个语音大模型在实际需求上的表现，其实是一个很重要的研究问题。

为此，阶跃干脆“顺手”自建了一个全新、开源的语音评估体系—— StepEval-Audio-360 基准测试，包括角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等 9 个维度。

从这个基准，更能看出 Step-Audio 这个模型的惊艳表现。

此外，我无意间发现 Step-Video-T2V 这款模型采用的都是最宽松的 MIT 开源协议，可以商用和任意编辑。

MIT 许可证——没有对修改文件的具体要求，不涉及商标专利使用的条款，只需保留原始版权声明和许可声明，更简单灵活。

最后

你可能还不清楚，阶跃星辰这家创业公司成立还不到 2 年，这已经是他们发布的是第 11 款多模态模型。

这 11 个模型涵盖了图片理解、视频理解、图像生成、视频生成、语音识别、语音复刻和生成所有的模态和类别。

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程文末领取哈）

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）

在这里插入图片描述
👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

企业微信如何使用deepseek-最简单的方法

DeepSeek技术社区

deepseek 关闭思考，在ollama中，在代码中

DeepSeek技术社区

第38次CCF-CSP认证——月票发行（chatgpt5 vs deepseekv3.1）

DeepSeek技术社区

所有评论(0)

查看更多评论

再不会python就不礼貌了

@Everly_

已为社区贡献67条内容

阶跃同时开源视频生成+实时语音模型，我愿称之「多模态界的Deepseek」

再不会python就不礼貌了

最后

如何学习AI大模型 ？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

CSDN粉丝独家福利

👉1.大模型入门学习思维导图👈

👉2.AGI大模型配套视频👈

👉3.大模型实际应用报告合集👈

👉4.大模型落地应用案例PPT👈

👉5.大模型经典学习电子书👈

👉6.大模型面试题&答案👈

CSDN粉丝独家福利

所有评论(0)

再不会python就不礼貌了

如何学习AI大模型？