登顶榜首的图生视频大模型Steamer-I2V，是百度开发VBench Leaderboard的？

✨ “Steamer-I2V以拍摄视角，对视频描述进行精细化结构化设计，保障模型对画面细节、主体运动轨迹、风格属性和镜头语言的遵循，从而对生成内容的复杂细节与指令遵循精准操控”这意味着此模型可以实现对画面的精准控制，视频生成可以具备独特的设计感，甚至是复杂的运镜控制，取决于创作者的创意，为图生视频带来了灵魂。最新潮的当属图生视频模型，结合了深度学习、计算机视觉和自然语言处理等多领域的技术，有望变革

AI生成曾小健

1552人浏览 · 2025-05-19 15:36:39

AI生成曾小健 · 2025-05-19 15:36:39 发布

登顶榜首的图生视频大模型Steamer-I2V，是百度开发的？

Luna AI远航指南 2025年05月18日 20:15 广东

今日在某财经科技群，有人分享了一条权威视频生成评测机构VBench Leaderboard发布的图生视频榜单链接。一个新模型“Steamer-I2V”以总分89.38%的成绩，登顶榜首，引发了不少群友讨论。

毕竟，AI大模型还在快速发展中，除了语言大模型外，文生图、文生视频也越来越多。最新潮的当属图生视频模型，结合了深度学习、计算机视觉和自然语言处理等多领域的技术，有望变革短视频的创作模式，以及在垂直行业应用存在巨大的想象空间。

有人问Steamer-I2V是哪家新公司开发的？经过一番搜索后发现，竟然是百度旗下的团队。信息公开度一直较高的百度，这次也太能保密了，做到了悄无声息，也许过段时间曝光后，会正式官宣吧。

项目摘要显示，Steamer-I2V作为业界领先的图像转视频（I2V）生成模型，专门针对精准画面控制，高清精美画质，中文语义理解进行优化，能够将静态图像转换为时间连贯且视觉吸引力强的动态视频。该模型凭借卓越的画面可控性与生成保真度，在国际权威视频生成评测榜单VBench中荣膺图生视频综合评分榜首，展现出行业顶尖的技术实力。

1. 精细化视频结构化描述语言，保障像素级画面控制，大师级运镜

Steamer-I2V以拍摄视角，对视频描述进行精细化结构化设计，保障模型对画面细节、主体运动轨迹、风格属性和镜头语言的遵循，从而对生成内容的复杂细节与指令遵循精准操控。同时它支持多模态条件输入——包括中文文本提示、参考图像和引导信号，确保与特定的创意意图或功能需求保持一致。

2. 模型组合调教策略，保障高清画质，电影级动态美学

基于前沿的生成式方法与Transformer扩散架构，模型可生成分辨率高达1080P的高清视频，呈现流畅的过渡效果与逼真的物理运动规律。此外，Steamer-I2V提出模型组合调教策略，对时间一致性、电影镜头构图和运动规律性进行了针对性优化，确保生成视频在整个视频序列中展现出优秀的逻辑连贯性和视觉连续性。

多阶段监督式训练
采用分辨率、帧率由低到高进行逐级监督式微调（Supervised Fine-Tuning, SFT），实现从宏观控制到精细刻画的渐进式学习过程。
美学条件控制调优
为了提升模型对视频美学的理解，Steamer-I2V 基于条件控制的微调（Conditional Fine-Tuning, CFT）策略，引导模型剖析美学视频的内在构成要素，而非仅仅停留于表面形式的模仿。
基于多目标反馈的强化学习调优
采用人工全局反馈与多维质量算子微观打分相结合的方法，对生成模型进行偏好对齐调优。该策略遵循从宏观到微观的原则，逐步提升对齐的精确度。
提示词增强技术
训练多模态大型模型，结合输入的图片对原始提示词进行增强，用以提升生成质量。该模型不仅能够深入分析和描述图像内容，还能对视频第一帧中场景或物体的时间演化情况进行预测，涵盖动作、运动轨迹以及物体状态转变等多个方面。

3. 中文语义精准理解

Steamer-I2V 构建亿级规模的中文多模态训练数据库，通过"筛选-净化-配比"三级数据优化体系，确保中文文本指令与视觉元素的语义对齐精度。该数据清洗机制使模型具备专业级中文概念解析能力，可精准捕捉文化特定元素与复杂语义关联，显著提升中文创意指令的视觉转化准确率。

敲黑板，抓重点：

✨ “基于前沿的生成式方法与Transformer扩散架构，模型可生成分辨率高达1080P的高清视频，呈现流畅的过渡效果与逼真的物理运动规律”这确保了在移动端的高清画质水准，从而为视频创作的商业变现创造了可靠途径。从群友分享的疑似Steamer-I2V制作的AI视频可以看到，视频清晰度处于高水准。截图如下：

✨ “该数据清洗机制使模型具备专业级中文概念解析能力，可精准捕捉文化特定元素与复杂语义关联，显著提升中文创意指令的视觉转化准确率。”这代表了百度相对海外模型的一项核心优势：对中文语义的精准理解。基于亿级规模的中文多模态训练数据库，通过"筛选-净化-配比"三级数据优化体系，让文本内容精准演化成视觉元素。

VBench Leaderboard评选选取了“视频-文本相机运动”、“视频图像主体一致性”、“视频图像背景一致性”、“运动平滑度”、“动态度”、“美学质量”七大维度，Steamer在多个维度表现出色。不过，从steamer项目官网可以看到，该项目的技术报告即将推出，也就是说技术细节还没有曝光。

AI大模型领域竞争依然激烈，初创公司不断冒出，主流科技大厂也时不时甩出重磅产品。作为国内最早“ALL in AI”的公司，百度在AI大模型领域实力雄厚，不知道还有多少惊喜没有放出来，让我们继续挖掘！