DreamO+数字人：AI赋能，一键生成角色融合带货视频，开启智能营销新时代！

本文介绍了使用开源AI工具DreamO+数字人生成带货视频的完整流程。首先通过FLUXdev生成女模特图像，再利用DreamO的IP参考模式合成模特与商品图。接着使用TTS工具生成配音，最后通过Sonic或Wan2.1+LatentSync两种方案制作数字人视频。文章还提供了大模型学习路线，包含7个阶段的学习内容，从系统设计到行业应用开发，并附赠AI大模型学习资源包。完整教程可在CSDN免费获取。

发菜君

921人浏览 · 2025-06-13 15:47:17

发菜君 · 2025-06-13 15:47:17 发布

前言

最近两个星期，在图像编辑领域最火的莫过于FLUX.1 Kontext了，各大平台都推出了API抢先体验版，奈何点击一次就是几毛钱，于是等开源，可惜的是左等右等也没等到。于是找了下有没有类似的产品，还真被我找到了，DreamO就是那个开源了，又很惊艳的作品。

然后我就尝试了用DreamO+数字人一键生成带货视频，先看效果，如来卖泡面：

步骤

生成模特

我这里使用FLUX dev生成一个女模特

提示词如下：

A full body frontal photo of a beautiful Oriental girl model, wearing a sports shirt and facing the audience, with a great figure, sweet and charming, clear contours, and a solid color background, 4k, uhd

合成模特商品图

使用DreamO的IP参考模式，分别上传一张模特，一张商品图，这里工作流会自动抠图

提示词：

A beautiful girl with a smile on her face, holding instant noodles in both hands to promote to the audience, and a solid color background

最终合成效果如下图所示，这里面部ID有稍许变化，可以使用InstantID进行面部修复，也可以选中不修复，不影响。

合成音频

可使用任意TTS工具合成音频，我这里使用的是Index-TTS克隆的语音，台词如下：

“3分钟即享，Q弹面条，裹满浓郁汤汁，每一口都香到上头！无论是深夜加班、追剧嘴馋，还是懒人速食，X泡面都能瞬间满足你的胃！经典红烧、酸辣劲爽、香浓豚骨，多种口味，总有一款让你欲罢不能！”

生成数字人

1. 方案一、使用sonic音频驱动动画直接合成数字人。Sonic是由腾讯与浙江大学联合开发的开源数字人技术框架（2025年发布），旨在通过单张静态照片和一段音频生成高度逼真的动态视频，实现人物口型、表情及头部动作与音频的精准同步。
2. 方案二、先使用wan2.1图生视频；再使用latentsync口型同步。Wan2.1是阿里巴巴开源的AI视频生成大模型，其图生视频（Image-to-Video, I2V）功能通过静态图像生成动态视频，支持复杂运动控制和多风格输出。LatentSync是由字节跳动与北京交通大学联合开发的端到端唇形同步框架，基于音频驱动的潜在扩散模型（Latent Diffusion Model），能够通过输入音频直接生成高分辨率、动态逼真且时间连贯的唇形同步视频。

最终效果如下：

这份完整版的教程已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。