设计革命：AI 正在重塑创意边界

AI 视频生成正席卷社交媒体，从苏超的形象对战到沉浸式历史场景，其独特的体验和吸睛能力使其广受欢迎。随着谷歌新一代 Veo 3 等技术的推出，高质量视频画面、自动同步的对话音效及背景音乐已触手可及。Veo 3 在物理模拟和口型同步上的突破，标志着 AI 视频生成迈入了新时代，为内容创作带来了前所未有的丰富性和可能性。

知心宝贝

880人浏览 · 2025-06-23 16:38:32

知心宝贝 · 2025-06-23 16:38:32 发布

在这里插入图片描述

背景

twitter 热门视频

近期，AI 视频生成在社交网络非常流行，最近苏超发布的形象对战，切水果解压视频，游戏场景，名人采访，第一人称视角参与赤壁之战、孙悟空三打白骨精、武松打虎等。这种视频形式不仅提供了沉浸式的体验，还能够迅速抓住观众的眼球。

随着视频技术的发展，这类视频的制作和分享变得更加容易和普遍。例如，谷歌最近发布的新一代视频生成模型 Veo3，它能够生成高质量的视频画面，并自动生成与画面完美同步的对话、音效和背景音乐。

这标志着AI视频生成技术迈入了一个全新的时代，使得视频内容的创作更加丰富和多元。同时，Veo 3在物理模拟与口型同步方面也表现优异，为视频制作提供了更多可能性。

提示词

在大模型的应用中，无论是语言生成还是艺术创作，提示词都扮演着至关重要的角色。与对话型AI不同，艺术创作的提示词需要更加精确和详细

由于艺术本身具有抽象性，如果提示词不够明确，生成的内容可能会变得过于随意，难以控制。此外，人物或角色的一致性也可能因此受到影响

以下是关于如何编写艺术创作提示词的一些建议：

主体/场景——场景描述——环境描述——艺术风格/媒介

可灵视频生成举例

修改前	修改后
柯基犬游泳	捕捉柯基犬宝宝在阳光照耀下的大泳池中优雅游泳的宁静时刻。水下的视角展现了小狗温柔的笑容，柔和的金色灯光穿过水面，在池底形成光影的舞动。场景以柔和的粉色为主色调，烘托出梦幻般的空灵氛围。高分辨率的摄影作品捕捉到了水的纹理和柯基犬欢快表情的每一个精致细节，创造出一幅简单而又充满电影感的宁静和纯真的肖像。这种简约而富有情感的设置传达出一种平静和幸福的感觉，是宁静而具有视觉吸引力的电影镜头的理想选择

修改前

修改后

柯基犬游泳

捕捉柯基犬宝宝在阳光照耀下的大泳池中优雅游泳的宁静时刻。水下的视角展现了小狗温柔的笑容，柔和的金色灯光穿过水面，在池底形成光影的舞动。场景以柔和的粉色为主色调，烘托出梦幻般的空灵氛围。高分辨率的摄影作品捕捉到了水的纹理和柯基犬欢快表情的每一个精致细节，创造出一幅简单而又充满电影感的宁静和纯真的肖像。这种简约而富有情感的设置传达出一种平静和幸福的感觉，是宁静而具有视觉吸引力的电影镜头的理想选择

柯基游泳-before

柯基游泳-after

# Prompt基础示例架构

- **主体/场景**
  - **柯基犬宝宝**[主体]
    - 清晰准确
    - 简化描述
  - 场景描述
    - 丰富细节
      - **阳光照耀下的大泳池中优雅游泳的宁静时刻**
    - 主体位置
      - 明确主体位置（左、中、右）
  - 环境描述
    - 进一步描述
      - **水下的视角展现了小狗温柔的笑容，柔和的金色灯光穿过水面，在池底形成光影的舞动**
      - 根据实际情况删减细节，以及情绪渲染。

- **艺术风格/媒介**
  - 艺术风格
    - **高分辨率的摄影作品捕捉到了水的纹理和柯基犬欢快表情的每一个精致细节**
    - 艺术家/流派
  - 媒介
    - **创造出一幅简单而又充满电影感的宁静和纯真的肖像**
    - 拍摄风格/运镜……
      - 这种简约而富有情感的设置传达出一种平静和幸福的感觉，是宁静而具有视觉吸引力的电影镜头的理想选择

图片/视频

对比

流程

veo3

介绍

在这里插入图片描述

Gemini Veo 3 理解成一个非常强大的“AI 视频生成引擎“，不仅能根据你的文字描述，生成高质量的视频片段，更重要的是，它还能 同时生成同步的音频！

Flow 则是一个为创意人士打造的 AI 电影制作工具，它把 Veo 3 的强大能力和 Google 的其他 AI 模型（如 Imagen 4 图像生成和 Gemini 自然语言处理）整合到一起，形成了一个流畅的视频创作工作流程

默片时代 => 电影时代（人声、环境声、角色对话、音乐音效、追踪运镜、物理模拟）

费用

示例

Google Veo3：做视频，厉害极了！（附提示词+使用教程）

附免费试用攻略+提示词技巧！实测AI视频最新神器Google Veo 3

谷歌Veo 3视频生成实测，强得飞起！ – 人人都是产品经理

缺点	描述
高费用与地区限制	订阅费用高昂，且并非所有地区的用户都能访问
中文语料支持不足	处理复杂中文提示词可能不如英文精准
视频时长过短	单次生成最长仅 8 秒，需拼接，增加后期工作量
特定场景训练不足	对小众或特定概念理解有限，可能导致生成效果不理想或出现“幻觉”

国内 VS 国外

可灵在人物创作上真实感强，但面对多视角追踪和动物生成时表现力有所欠缺。尽管支持音效，其丰富度和融合度仍需提升。同时，其1080p 分辨率和画面控制的精细度，与更先进的模型相比仍有差距

一只长颈鹿在纽约骑摩托车

一只长颈鹿在纽约骑摩托车

长颈鹿-可灵

长颈鹿-veo3

第一人称参与武松打虎

主题为第一人称视角下的武松打虎，主体/场景需清晰准确地描述武松与猛虎的对峙，简化为紧张刺激的搏斗场面。场景描述应细节丰富，涵盖森林的幽暗、光影交错，以及武松的紧张情绪。明确武松在场景中的位置，如左、中、右。进一步细化环境，根据情节需要删减细节，增强情节的紧张感。艺术风格/媒介选择写实风格，突出武松的英勇与老虎的凶猛，采用动态镜头捕捉搏斗瞬间。

主题： 第一人称视角下的武松打虎
主体/场景： 清晰准确地描述武松与猛虎的对峙，简化为紧张刺激的搏斗场面。
场景描述： 细节丰富，涵盖森林的幽暗、光影交错，以及武松的紧张情绪。
主体位置： 明确武松在场景中的位置，如左、中、右。
环境描述： 进一步细化环境，根据情节需要删减细节，增强情节的紧张感。
艺术风格/媒介： 选择写实风格，突出武松的英勇与老虎的凶猛，采用动态镜头捕捉搏斗瞬间。

武松打虎-可灵

武松打虎-veo3

超现实 CG + 深海巨兽

视觉风格：超现实CG + 低角度手持视角 + 强烈逆光构图

摄像机运用：

始终保持低角度拍摄，使用长焦距强调“怪物的无尽高度”，营造一种“神圣恐惧”的氛围，类似于《哥斯拉》、《雪国列车》和《山巨人》等作品中的描绘。

故事概述：

第1-2秒：倾盆大雨刚刚停歇，夜空沉重。一名船员抬头望向远方的地平线，海面似乎向上隆起。镜头从他身后缓缓向上倾斜，某种巨大的东西开始从水中升起。

第3-4秒：海怪完全从海洋中站起，它的鳍骨、岩石般的铠甲、闪烁的深海发光点和部分透明的生物组织在月光下显露无遗。

第5-6秒：摄像机拉回到低角度宽镜头，船员显得小得如同芝麻。他喘息着向后退，喃喃自语：“它站起来了……它真的站起来了……”他的声音开始颤抖。

第7-8秒：怪物的头终于从海中浮现，它庞大的身形几乎遮住了天空。一只部分折叠的翅膀展开，掀起波浪。摄像机在水蒸气和发光颗粒中剧烈晃动。画面在瞬间曝光的闪光后切换到黑屏，伴随着船员的尖叫。

关键对话（恐惧低语）：

“它站起来了……它真的站起来了……”

摄影技巧：

以低角度宽镜头开场 → 缓慢推近 → 中段转为俯视全身视角 → 以剧烈晃动 + 过度曝光的白光 + 黑屏结束。

优化建议：

在低角度拍摄时，可以考虑使用手持摄像机的不稳定感来增加紧张气氛。

在海怪完全站起时，可以利用CG技术增强其细节和质感，使其更加真实和震撼。

在船员的声音处理上，可以加入更多的颤抖和恐惧感，以增强观众的代入感。

在画面切换到黑屏时，可以加入一些声音效果，如船员的尖叫声，以增强视觉和听觉的冲击感。

深海巨兽-可灵

深海巨兽-veo3

特性 / 模型	可灵 (Kling)	Veo 3 (Google)
开发者	快手 (Kuaishou)	Google DeepMind
主要功能	文本生成视频，图像生成视频，支持人物表情和物理模拟	文本生成视频，图像生成视频，高级电影级控制
音频生成	支持生成音效 (如脚步声、环境音)，支持唇形同步	原生支持音频生成 (对话、环境音效、音乐)，高精度唇形同步
视频时长	最长可达 2 分钟 (2.1 版本)	通常单次生成限制在 8 秒，可拼接
分辨率	1080p	最高支持 4K
画面细节	注重真实感、流畅运动、人物细节，物理模拟	细节突出，更强的画面控制力，包括景深、镜头类型、光照
镜头控制	较好的运动连贯性，可生成复杂运动	更精细的电影级控制 (运镜、光照、情绪等)
唇形同步	具有唇形同步功能，可增强人物真实感	高精度唇形同步，使对话更自然
风格多样性	注重真实感和电影级效果	既支持写实，也支持多种艺术风格 (动画、漫画等)