AI 视频“导演模式”怎么用
我一看到“Directing Mode(导演模式)”这几个字,就知道这功能靠谱。
原因很简单:大多数人做 AI 视频翻车,不是模型不行,是你给的指令像“随便拍拍”。你没当导演,AI 就只能瞎发挥。
我自己平时也爱用这套写法。它不玄学,甚至有点“啰嗦”,但成片就是更像人拍的。😄
导演模式到底在干嘛?
一句话:把你的画面拆成“可执行的拍摄指令”。
你不用写文艺散文。
你要写的是:
- 镜头在哪(机位)
- 镜头怎么动(运动方式)
- 画面里谁在干嘛(角色动作)
- 环境长啥样(场景道具)
- 光是什么味儿(光线与色彩)
- 画面多久切一次(节奏与时长)
把这些说清楚,AI 的发挥空间就会变得“可控”。
适合用导演模式的 3 个场景
1)你想要“稳定的人物动作”
比如:转身、抬手、走向镜头、拿起杯子。
2)你想要“更像广告/电影的镜头感”
比如:推镜、环绕、拉焦、慢动作。
3)你想要“同一风格的一组视频”
比如:同一套产品短片 5 条,色调、机位、节奏要统一。
一套能直接抄的导演模式提示词模板
你可以把它当成“分镜头口述稿”。
导演模式模板(通用)
[主体/演员]:谁,长什么样,穿什么
[动作]:做什么动作,动作节奏(慢/快/停顿)
[场景]:地点,道具,背景发生什么
[机位]:近景/中景/远景,视角(平视/俯拍/仰拍)
[镜头运动]:推/拉/摇/移/跟拍/环绕,速度
[镜头参数]:焦段/景深/虚化(可选)
[光线与色彩]:柔光/硬光,主色调,氛围
[风格]:写实/胶片/赛博/日系清新…
[时长与节奏]:持续几秒,是否需要镜头切换
[约束/不要]:不变形、不多手、不抖动、不跳帧…
你会发现,写完这几个块,提示词就“像人话了”。AI 也更容易听懂。
3 条可直接复制的示例(拿去就能跑)
示例 1:产品广告感(桌面咖啡)
主体:一只透明玻璃杯,杯壁有冷凝水珠
动作:一只手把冰块倒入杯中,动作干净利落
场景:木质桌面,旁边放一袋咖啡豆和磨豆机,背景虚化
机位:近景特写,镜头略微俯拍
镜头运动:慢慢推近,稳定
镜头参数:浅景深,背景奶油虚化
光线与色彩:窗边自然柔光,暖色调,干净
风格:写实广告片质感
时长:5 秒
不要:杯子形变、手指数量异常、镜头抖动、物体突然跳动
适用:做电商视频、品牌短片、餐饮店菜单屏。
示例 2:vlog 过场 B-roll(街头走路)
主体:一个短发女生,白色衬衫+牛仔裤,背帆布包
动作:从画面左侧走到右侧,边走边整理头发
场景:傍晚街头,霓虹灯刚亮起,有行人掠过
机位:中景平视
镜头运动:跟拍,轻微手持感但不抖
光线与色彩:黄昏蓝调+霓虹点缀,轻微胶片颗粒
风格:日系生活感,真实
时长:6 秒
不要:脸崩、四肢拉伸、步态抽搐、背景重影
适用:你做 vlog,需要那种“看起来很会拍”的过场镜头。
示例 3:电影感镜头(人物回头)
主体:一位穿黑色风衣的男人,站在雨后的巷子里
动作:停顿一秒,缓慢回头看向镜头,眼神克制
场景:地面反光,远处有路灯和薄雾
机位:中近景,略微仰拍
镜头运动:缓慢推近,轻微拉焦到眼睛
光线与色彩:冷色调,背光轮廓光明显
风格:电影感、写实、低饱和
时长:5 秒
不要:表情突变、脸部漂移、雨滴方向乱飞
适用:做剧情短片、MV、氛围片。
写导演模式提示词的“手感”:5 个关键点
1)镜头运动别贪多
一条视频里写“推近+环绕+摇镜+拉焦”,AI 很容易摆烂。
想稳,就只留一个主运动:推近 / 跟拍 / 环绕,选一个。
2)动作要具体,别写“自然地做点什么”
“自然”对你很自然,对 AI 等于开盲盒。
改成:
- “抬手把杯子放到桌面中央”
- “转身后停顿 0.5 秒再看向镜头”
3)把“不要什么”写出来
这条太重要了。
常用约束可以直接抄:
- 不要多手指、不要额外肢体
- 不要脸部漂移、不要五官扭曲
- 不要镜头抖动、不要跳帧
- 不要物体突然出现/消失
4)风格词少而准
“高级、质感、大片、史诗级”这种词没啥帮助。
换成可落地的:
- 胶片颗粒
- 低饱和
- 逆光轮廓光
- 浅景深
5)别把故事写太大
你想要的是“5 秒能讲明白的一件事”。
5 秒里让角色经历“出门—打车—进公司—开会—升职”,你觉得 AI 顶得住吗?
避坑清单:这几种写法最容易翻车
-
只写氛围: “治愈、温柔、文艺、电影感” —— 画面会飘。
-
镜头指令互相打架: “固定机位 + 跟拍移动” —— AI 直接懵。
-
角色描述太少: 不说发型、服装、年龄段,人物会变来变去。
-
一次塞 10 个主体: 人越多越容易崩。想要群像,分镜头做。
我平时的实战工作流(省时间版)
你照这个顺序写,效率很高:
- 用一句话定“这条镜头要干嘛”(例如:回头看镜头)
- 补齐主体(外观、衣服、道具)
- 写动作(动词要明确,节奏要写)
- 再写镜头(机位 + 运动只留一个重点)
- 加光线色调(2~3 个词就够)
- 写“不要什么”(把常见崩坏堵上)
写完以后,你会明显感觉:生成结果更接近你脑子里的画面。
小练习:用导演模式拍一条“能拿去当封面”的镜头
题目给你:“咖啡馆里有人抬头一笑”。
要求:
- 5 秒
- 中近景
- 一个镜头运动
- 写出光线色调
- 写出至少 3 条不要
你写完这条提示词,再去生成,同样的模型,效果会比“随便写一句话”好很多。
如果你愿意,把你写的提示词贴出来,我可以帮你把镜头语言再拧紧一点。