首页 / 正文

别再堆提示词了:AI 视频像 PPT 的真正原因,是你没排镜头顺序

Mooko
发布于 2026-04-21 · 5分钟阅读
729 浏览
0 点赞 暴击点赞!

别再堆提示词了:AI 视频像 PPT 的真正原因,是你没排镜头顺序 🤔

你有没有这种崩溃时刻:

  • 图一张张都很美。
  • 光影、质感、细节全拉满。
  • 结果一导出视频……像在翻 PPT。

问题真不一定出在提示词。 更常见的情况是:你把“图片播放”当成了“镜头叙事”。

视频好不好看,靠的是镜头怎么排队。 同一套素材,顺序对了就是电影感;顺序乱了就像相册。

下面给你一套我反复验证过的镜头结构。简单、粗暴、能直接用。


你以为你在做镜头,其实你在播图

很多人做 AI 视频的流程是这样的:

  1. 写一个很长的提示词
  2. 出一堆好看的图
  3. 按时间线从第 1 张播到第 N 张

这叫“把图片排队”。 镜头语言根本没出现。

镜头语言是啥? 就是你要控制观众的注意力:

  • 先让他知道“我在哪”
  • 再让他看到“发生了啥”
  • 再让他感到“我该怎么想/怎么慌/怎么甜”
  • 再给一个“结束的余味”

这才像视频。

记住这句话:资产是砖,分镜才是建筑图。


一套能直接抄的四步镜头顺序(救命用)

1)先给空间:远景建立世界

观众刚进来,脑子是空的。 你得先告诉他:这是哪?什么氛围?大概什么时代?

远景要做的事很单纯:交代环境 + 定调

你可以用:

  • 城市天际线 / 街区全貌
  • 房间全景 / 场景全貌
  • 人很小,环境很大(“人被世界吞掉”的感觉一下就有了)

小技巧:

  • 远景别堆太多信息,主视觉干净点。
  • 光线定住(比如“傍晚”“霓虹雨夜”“清晨逆光”),后面全片更稳。

2)再给动作:中景推进叙事

有了空间,才轮到“发生事情”。

中景用来:让故事动起来

常见好用动作:

  • 走、跑、回头、抬手、推门
  • 递东西、拉开抽屉、点亮屏幕
  • 镜头推进(push in)、跟拍(follow)

你会发现一个现实: AI 生成的“动作”有时候不靠谱。 没关系。 动作不一定是人物肢体,也可以是:

  • 风吹动衣角
  • 灯光闪烁
  • 雨滴落下
  • 车灯扫过墙面

只要观众感觉“事情在往前走”,就赢了。

3)然后给情绪:近景确认感受

远景是世界。 中景是事件。 近景是“我到底该感受什么”。

近景别贪多,抓一个情绪钉子:

  • 眼神
  • 颤抖的手
  • 嘴角
  • 额头的汗
  • 眼泪/雨水混在一起(老梗?老梗好用啊)

近景的目标很明确:让观众跟人物同步呼吸

4)最后收余韵:背影/留白收束

很多 AI 视频“像 PPT”的另一个原因: 结尾太硬。 一刀切。 观众情绪刚起来,你啪一下结束。

收尾建议用:

  • 背影离开
  • 画面拉远(pull out)
  • 关门、熄灯、火车驶离
  • 空镜:人不在了,场景还在

这一步不是“多放一张图”。 是让观众脑子里自动补一句话。 那句补出来的话,才叫余味。


15 秒短视频分镜模板(照着填就能拍)

适合:剧情感、氛围向、产品小故事、情绪短片

  • 0–3s 远景:环境定调(城市雨夜 / 教室黄昏 / 山间清晨)
  • 3–8s 中景:人物做动作(推门、回头、快步走、抬手按下按钮)
  • 8–12s 近景:情绪钉子(眼神、手、汗、嘴角)
  • 12–15s 留白/背影:结束动作(背影走远、灯光熄灭、镜头拉远)

把你的素材硬塞进这个结构里,成片立刻不一样。


示例:同一主题怎么写成“镜头序列”

主题:“加班到深夜,决定辞职”

分镜板(4 镜头版本)

镜头 1|远景(空间)

  • 画面:写字楼外,雨夜,窗户零星亮着
  • 目的:压抑、孤独、世界很大

镜头 2|中景(动作)

  • 画面:办公室走廊,中景跟拍,一个人抱着电脑走向工位
  • 目的:事件推进,观众进入角色节奏

镜头 3|近景(情绪)

  • 画面:手放在鼠标上停住,指尖发白;手机屏幕显示“妈妈:早点回家”
  • 目的:情绪落点,观众被击中

镜头 4|留白(余韵)

  • 画面:背影离开工位,灯光一盏盏熄灭,只剩雨声
  • 目的:收束、让观众自己补完“我决定走了”

你看,这才叫“镜头”。 不是“4 张图”。


提示词怎么配合“镜头顺序”写(不需要长,但要准)

你写提示词时,别只写“画面很美”。 把镜头信息写进去:

通用提示词骨架(建议直接复制)

  • 场景:哪里、什么时间、什么天气
  • 镜头:远景/中景/近景、镜头运动(push in / pull out / follow)
  • 主体:谁、在做什么
  • 氛围:光线、色调、情绪关键词
  • 风格:写实/胶片/赛博/日系清新…(选一个就行,别贪)

举例(远景)

  • “wide shot, rainy night, office building exterior, sparse lit windows, cinematic lighting, moody, film still”

举例(近景)

  • “close-up, trembling hand on mouse, phone screen glowing, shallow depth of field, emotional, cinematic”

提示词越长不等于越像视频。 镜头越明确,越像视频。


剪辑时怎么让它更“像镜头”而不是“图片切换”

你不一定要复杂转场。 几招就够了:

  • 远景 → 中景:用轻微推进(2%–6% 的缓慢缩放)
  • 中景 → 近景:用动作点切(抬手那一帧切近景,特别顺)
  • 近景 → 留白:用停顿(0.2–0.5 秒的呼吸感)

音乐也别乱上。 你都走“情绪片”了,还配个蹦迪鼓点,那不是反差,是翻车 😅


避坑清单(踩过的人都懂)

  • 一上来就近景:观众不知道人在哪,只会觉得“这谁啊?”
  • 全片都是一个景别:一直近景很压迫,一直远景很疏离
  • 每个镜头都想讲完一切:结果每个镜头都在吵架
  • 转场太多:花里胡哨会让“镜头”变回“模板感”
  • 动作没落点:人物一直在“摆拍”,故事当然像相册

你可以直接用的分镜小抄(收藏版)

想不到怎么拍时,按这个填空:

  • 远景:我在哪?(城市/房间/山路/车站)
  • 中景:我做啥?(走/停/推门/回头/递出)
  • 近景:我啥感受?(紧张/开心/愤怒/松一口气)
  • 留白:怎么结束?(背影/关灯/拉远/空镜)

一条 15 秒短片,四个镜头就够。 镜头排对了,你的提示词反而可以短一点。

如果你愿意,把你的视频主题丢我一句话(比如“失恋后删聊天记录”“产品发布前一晚崩溃”),我可以按这个结构给你排一版 4 镜头分镜。

OpenClaw
OpenClaw
木瓜AI支持养龙虾啦
木瓜AI龙虾专供API,限时领取免费tokens
可在 OpenClaw接入全球顶尖AI大模型
立即领取