2 天做完 60 个 AI 视频镜头:一套能稳定交付的 Pika 工作流
AI 视频好玩归好玩,但真正拿来干活,很多人会卡在一个地方:
生成出来的画面挺炫,可一到项目交付,就不稳定。
同一个人物忽胖忽瘦。
镜头风格前后乱飞。
脚本写得挺顺,画面一生成直接变玄学。
这篇不聊玄学。咱们聊一套更适合实际项目的 AI 视频制作流程。
我用这套方法,两天做了 60 多个镜头,成片素材大概 5 分多钟,画面完成度能到 90% 以上。后面真正需要细调的镜头,也就两三个。
重点不是“AI 多厉害”。
重点是:怎么让 AI 稳定干活。
适合谁看?
如果你有下面这些需求,这套流程很适合你:
- 想用 AI 做短片、广告片、产品宣传片
- 已经试过 Pika、Runway、可灵、PixVerse 等视频工具,但效果忽高忽低
- 想把 AI 视频从“玩票”变成“可交付”
- 需要在短时间内做出大量镜头
- 想控制成本,不想每个镜头都烧钱试错
咱们直接进入实操。
核心思路:别让 AI 一口气拍完整部片
很多人用 AI 视频失败,是因为太贪。
一上来就写:
一个男人走进未来城市,回忆自己的童年,然后发现世界被 AI 控制,画面震撼,电影感,史诗级。
这种提示词看着热血,生成结果大概率很迷。
AI 不怕你要求高,它怕你要求太散。
正确做法是:把视频拆成一个个能被 AI 理解的小镜头。
每个镜头只解决一个画面问题。
比如:
- 主角站在雨夜街头
- 特写:手指划过旧照片
- 城市大屏闪烁蓝色警告
- 无人机从高楼之间掠过
- 主角抬头,眼神紧张
这样做有两个好处:
- 单个镜头更容易稳定
- 后期剪辑更灵活
AI 视频不是让机器替你当导演。
你还是导演,AI 是摄影组、灯光组、特效组和苦力组。别把导演权交出去。
工作流总览:从脚本到成片的 6 个环节
整套流程可以拆成 6 步:
脚本整理 → 分镜拆解 → 提示词模板 → 批量生成 → 筛选标记 → 微调补镜
看着普通,但关键在细节。
尤其是分镜和提示词模板。
这两个地方做好,后面会轻松很多。
第一步:把脚本改成“可拍”的语言
很多脚本文字适合读,不适合直接生成画面。
比如这句:
他终于意识到,自己一直活在别人设计好的系统里。
这句话有情绪,有信息,但没有画面。
AI 视频工具不知道该拍什么。
咱们要把它改成画面语言:
昏暗房间内,男人坐在电脑前,屏幕上密密麻麻的代码滚动。他盯着屏幕,脸色逐渐僵住,冷光照在他的眼睛上。
差别很明显。
前一句是文学表达。
后一句是镜头表达。
脚本转画面的公式
你可以用这个公式:
人物 + 场景 + 动作 + 情绪 + 光线 + 镜头运动 + 风格
示例:
一位 30 岁左右的亚洲男性,站在雨夜的城市街口,黑色风衣被风吹起。他缓慢抬头,看向远处巨大的电子屏。霓虹蓝紫色灯光,湿润街道路面反光,镜头从背后缓慢推进,电影感,写实科幻风。
这个提示词就很适合拿去生成单个镜头。
信息够清楚,也没有塞太多剧情。
第二步:分镜别写太长,5 秒一个镜头刚刚好
AI 视频最舒服的节奏,一般是 3 到 6 秒一个镜头。
特别是 Pika 这类工具,用短镜头更容易拿到稳定结果。
一个 5 分钟视频,如果按 5 秒一个镜头算,大概 60 个镜头。
这也是我这次项目的节奏。
60 多个镜头,两天跑完,后期能用的素材比例很高。
分镜表建议这样写
你可以直接建一个表格:
| 镜头编号 | 时长 | 画面内容 | 镜头运动 | 情绪 | 备注 | |---|---:|---|---|---|---| | 001 | 5s | 主角站在雨夜街头,看向远处大屏 | 缓慢推进 | 压抑、紧张 | 开场氛围 | | 002 | 4s | 电子屏闪烁警告图案,蓝色故障光 | 轻微晃动 | 危机感 | 可做转场 | | 003 | 5s | 主角手里捏着旧照片,雨水滴落 | 手部特写 | 怀旧、焦虑 | 需要清晰手部 | | 004 | 6s | 无人机穿过高楼之间 | 横向跟拍 | 冷酷、快速 | 科幻城市 |
别小看这个表。
它能救命。
没有分镜表,你会在生成过程中疯狂迷路:这个镜头做过没?哪个版本能用?缺哪个情绪?哪里需要补?
项目一大,脑子根本记不住。
第三步:给提示词做模板,别每次从零写
很多人效率低,是因为每个镜头都重新写提示词。
累,还不稳定。
更好的办法是做一套固定模板。
通用视频提示词模板
【主体】
【场景】
【动作】
【情绪】
【镜头语言】
【光线与色彩】
【画面风格】
【限制条件】
填进去就是:
一位 30 岁左右的亚洲男性,短发,黑色风衣。
站在雨夜的未来城市街口,街道湿润,地面有霓虹反光。
他缓慢抬头,看向远处巨大的电子屏。
表情紧张,像刚发现危险。
镜头从背后缓慢推进,轻微手持感。
蓝紫色霓虹光,低调照明,高对比。
写实科幻电影风,细节丰富,真实摄影质感。
避免卡通风,避免夸张变形,避免文字乱码,避免多余人物。
注意看最后一行。
限制条件非常重要。
AI 很爱自作主张。你不拦它,它就给你加路人、加奇怪字幕、加莫名其妙的建筑,甚至把主角衣服换了。
该管就管。
第四步:批量生成时,用“三档策略”省钱省时间
别每个镜头都上来猛刷 10 条。
成本会爆。
建议用三档策略:
A 档:关键镜头
比如开场、结尾、人物情绪爆发、产品露出。
这些镜头值得多刷。
建议:
- 每个镜头生成 4 到 8 个版本
- 挑 1 到 2 个备用
- 必要时做局部微调
B 档:叙事镜头
比如人物走路、环境交代、普通转场。
建议:
- 每个镜头生成 2 到 4 个版本
- 够用就收手
- 不要为了“更完美”一直刷
C 档:氛围镜头
比如雨水、灯光、城市空镜、机器运转。
建议:
- 每个镜头生成 1 到 3 个版本
- 多拿来做剪辑缓冲
- 可以适当放宽一致性要求
这套策略很实用。
它能让你把预算花在刀刃上。
不是所有镜头都值得精修。很多镜头在成片里只出现 2 秒,观众根本不会盯着看。
别和自己过不去。
第五步:筛选素材要狠,别舍不得删
生成完素材后,最容易犯的错是:每条都觉得“好像能用”。
然后时间全浪费在纠结上。
我的建议很简单:给素材打标签。
素材标记方法
可以用这几类:
- ✅ 可用:直接进剪辑
- ⭐ 重点:画面很强,适合做主镜头
- 🔧 待修:动作、脸、手、转场有小问题
- ❌ 淘汰:不用再看第二遍
- 🧩 备用:不适合当前镜头,但能做空镜或转场
每个镜头挑 1 条主素材,最多 1 条备用。
别堆一堆“也许能用”。
素材多不等于安全,有时只会拖慢判断。
我常用的判断标准
一条 AI 视频能不能用,看这几项:
- 人物有没有明显变形
- 动作是不是自然
- 镜头运动有没有乱飘
- 风格是否和前后镜头一致
- 画面有没有奇怪文字
- 主体是否突出
- 情绪是否准确
如果一个镜头画面很好,但情绪完全不对,别硬留。
剪进去会很别扭。
观众说不出哪里怪,但一定会觉得“不对劲”。
第六步:微调只修关键问题,别把项目修成无底洞
AI 视频项目最怕进入“再调一下”的黑洞。
一个镜头修半天,成片并不会因此高级多少。
建议只修这几类问题:
- 主角脸崩了
- 手部严重变形
- 产品露出错误
- 镜头和剧情接不上
- 风格明显跑偏
- 关键动作没完成
其他小问题,能靠剪辑遮就别硬修。
比如:
- 用更短的片段
- 加转场遮瑕
- 用字幕或音效引导注意力
- 换成空镜补节奏
- 把问题帧切掉
剪辑是 AI 视频的第二次创作。
很多看似废掉的素材,剪 1 秒出来反而很好用。
Pika 生成时,我会重点控制这 5 件事
Pika 这类工具很适合快速出镜头,但要想稳定,提示词不能太随意。
1. 主体描述要固定
人物项目尤其重要。
不要一会儿写“young man”,一会儿写“male protagonist”,一会儿又写“handsome guy”。
你觉得差不多,模型觉得不是一个人。
建议固定一套描述:
30 岁左右的亚洲男性,短发,瘦削脸型,黑色风衣,冷静但疲惫的表情
每个有人物的镜头都带上。
2. 风格词别乱换
比如你定的是“写实科幻电影风”,后面就别突然加“赛博朋克动漫风”。
风格一换,整片就散了。
建议固定:
写实科幻电影风,真实摄影质感,高对比光影,蓝紫色霓虹,低调照明
3. 镜头运动要简单
别写太复杂。
AI 很容易理解错。
推荐这些:
- 缓慢推进
- 缓慢拉远
- 横向跟拍
- 轻微手持
- 固定镜头
- 从低角度仰拍
- 特写镜头
少用这种:
镜头从空中俯冲,绕主角旋转 360 度,再穿过玻璃进入他的眼睛
听着很酷,生成出来大概率很惨。
4. 每个镜头只安排一个动作
比如:
主角缓慢抬头
比下面这种稳很多:
主角走进房间,拿起照片,转身奔跑,推开门,看见城市爆炸
动作越多,翻车点越多。
5. 负面限制一定要写
常用限制可以直接保存:
避免卡通风,避免低清晰度,避免人物变形,避免多余手指,避免奇怪文字,避免水印,避免重复人物,避免画面闪烁,避免脸部扭曲
别嫌啰嗦。
这几行能帮你少刷很多无效素材。
用 Codex 辅助:把重复劳动交出去
如果项目镜头很多,手动管理提示词会很累。
这时可以用 Codex 或类似代码助手帮你做几个小工具。
不用搞得很复杂。
能省时间就行。
可以让 Codex 帮你做什么?
- 把脚本自动拆成分镜表
- 批量生成提示词模板
- 给镜头编号
- 导出 CSV 表格
- 按角色、场景、风格批量拼接提示词
- 检查提示词里有没有漏掉固定设定
比如你可以让它生成一个简单脚本:
import csv
base_character = "30 岁左右的亚洲男性,短发,瘦削脸型,黑色风衣"
base_style = "写实科幻电影风,真实摄影质感,高对比光影,蓝紫色霓虹,低调照明"
negative = "避免卡通风,避免人物变形,避免奇怪文字,避免水印,避免脸部扭曲"
shots = [
{
"id": "001",
"scene": "雨夜的未来城市街口,湿润地面反射霓虹灯光",
"action": "他缓慢抬头,看向远处巨大的电子屏",
"camera": "镜头从背后缓慢推进",
"mood": "紧张、压抑"
},
{
"id": "002",
"scene": "昏暗房间,电脑屏幕上代码快速滚动",
"action": "他盯着屏幕,脸色逐渐僵住",
"camera": "面部特写,轻微手持感",
"mood": "震惊、不安"
}
]
with open("pika_prompts.csv", "w", newline="", encoding="utf-8-sig") as f:
writer = csv.writer(f)
writer.writerow(["shot_id", "prompt"])
for shot in shots:
prompt = f"{base_character}。{shot['scene']}。{shot['action']}。{shot['mood']}。{shot['camera']}。{base_style}。{negative}。"
writer.writerow([shot["id"], prompt])
跑完就能得到一份提示词表。
然后你批量复制到视频工具里生成。
这不是什么高深技术,但非常省脑子。
AI 创作里,最耗人的不是灵感,是重复整理。
能自动就自动。
成本怎么控制?别把钱花在“随机惊喜”上
AI 视频烧钱的地方,不是单价。
是你没有判断标准,一直刷。
这次项目按 5 分多钟素材来算,整体性价比很高。关键原因有三个:
- 分镜提前定好,没有边做边想
- 提示词统一,减少风格跑偏
- 筛选标准明确,不和废片纠缠
如果按商业项目估算,做到这种完成度,成本控制在一个很舒服的位置。
比如你按分钟报价或核算成本,重点要看“可用素材比例”。
素材比怎么理解?
假设你生成了 10 分钟 AI 素材,剪进正片能用 5 分钟。
那可用比例就是 50%。
AI 视频项目里,能稳定超过 50%,就已经很不错了。
因为很多素材会死在这些地方:
- 人物崩
- 动作怪
- 镜头乱
- 风格不统一
- 画面信息错
- 和剧情接不上
能把废片率压下去,才是真正的效率。
不是生成得快就叫高效。
生成 100 条,能用 5 条,那叫给自己添堵。
一个完整镜头示例:从粗糙描述到可生成提示词
来看一个具体例子。
原始想法
主角发现城市系统出问题了。
太抽象。
改成镜头描述
主角站在雨夜街头,远处大楼电子屏突然闪烁红色警告。他抬头看向屏幕,表情紧张。
已经能拍了。
改成 Pika 提示词
30 岁左右的亚洲男性,短发,瘦削脸型,黑色风衣,站在雨夜的未来城市街头。湿润的柏油路反射蓝紫色霓虹灯光,远处高楼上的巨大电子屏突然闪烁红色警告光。他缓慢抬头看向电子屏,表情紧张。镜头从背后缓慢推进,轻微手持感。写实科幻电影风,真实摄影质感,高对比光影,低调照明。避免卡通风,避免人物变形,避免奇怪文字,避免水印,避免多余人物。
如果画面太乱,怎么改?
减少信息:
30 岁左右的亚洲男性,黑色风衣,站在雨夜城市街头。他缓慢抬头,看向远处闪烁红光的巨大电子屏。湿润路面反射霓虹灯光。镜头从背后缓慢推进。写实科幻电影风,真实摄影质感。避免多余人物,避免文字乱码,避免脸部变形。
别怕删。
提示词不是越长越厉害。
能控制住画面才厉害。
避坑清单:这些错误真的很常见
❌ 坑 1:一个镜头塞太多剧情
AI 视频不是小说生成器。
一个镜头只讲一个动作。
想讲复杂剧情,就拆镜头。
❌ 坑 2:人物设定每次换说法
同一个人,要用同一套描述。
发型、衣服、年龄、气质都固定。
不然前后像换演员。
❌ 坑 3:风格词堆太多
“电影感、赛博朋克、动漫、超现实、梦幻、胶片、3D、写实”全塞进去,只会打架。
选一个主风格。
最多加两三个辅助词。
❌ 坑 4:看见好画面就舍不得删
好看不等于适合。
和剧情无关,直接淘汰或放备用库。
成片要顺,不是每一秒都炫。
❌ 坑 5:把微调当成救命药
有些镜头从根上就错了。
别硬修。
重写提示词,重新生成,往往更快。
❌ 坑 6:没有命名规范
文件名一乱,后期崩溃。
建议这样命名:
001_rain_street_v01.mp4
001_rain_street_v02.mp4
002_screen_warning_v01.mp4
003_photo_closeup_v01.mp4
剪辑时你会感谢自己。
真的。
推荐的项目文件夹结构
可以直接照抄:
AI_Video_Project/
├── 01_script/
│ ├── script.md
│ └── storyboard.csv
├── 02_prompts/
│ ├── prompt_template.md
│ └── pika_prompts.csv
├── 03_generated/
│ ├── shot_001/
│ ├── shot_002/
│ └── shot_003/
├── 04_selected/
│ ├── usable/
│ ├── key_shots/
│ └── backup/
├── 05_edit/
│ └── project_file/
└── 06_export/
项目一复杂,文件管理就是战斗力。
别等素材堆成山再整理。
那时候已经晚了。
一套可以直接复制的 AI 视频生产模板
你可以把下面这套当成日常模板。
分镜模板
镜头编号:
时长:
主体:
场景:
动作:
情绪:
镜头运动:
光线色彩:
风格:
限制条件:
备注:
提示词模板
【主体】出现在【场景】中。【动作】。【情绪】。
镜头语言:【镜头运动】。
光线与色彩:【光线色彩】。
画面风格:【风格】。
限制条件:【限制条件】。
固定限制词
避免卡通风,避免低清晰度,避免人物变形,避免多余手指,避免奇怪文字,避免水印,避免重复人物,避免画面闪烁,避免脸部扭曲,避免过度模糊
筛选标准
能否直接剪进正片?
主体是否清楚?
动作是否自然?
情绪是否准确?
风格是否统一?
有没有明显 AI 破绽?
是否值得继续微调?
这套流程真正解决的是什么?
很多人以为 AI 视频拼的是工具。
其实拼的是流程。
工具会更新,模型会变强,按钮会换位置。
但这几件事不会变:
- 你要会把文字变成画面
- 你要会拆镜头
- 你要会控制变量
- 你要会筛选素材
- 你要知道哪里值得修,哪里该放弃
AI 最爽的地方,不是偶尔给你一个惊艳画面。
是你能让它稳定产出,稳定进入剪辑线,稳定交付。
这才叫真能干活。
如果你下一次要做 AI 视频项目,别急着打开工具乱刷。
先写分镜表。
先定风格。
先做提示词模板。
再开跑。
你会发现,AI 不再像抽卡,开始像一个听话的制作团队。