2 天做完 60 个 AI 视频镜头：一套能稳定交付的 Pika 工作流

AI 视频好玩归好玩，但真正拿来干活，很多人会卡在一个地方：

生成出来的画面挺炫，可一到项目交付，就不稳定。

同一个人物忽胖忽瘦。

镜头风格前后乱飞。

脚本写得挺顺，画面一生成直接变玄学。

这篇不聊玄学。咱们聊一套更适合实际项目的 AI 视频制作流程。

我用这套方法，两天做了 60 多个镜头，成片素材大概 5 分多钟，画面完成度能到 90% 以上。后面真正需要细调的镜头，也就两三个。

重点不是“AI 多厉害”。

重点是：怎么让 AI 稳定干活。

适合谁看？

如果你有下面这些需求，这套流程很适合你：

想用 AI 做短片、广告片、产品宣传片
已经试过 Pika、Runway、可灵、PixVerse 等视频工具，但效果忽高忽低
想把 AI 视频从“玩票”变成“可交付”
需要在短时间内做出大量镜头
想控制成本，不想每个镜头都烧钱试错

咱们直接进入实操。

核心思路：别让 AI 一口气拍完整部片

很多人用 AI 视频失败，是因为太贪。

一上来就写：

一个男人走进未来城市，回忆自己的童年，然后发现世界被 AI 控制，画面震撼，电影感，史诗级。

这种提示词看着热血，生成结果大概率很迷。

AI 不怕你要求高，它怕你要求太散。

正确做法是：把视频拆成一个个能被 AI 理解的小镜头。

每个镜头只解决一个画面问题。

比如：

主角站在雨夜街头
特写：手指划过旧照片
城市大屏闪烁蓝色警告
无人机从高楼之间掠过
主角抬头，眼神紧张

这样做有两个好处：

单个镜头更容易稳定
后期剪辑更灵活

AI 视频不是让机器替你当导演。

你还是导演，AI 是摄影组、灯光组、特效组和苦力组。别把导演权交出去。

工作流总览：从脚本到成片的 6 个环节

整套流程可以拆成 6 步：

脚本整理 → 分镜拆解 → 提示词模板 → 批量生成 → 筛选标记 → 微调补镜

看着普通，但关键在细节。

尤其是分镜和提示词模板。

这两个地方做好，后面会轻松很多。

第一步：把脚本改成“可拍”的语言

很多脚本文字适合读，不适合直接生成画面。

比如这句：

他终于意识到，自己一直活在别人设计好的系统里。

这句话有情绪，有信息，但没有画面。

AI 视频工具不知道该拍什么。

咱们要把它改成画面语言：

昏暗房间内，男人坐在电脑前，屏幕上密密麻麻的代码滚动。他盯着屏幕，脸色逐渐僵住，冷光照在他的眼睛上。

差别很明显。

前一句是文学表达。

后一句是镜头表达。

脚本转画面的公式

你可以用这个公式：

人物 + 场景 + 动作 + 情绪 + 光线 + 镜头运动 + 风格

示例：

一位 30 岁左右的亚洲男性，站在雨夜的城市街口，黑色风衣被风吹起。他缓慢抬头，看向远处巨大的电子屏。霓虹蓝紫色灯光，湿润街道路面反光，镜头从背后缓慢推进，电影感，写实科幻风。

这个提示词就很适合拿去生成单个镜头。

信息够清楚，也没有塞太多剧情。

第二步：分镜别写太长，5 秒一个镜头刚刚好

AI 视频最舒服的节奏，一般是 3 到 6 秒一个镜头。

特别是 Pika 这类工具，用短镜头更容易拿到稳定结果。

一个 5 分钟视频，如果按 5 秒一个镜头算，大概 60 个镜头。

这也是我这次项目的节奏。

60 多个镜头，两天跑完，后期能用的素材比例很高。

分镜表建议这样写

你可以直接建一个表格：

| 镜头编号 | 时长 | 画面内容 | 镜头运动 | 情绪 | 备注 | |---|---:|---|---|---|---| | 001 | 5s | 主角站在雨夜街头，看向远处大屏 | 缓慢推进 | 压抑、紧张 | 开场氛围 | | 002 | 4s | 电子屏闪烁警告图案，蓝色故障光 | 轻微晃动 | 危机感 | 可做转场 | | 003 | 5s | 主角手里捏着旧照片，雨水滴落 | 手部特写 | 怀旧、焦虑 | 需要清晰手部 | | 004 | 6s | 无人机穿过高楼之间 | 横向跟拍 | 冷酷、快速 | 科幻城市 |

别小看这个表。

它能救命。

没有分镜表，你会在生成过程中疯狂迷路：这个镜头做过没？哪个版本能用？缺哪个情绪？哪里需要补？

项目一大，脑子根本记不住。

第三步：给提示词做模板，别每次从零写

很多人效率低，是因为每个镜头都重新写提示词。

累，还不稳定。

更好的办法是做一套固定模板。

通用视频提示词模板

【主体】
【场景】
【动作】
【情绪】
【镜头语言】
【光线与色彩】
【画面风格】
【限制条件】

填进去就是：

一位 30 岁左右的亚洲男性，短发，黑色风衣。
站在雨夜的未来城市街口，街道湿润，地面有霓虹反光。
他缓慢抬头，看向远处巨大的电子屏。
表情紧张，像刚发现危险。
镜头从背后缓慢推进，轻微手持感。
蓝紫色霓虹光，低调照明，高对比。
写实科幻电影风，细节丰富，真实摄影质感。
避免卡通风，避免夸张变形，避免文字乱码，避免多余人物。

注意看最后一行。

限制条件非常重要。

AI 很爱自作主张。你不拦它，它就给你加路人、加奇怪字幕、加莫名其妙的建筑，甚至把主角衣服换了。

该管就管。

第四步：批量生成时，用“三档策略”省钱省时间

别每个镜头都上来猛刷 10 条。

成本会爆。

建议用三档策略：

A 档：关键镜头

比如开场、结尾、人物情绪爆发、产品露出。

这些镜头值得多刷。

建议：

每个镜头生成 4 到 8 个版本
挑 1 到 2 个备用
必要时做局部微调

B 档：叙事镜头

比如人物走路、环境交代、普通转场。

建议：

每个镜头生成 2 到 4 个版本
够用就收手
不要为了“更完美”一直刷

C 档：氛围镜头

比如雨水、灯光、城市空镜、机器运转。

建议：

每个镜头生成 1 到 3 个版本
多拿来做剪辑缓冲
可以适当放宽一致性要求

这套策略很实用。

它能让你把预算花在刀刃上。

不是所有镜头都值得精修。很多镜头在成片里只出现 2 秒，观众根本不会盯着看。

别和自己过不去。

第五步：筛选素材要狠，别舍不得删

生成完素材后，最容易犯的错是：每条都觉得“好像能用”。

然后时间全浪费在纠结上。

我的建议很简单：给素材打标签。

素材标记方法

可以用这几类：

✅ 可用：直接进剪辑
⭐ 重点：画面很强，适合做主镜头
🔧 待修：动作、脸、手、转场有小问题
❌ 淘汰：不用再看第二遍
🧩 备用：不适合当前镜头，但能做空镜或转场

每个镜头挑 1 条主素材，最多 1 条备用。

别堆一堆“也许能用”。

素材多不等于安全，有时只会拖慢判断。

我常用的判断标准

一条 AI 视频能不能用，看这几项：

人物有没有明显变形
动作是不是自然
镜头运动有没有乱飘
风格是否和前后镜头一致
画面有没有奇怪文字
主体是否突出
情绪是否准确

如果一个镜头画面很好，但情绪完全不对，别硬留。

剪进去会很别扭。

观众说不出哪里怪，但一定会觉得“不对劲”。

第六步：微调只修关键问题，别把项目修成无底洞

AI 视频项目最怕进入“再调一下”的黑洞。

一个镜头修半天，成片并不会因此高级多少。

建议只修这几类问题：

主角脸崩了
手部严重变形
产品露出错误
镜头和剧情接不上
风格明显跑偏
关键动作没完成

其他小问题，能靠剪辑遮就别硬修。

比如：

用更短的片段
加转场遮瑕
用字幕或音效引导注意力
换成空镜补节奏
把问题帧切掉

剪辑是 AI 视频的第二次创作。

很多看似废掉的素材，剪 1 秒出来反而很好用。

Pika 生成时，我会重点控制这 5 件事

Pika 这类工具很适合快速出镜头，但要想稳定，提示词不能太随意。

1. 主体描述要固定

人物项目尤其重要。

不要一会儿写“young man”，一会儿写“male protagonist”，一会儿又写“handsome guy”。

你觉得差不多，模型觉得不是一个人。

建议固定一套描述：

30 岁左右的亚洲男性，短发，瘦削脸型，黑色风衣，冷静但疲惫的表情

每个有人物的镜头都带上。

2. 风格词别乱换

比如你定的是“写实科幻电影风”，后面就别突然加“赛博朋克动漫风”。

风格一换，整片就散了。

建议固定：

写实科幻电影风，真实摄影质感，高对比光影，蓝紫色霓虹，低调照明

3. 镜头运动要简单

别写太复杂。

AI 很容易理解错。

推荐这些：

缓慢推进
缓慢拉远
横向跟拍
轻微手持
固定镜头
从低角度仰拍
特写镜头

少用这种：

镜头从空中俯冲，绕主角旋转 360 度，再穿过玻璃进入他的眼睛

听着很酷，生成出来大概率很惨。

4. 每个镜头只安排一个动作

比如：

主角缓慢抬头

比下面这种稳很多：

主角走进房间，拿起照片，转身奔跑，推开门，看见城市爆炸

动作越多，翻车点越多。

5. 负面限制一定要写

常用限制可以直接保存：

避免卡通风，避免低清晰度，避免人物变形，避免多余手指，避免奇怪文字，避免水印，避免重复人物，避免画面闪烁，避免脸部扭曲

别嫌啰嗦。

这几行能帮你少刷很多无效素材。

用 Codex 辅助：把重复劳动交出去

如果项目镜头很多，手动管理提示词会很累。

这时可以用 Codex 或类似代码助手帮你做几个小工具。

不用搞得很复杂。

能省时间就行。

可以让 Codex 帮你做什么？

把脚本自动拆成分镜表
批量生成提示词模板
给镜头编号
导出 CSV 表格
按角色、场景、风格批量拼接提示词
检查提示词里有没有漏掉固定设定

比如你可以让它生成一个简单脚本：

import csv

base_character = "30 岁左右的亚洲男性，短发，瘦削脸型，黑色风衣"
base_style = "写实科幻电影风，真实摄影质感，高对比光影，蓝紫色霓虹，低调照明"
negative = "避免卡通风，避免人物变形，避免奇怪文字，避免水印，避免脸部扭曲"

shots = [
    {
        "id": "001",
        "scene": "雨夜的未来城市街口，湿润地面反射霓虹灯光",
        "action": "他缓慢抬头，看向远处巨大的电子屏",
        "camera": "镜头从背后缓慢推进",
        "mood": "紧张、压抑"
    },
    {
        "id": "002",
        "scene": "昏暗房间，电脑屏幕上代码快速滚动",
        "action": "他盯着屏幕，脸色逐渐僵住",
        "camera": "面部特写，轻微手持感",
        "mood": "震惊、不安"
    }
]

with open("pika_prompts.csv", "w", newline="", encoding="utf-8-sig") as f:
    writer = csv.writer(f)
    writer.writerow(["shot_id", "prompt"])
    for shot in shots:
        prompt = f"{base_character}。{shot['scene']}。{shot['action']}。{shot['mood']}。{shot['camera']}。{base_style}。{negative}。"
        writer.writerow([shot["id"], prompt])

跑完就能得到一份提示词表。

然后你批量复制到视频工具里生成。

这不是什么高深技术，但非常省脑子。

AI 创作里，最耗人的不是灵感，是重复整理。

能自动就自动。

成本怎么控制？别把钱花在“随机惊喜”上

AI 视频烧钱的地方，不是单价。

是你没有判断标准，一直刷。

这次项目按 5 分多钟素材来算，整体性价比很高。关键原因有三个：

分镜提前定好，没有边做边想
提示词统一，减少风格跑偏
筛选标准明确，不和废片纠缠

如果按商业项目估算，做到这种完成度，成本控制在一个很舒服的位置。

比如你按分钟报价或核算成本，重点要看“可用素材比例”。

素材比怎么理解？

假设你生成了 10 分钟 AI 素材，剪进正片能用 5 分钟。

那可用比例就是 50%。

AI 视频项目里，能稳定超过 50%，就已经很不错了。

因为很多素材会死在这些地方：

人物崩
动作怪
镜头乱
风格不统一
画面信息错
和剧情接不上

能把废片率压下去，才是真正的效率。

不是生成得快就叫高效。

生成 100 条，能用 5 条，那叫给自己添堵。

一个完整镜头示例：从粗糙描述到可生成提示词

来看一个具体例子。

原始想法

主角发现城市系统出问题了。

太抽象。

改成镜头描述

主角站在雨夜街头，远处大楼电子屏突然闪烁红色警告。他抬头看向屏幕，表情紧张。

已经能拍了。

改成 Pika 提示词

30 岁左右的亚洲男性，短发，瘦削脸型，黑色风衣，站在雨夜的未来城市街头。湿润的柏油路反射蓝紫色霓虹灯光，远处高楼上的巨大电子屏突然闪烁红色警告光。他缓慢抬头看向电子屏，表情紧张。镜头从背后缓慢推进，轻微手持感。写实科幻电影风，真实摄影质感，高对比光影，低调照明。避免卡通风，避免人物变形，避免奇怪文字，避免水印，避免多余人物。

如果画面太乱，怎么改？

减少信息：

30 岁左右的亚洲男性，黑色风衣，站在雨夜城市街头。他缓慢抬头，看向远处闪烁红光的巨大电子屏。湿润路面反射霓虹灯光。镜头从背后缓慢推进。写实科幻电影风，真实摄影质感。避免多余人物，避免文字乱码，避免脸部变形。

别怕删。

提示词不是越长越厉害。

能控制住画面才厉害。

避坑清单：这些错误真的很常见

❌ 坑 1：一个镜头塞太多剧情

AI 视频不是小说生成器。

一个镜头只讲一个动作。

想讲复杂剧情，就拆镜头。

❌ 坑 2：人物设定每次换说法

同一个人，要用同一套描述。

发型、衣服、年龄、气质都固定。

不然前后像换演员。

❌ 坑 3：风格词堆太多

“电影感、赛博朋克、动漫、超现实、梦幻、胶片、3D、写实”全塞进去，只会打架。

选一个主风格。

最多加两三个辅助词。

❌ 坑 4：看见好画面就舍不得删

好看不等于适合。

和剧情无关，直接淘汰或放备用库。

成片要顺，不是每一秒都炫。

❌ 坑 5：把微调当成救命药

有些镜头从根上就错了。

别硬修。

重写提示词，重新生成，往往更快。

❌ 坑 6：没有命名规范

文件名一乱，后期崩溃。

建议这样命名：

001_rain_street_v01.mp4
001_rain_street_v02.mp4
002_screen_warning_v01.mp4
003_photo_closeup_v01.mp4

剪辑时你会感谢自己。

真的。

一套可以直接复制的 AI 视频生产模板

你可以把下面这套当成日常模板。

分镜模板

镜头编号：
时长：
主体：
场景：
动作：
情绪：
镜头运动：
光线色彩：
风格：
限制条件：
备注：

提示词模板

【主体】出现在【场景】中。【动作】。【情绪】。
镜头语言：【镜头运动】。
光线与色彩：【光线色彩】。
画面风格：【风格】。
限制条件：【限制条件】。

固定限制词

避免卡通风，避免低清晰度，避免人物变形，避免多余手指，避免奇怪文字，避免水印，避免重复人物，避免画面闪烁，避免脸部扭曲，避免过度模糊

筛选标准

能否直接剪进正片？
主体是否清楚？
动作是否自然？
情绪是否准确？
风格是否统一？
有没有明显 AI 破绽？
是否值得继续微调？

这套流程真正解决的是什么？

很多人以为 AI 视频拼的是工具。

其实拼的是流程。

工具会更新，模型会变强，按钮会换位置。

但这几件事不会变：

你要会把文字变成画面
你要会拆镜头
你要会控制变量
你要会筛选素材
你要知道哪里值得修，哪里该放弃

AI 最爽的地方，不是偶尔给你一个惊艳画面。

是你能让它稳定产出，稳定进入剪辑线，稳定交付。

这才叫真能干活。

如果你下一次要做 AI 视频项目，别急着打开工具乱刷。

先写分镜表。

先定风格。

先做提示词模板。

再开跑。

你会发现，AI 不再像抽卡，开始像一个听话的制作团队。

2 天做完 60 个 AI 视频镜头：一套能稳定交付的 Pika 工作流

2 天做完 60 个 AI 视频镜头：一套能稳定交付的 Pika 工作流

适合谁看？

核心思路：别让 AI 一口气拍完整部片

工作流总览：从脚本到成片的 6 个环节

第一步：把脚本改成“可拍”的语言

脚本转画面的公式

第二步：分镜别写太长，5 秒一个镜头刚刚好

分镜表建议这样写

第三步：给提示词做模板，别每次从零写

通用视频提示词模板

第四步：批量生成时，用“三档策略”省钱省时间

A 档：关键镜头

B 档：叙事镜头

C 档：氛围镜头

第五步：筛选素材要狠，别舍不得删

素材标记方法

我常用的判断标准

第六步：微调只修关键问题，别把项目修成无底洞

Pika 生成时，我会重点控制这 5 件事

1. 主体描述要固定

2. 风格词别乱换

3. 镜头运动要简单

4. 每个镜头只安排一个动作

5. 负面限制一定要写

用 Codex 辅助：把重复劳动交出去

可以让 Codex 帮你做什么？

成本怎么控制？别把钱花在“随机惊喜”上

素材比怎么理解？

一个完整镜头示例：从粗糙描述到可生成提示词

原始想法

改成镜头描述

改成 Pika 提示词

如果画面太乱，怎么改？

避坑清单：这些错误真的很常见

❌ 坑 1：一个镜头塞太多剧情

❌ 坑 2：人物设定每次换说法

❌ 坑 3：风格词堆太多

❌ 坑 4：看见好画面就舍不得删

❌ 坑 5：把微调当成救命药

❌ 坑 6：没有命名规范

推荐的项目文件夹结构

一套可以直接复制的 AI 视频生产模板

分镜模板

提示词模板

固定限制词

筛选标准

这套流程真正解决的是什么？