首页 / 正文

2 天做完 60 个 AI 视频镜头:一套能稳定交付的 Pika 工作流

Mooko
发布于 2026-05-19 · 5分钟阅读
0 浏览
0 点赞 暴击点赞!

2 天做完 60 个 AI 视频镜头:一套能稳定交付的 Pika 工作流

AI 视频好玩归好玩,但真正拿来干活,很多人会卡在一个地方:

生成出来的画面挺炫,可一到项目交付,就不稳定。

同一个人物忽胖忽瘦。

镜头风格前后乱飞。

脚本写得挺顺,画面一生成直接变玄学。

这篇不聊玄学。咱们聊一套更适合实际项目的 AI 视频制作流程。

我用这套方法,两天做了 60 多个镜头,成片素材大概 5 分多钟,画面完成度能到 90% 以上。后面真正需要细调的镜头,也就两三个。

重点不是“AI 多厉害”。

重点是:怎么让 AI 稳定干活。


适合谁看?

如果你有下面这些需求,这套流程很适合你:

  • 想用 AI 做短片、广告片、产品宣传片
  • 已经试过 Pika、Runway、可灵、PixVerse 等视频工具,但效果忽高忽低
  • 想把 AI 视频从“玩票”变成“可交付”
  • 需要在短时间内做出大量镜头
  • 想控制成本,不想每个镜头都烧钱试错

咱们直接进入实操。


核心思路:别让 AI 一口气拍完整部片

很多人用 AI 视频失败,是因为太贪。

一上来就写:

一个男人走进未来城市,回忆自己的童年,然后发现世界被 AI 控制,画面震撼,电影感,史诗级。

这种提示词看着热血,生成结果大概率很迷。

AI 不怕你要求高,它怕你要求太散。

正确做法是:把视频拆成一个个能被 AI 理解的小镜头。

每个镜头只解决一个画面问题。

比如:

  • 主角站在雨夜街头
  • 特写:手指划过旧照片
  • 城市大屏闪烁蓝色警告
  • 无人机从高楼之间掠过
  • 主角抬头,眼神紧张

这样做有两个好处:

  1. 单个镜头更容易稳定
  2. 后期剪辑更灵活

AI 视频不是让机器替你当导演。

你还是导演,AI 是摄影组、灯光组、特效组和苦力组。别把导演权交出去。


工作流总览:从脚本到成片的 6 个环节

整套流程可以拆成 6 步:

脚本整理 → 分镜拆解 → 提示词模板 → 批量生成 → 筛选标记 → 微调补镜

看着普通,但关键在细节。

尤其是分镜和提示词模板。

这两个地方做好,后面会轻松很多。


第一步:把脚本改成“可拍”的语言

很多脚本文字适合读,不适合直接生成画面。

比如这句:

他终于意识到,自己一直活在别人设计好的系统里。

这句话有情绪,有信息,但没有画面。

AI 视频工具不知道该拍什么。

咱们要把它改成画面语言:

昏暗房间内,男人坐在电脑前,屏幕上密密麻麻的代码滚动。他盯着屏幕,脸色逐渐僵住,冷光照在他的眼睛上。

差别很明显。

前一句是文学表达。

后一句是镜头表达。

脚本转画面的公式

你可以用这个公式:

人物 + 场景 + 动作 + 情绪 + 光线 + 镜头运动 + 风格

示例:

一位 30 岁左右的亚洲男性,站在雨夜的城市街口,黑色风衣被风吹起。他缓慢抬头,看向远处巨大的电子屏。霓虹蓝紫色灯光,湿润街道路面反光,镜头从背后缓慢推进,电影感,写实科幻风。

这个提示词就很适合拿去生成单个镜头。

信息够清楚,也没有塞太多剧情。


第二步:分镜别写太长,5 秒一个镜头刚刚好

AI 视频最舒服的节奏,一般是 3 到 6 秒一个镜头。

特别是 Pika 这类工具,用短镜头更容易拿到稳定结果。

一个 5 分钟视频,如果按 5 秒一个镜头算,大概 60 个镜头。

这也是我这次项目的节奏。

60 多个镜头,两天跑完,后期能用的素材比例很高。

分镜表建议这样写

你可以直接建一个表格:

| 镜头编号 | 时长 | 画面内容 | 镜头运动 | 情绪 | 备注 | |---|---:|---|---|---|---| | 001 | 5s | 主角站在雨夜街头,看向远处大屏 | 缓慢推进 | 压抑、紧张 | 开场氛围 | | 002 | 4s | 电子屏闪烁警告图案,蓝色故障光 | 轻微晃动 | 危机感 | 可做转场 | | 003 | 5s | 主角手里捏着旧照片,雨水滴落 | 手部特写 | 怀旧、焦虑 | 需要清晰手部 | | 004 | 6s | 无人机穿过高楼之间 | 横向跟拍 | 冷酷、快速 | 科幻城市 |

别小看这个表。

它能救命。

没有分镜表,你会在生成过程中疯狂迷路:这个镜头做过没?哪个版本能用?缺哪个情绪?哪里需要补?

项目一大,脑子根本记不住。


第三步:给提示词做模板,别每次从零写

很多人效率低,是因为每个镜头都重新写提示词。

累,还不稳定。

更好的办法是做一套固定模板。

通用视频提示词模板

【主体】
【场景】
【动作】
【情绪】
【镜头语言】
【光线与色彩】
【画面风格】
【限制条件】

填进去就是:

一位 30 岁左右的亚洲男性,短发,黑色风衣。
站在雨夜的未来城市街口,街道湿润,地面有霓虹反光。
他缓慢抬头,看向远处巨大的电子屏。
表情紧张,像刚发现危险。
镜头从背后缓慢推进,轻微手持感。
蓝紫色霓虹光,低调照明,高对比。
写实科幻电影风,细节丰富,真实摄影质感。
避免卡通风,避免夸张变形,避免文字乱码,避免多余人物。

注意看最后一行。

限制条件非常重要。

AI 很爱自作主张。你不拦它,它就给你加路人、加奇怪字幕、加莫名其妙的建筑,甚至把主角衣服换了。

该管就管。


第四步:批量生成时,用“三档策略”省钱省时间

别每个镜头都上来猛刷 10 条。

成本会爆。

建议用三档策略:

A 档:关键镜头

比如开场、结尾、人物情绪爆发、产品露出。

这些镜头值得多刷。

建议:

  • 每个镜头生成 4 到 8 个版本
  • 挑 1 到 2 个备用
  • 必要时做局部微调

B 档:叙事镜头

比如人物走路、环境交代、普通转场。

建议:

  • 每个镜头生成 2 到 4 个版本
  • 够用就收手
  • 不要为了“更完美”一直刷

C 档:氛围镜头

比如雨水、灯光、城市空镜、机器运转。

建议:

  • 每个镜头生成 1 到 3 个版本
  • 多拿来做剪辑缓冲
  • 可以适当放宽一致性要求

这套策略很实用。

它能让你把预算花在刀刃上。

不是所有镜头都值得精修。很多镜头在成片里只出现 2 秒,观众根本不会盯着看。

别和自己过不去。


第五步:筛选素材要狠,别舍不得删

生成完素材后,最容易犯的错是:每条都觉得“好像能用”。

然后时间全浪费在纠结上。

我的建议很简单:给素材打标签。

素材标记方法

可以用这几类:

  • ✅ 可用:直接进剪辑
  • ⭐ 重点:画面很强,适合做主镜头
  • 🔧 待修:动作、脸、手、转场有小问题
  • ❌ 淘汰:不用再看第二遍
  • 🧩 备用:不适合当前镜头,但能做空镜或转场

每个镜头挑 1 条主素材,最多 1 条备用。

别堆一堆“也许能用”。

素材多不等于安全,有时只会拖慢判断。

我常用的判断标准

一条 AI 视频能不能用,看这几项:

  • 人物有没有明显变形
  • 动作是不是自然
  • 镜头运动有没有乱飘
  • 风格是否和前后镜头一致
  • 画面有没有奇怪文字
  • 主体是否突出
  • 情绪是否准确

如果一个镜头画面很好,但情绪完全不对,别硬留。

剪进去会很别扭。

观众说不出哪里怪,但一定会觉得“不对劲”。


第六步:微调只修关键问题,别把项目修成无底洞

AI 视频项目最怕进入“再调一下”的黑洞。

一个镜头修半天,成片并不会因此高级多少。

建议只修这几类问题:

  • 主角脸崩了
  • 手部严重变形
  • 产品露出错误
  • 镜头和剧情接不上
  • 风格明显跑偏
  • 关键动作没完成

其他小问题,能靠剪辑遮就别硬修。

比如:

  • 用更短的片段
  • 加转场遮瑕
  • 用字幕或音效引导注意力
  • 换成空镜补节奏
  • 把问题帧切掉

剪辑是 AI 视频的第二次创作。

很多看似废掉的素材,剪 1 秒出来反而很好用。


Pika 生成时,我会重点控制这 5 件事

Pika 这类工具很适合快速出镜头,但要想稳定,提示词不能太随意。

1. 主体描述要固定

人物项目尤其重要。

不要一会儿写“young man”,一会儿写“male protagonist”,一会儿又写“handsome guy”。

你觉得差不多,模型觉得不是一个人。

建议固定一套描述:

30 岁左右的亚洲男性,短发,瘦削脸型,黑色风衣,冷静但疲惫的表情

每个有人物的镜头都带上。

2. 风格词别乱换

比如你定的是“写实科幻电影风”,后面就别突然加“赛博朋克动漫风”。

风格一换,整片就散了。

建议固定:

写实科幻电影风,真实摄影质感,高对比光影,蓝紫色霓虹,低调照明

3. 镜头运动要简单

别写太复杂。

AI 很容易理解错。

推荐这些:

  • 缓慢推进
  • 缓慢拉远
  • 横向跟拍
  • 轻微手持
  • 固定镜头
  • 从低角度仰拍
  • 特写镜头

少用这种:

镜头从空中俯冲,绕主角旋转 360 度,再穿过玻璃进入他的眼睛

听着很酷,生成出来大概率很惨。

4. 每个镜头只安排一个动作

比如:

主角缓慢抬头

比下面这种稳很多:

主角走进房间,拿起照片,转身奔跑,推开门,看见城市爆炸

动作越多,翻车点越多。

5. 负面限制一定要写

常用限制可以直接保存:

避免卡通风,避免低清晰度,避免人物变形,避免多余手指,避免奇怪文字,避免水印,避免重复人物,避免画面闪烁,避免脸部扭曲

别嫌啰嗦。

这几行能帮你少刷很多无效素材。


用 Codex 辅助:把重复劳动交出去

如果项目镜头很多,手动管理提示词会很累。

这时可以用 Codex 或类似代码助手帮你做几个小工具。

不用搞得很复杂。

能省时间就行。

可以让 Codex 帮你做什么?

  • 把脚本自动拆成分镜表
  • 批量生成提示词模板
  • 给镜头编号
  • 导出 CSV 表格
  • 按角色、场景、风格批量拼接提示词
  • 检查提示词里有没有漏掉固定设定

比如你可以让它生成一个简单脚本:

import csv

base_character = "30 岁左右的亚洲男性,短发,瘦削脸型,黑色风衣"
base_style = "写实科幻电影风,真实摄影质感,高对比光影,蓝紫色霓虹,低调照明"
negative = "避免卡通风,避免人物变形,避免奇怪文字,避免水印,避免脸部扭曲"

shots = [
    {
        "id": "001",
        "scene": "雨夜的未来城市街口,湿润地面反射霓虹灯光",
        "action": "他缓慢抬头,看向远处巨大的电子屏",
        "camera": "镜头从背后缓慢推进",
        "mood": "紧张、压抑"
    },
    {
        "id": "002",
        "scene": "昏暗房间,电脑屏幕上代码快速滚动",
        "action": "他盯着屏幕,脸色逐渐僵住",
        "camera": "面部特写,轻微手持感",
        "mood": "震惊、不安"
    }
]

with open("pika_prompts.csv", "w", newline="", encoding="utf-8-sig") as f:
    writer = csv.writer(f)
    writer.writerow(["shot_id", "prompt"])
    for shot in shots:
        prompt = f"{base_character}。{shot['scene']}。{shot['action']}。{shot['mood']}。{shot['camera']}。{base_style}。{negative}。"
        writer.writerow([shot["id"], prompt])

跑完就能得到一份提示词表。

然后你批量复制到视频工具里生成。

这不是什么高深技术,但非常省脑子。

AI 创作里,最耗人的不是灵感,是重复整理。

能自动就自动。


成本怎么控制?别把钱花在“随机惊喜”上

AI 视频烧钱的地方,不是单价。

是你没有判断标准,一直刷。

这次项目按 5 分多钟素材来算,整体性价比很高。关键原因有三个:

  • 分镜提前定好,没有边做边想
  • 提示词统一,减少风格跑偏
  • 筛选标准明确,不和废片纠缠

如果按商业项目估算,做到这种完成度,成本控制在一个很舒服的位置。

比如你按分钟报价或核算成本,重点要看“可用素材比例”。

素材比怎么理解?

假设你生成了 10 分钟 AI 素材,剪进正片能用 5 分钟。

那可用比例就是 50%。

AI 视频项目里,能稳定超过 50%,就已经很不错了。

因为很多素材会死在这些地方:

  • 人物崩
  • 动作怪
  • 镜头乱
  • 风格不统一
  • 画面信息错
  • 和剧情接不上

能把废片率压下去,才是真正的效率。

不是生成得快就叫高效。

生成 100 条,能用 5 条,那叫给自己添堵。


一个完整镜头示例:从粗糙描述到可生成提示词

来看一个具体例子。

原始想法

主角发现城市系统出问题了。

太抽象。

改成镜头描述

主角站在雨夜街头,远处大楼电子屏突然闪烁红色警告。他抬头看向屏幕,表情紧张。

已经能拍了。

改成 Pika 提示词

30 岁左右的亚洲男性,短发,瘦削脸型,黑色风衣,站在雨夜的未来城市街头。湿润的柏油路反射蓝紫色霓虹灯光,远处高楼上的巨大电子屏突然闪烁红色警告光。他缓慢抬头看向电子屏,表情紧张。镜头从背后缓慢推进,轻微手持感。写实科幻电影风,真实摄影质感,高对比光影,低调照明。避免卡通风,避免人物变形,避免奇怪文字,避免水印,避免多余人物。

如果画面太乱,怎么改?

减少信息:

30 岁左右的亚洲男性,黑色风衣,站在雨夜城市街头。他缓慢抬头,看向远处闪烁红光的巨大电子屏。湿润路面反射霓虹灯光。镜头从背后缓慢推进。写实科幻电影风,真实摄影质感。避免多余人物,避免文字乱码,避免脸部变形。

别怕删。

提示词不是越长越厉害。

能控制住画面才厉害。


避坑清单:这些错误真的很常见

❌ 坑 1:一个镜头塞太多剧情

AI 视频不是小说生成器。

一个镜头只讲一个动作。

想讲复杂剧情,就拆镜头。


❌ 坑 2:人物设定每次换说法

同一个人,要用同一套描述。

发型、衣服、年龄、气质都固定。

不然前后像换演员。


❌ 坑 3:风格词堆太多

“电影感、赛博朋克、动漫、超现实、梦幻、胶片、3D、写实”全塞进去,只会打架。

选一个主风格。

最多加两三个辅助词。


❌ 坑 4:看见好画面就舍不得删

好看不等于适合。

和剧情无关,直接淘汰或放备用库。

成片要顺,不是每一秒都炫。


❌ 坑 5:把微调当成救命药

有些镜头从根上就错了。

别硬修。

重写提示词,重新生成,往往更快。


❌ 坑 6:没有命名规范

文件名一乱,后期崩溃。

建议这样命名:

001_rain_street_v01.mp4
001_rain_street_v02.mp4
002_screen_warning_v01.mp4
003_photo_closeup_v01.mp4

剪辑时你会感谢自己。

真的。


推荐的项目文件夹结构

可以直接照抄:

AI_Video_Project/
├── 01_script/
│   ├── script.md
│   └── storyboard.csv
├── 02_prompts/
│   ├── prompt_template.md
│   └── pika_prompts.csv
├── 03_generated/
│   ├── shot_001/
│   ├── shot_002/
│   └── shot_003/
├── 04_selected/
│   ├── usable/
│   ├── key_shots/
│   └── backup/
├── 05_edit/
│   └── project_file/
└── 06_export/

项目一复杂,文件管理就是战斗力。

别等素材堆成山再整理。

那时候已经晚了。


一套可以直接复制的 AI 视频生产模板

你可以把下面这套当成日常模板。

分镜模板

镜头编号:
时长:
主体:
场景:
动作:
情绪:
镜头运动:
光线色彩:
风格:
限制条件:
备注:

提示词模板

【主体】出现在【场景】中。【动作】。【情绪】。
镜头语言:【镜头运动】。
光线与色彩:【光线色彩】。
画面风格:【风格】。
限制条件:【限制条件】。

固定限制词

避免卡通风,避免低清晰度,避免人物变形,避免多余手指,避免奇怪文字,避免水印,避免重复人物,避免画面闪烁,避免脸部扭曲,避免过度模糊

筛选标准

能否直接剪进正片?
主体是否清楚?
动作是否自然?
情绪是否准确?
风格是否统一?
有没有明显 AI 破绽?
是否值得继续微调?

这套流程真正解决的是什么?

很多人以为 AI 视频拼的是工具。

其实拼的是流程。

工具会更新,模型会变强,按钮会换位置。

但这几件事不会变:

  • 你要会把文字变成画面
  • 你要会拆镜头
  • 你要会控制变量
  • 你要会筛选素材
  • 你要知道哪里值得修,哪里该放弃

AI 最爽的地方,不是偶尔给你一个惊艳画面。

是你能让它稳定产出,稳定进入剪辑线,稳定交付。

这才叫真能干活。

如果你下一次要做 AI 视频项目,别急着打开工具乱刷。

先写分镜表。

先定风格。

先做提示词模板。

再开跑。

你会发现,AI 不再像抽卡,开始像一个听话的制作团队。

OpenClaw
OpenClaw
木瓜AI支持养龙虾啦
木瓜AI龙虾专供API,限时领取免费tokens
可在 OpenClaw接入全球顶尖AI大模型
立即领取