首页 / 正文

Wan2.7‑Video 上手指南:用文字/图片/视频/音频做出“多镜头连贯”的视频(含提示词模板与避坑)

Mooko
发布于 2026-05-02 · 5分钟阅读
1869 浏览
0 点赞 暴击点赞!

Wan2.7‑Video 上手指南:把“能动”变成“能用”

你一定见过这种尴尬:

  • 单个镜头挺惊艳,镜头一换人就变了。
  • 前一秒在街头,后一秒突然穿越到海边。
  • 画面风格飘来飘去,像拼贴。

Wan2.7‑Video 的定位很明确:面向创作者和行业的“综合型”视频生成模型。它把 文本、图片、视频、音频都纳进来,重点补两刀:叙事连贯 + 多镜头一致性

下面咱们不聊发布会口号,直接按“你要出片”的流程讲怎么用。🧩


你能用它做什么?(按真实场景来)

1)短视频分镜:同一个主角跑完整条片

适合:口播 B-roll、剧情短片、广告小片。

你给一段脚本 + 角色参考图,分 3~8 个镜头生成。 核心目标:

  • 主角长相、服装别乱变
  • 场景变化要合理
  • 镜头语言要像“同一条片”

2)图生视频:把静态海报变成可控动效

适合:海报动起来、商品氛围动效、封面动态化。

用一张图当“定妆照”,再用提示词控制:

  • 只动背景光影
  • 只动头发/衣角
  • 镜头轻推拉

3)视频续写/改镜头:把已有素材补齐

适合:缺一段转场、缺一个特写、补一个结尾。

用原视频做参考,生成风格/光线/节奏一致的新片段。

4)音频驱动(如果你想做更“像成片”的节奏)

适合:音乐卡点、情绪片、氛围片。

给音乐或旁白,生成更贴节奏的画面变化(至少逻辑上是这个方向)。


开工前的准备:你越懒,越容易翻车

必备三件套

  • 一句话定位:这条视频给谁看?卖什么点?
  • 角色设定(如果有人物):性别/年龄/发型/衣着/气质,写清楚
  • 镜头清单:3~8 个镜头就够了,别一上来就拍“史诗三部曲”

推荐的镜头清单格式(直接抄)

把每个镜头拆成 4 行,模型更好理解:

  • 画面主体:谁在干嘛
  • 场景:在哪里,时间,氛围
  • 镜头:景别(近景/中景/全景),运动(推/拉/摇/移)
  • 风格与参数:写实/电影感/动漫,画面质感,光线

四种输入方式怎么选?别瞎堆

A. 纯文本生成:适合从 0 到 1

你只有一个想法,比如“雨夜的城市追逐”。

优点:自由度高。 缺点:一致性更难,需要你写得更细。

B. 图 + 文:最稳的“创作入口”

你有主角设定图、产品图、海报。

优点:角色/风格更稳。 适合:人物一致性、产品外观不能变的场景。

C. 视频 + 文:适合“补拍”和“延展”

你已经有一段素材,想让它多几秒,或换一个角度。

优点:继承原视频风格与节奏更容易。

D. 音频 +(文/图/视频):适合做节奏感

你想要“卡点”、“情绪推进”。

优点:节奏更统一。 风险:音频驱动画面这类功能通常对输入质量更敏感,音乐太乱可能适得其反。


关键玩法:把“多镜头一致性”做出来

多镜头一致性这事儿,不是祈祷能解决的。你得用“约束”。

1)用“角色锁定卡”写死主角

把人物设定写成固定段落,每个镜头都贴进去(或用同一份角色参考图)。

角色锁定卡模板:

  • 主角:
    • 性别年龄:
    • 发型与发色:
    • 服装:
    • 明显特征:痣/疤/眼镜/首饰
    • 气质:冷淡/元气/疲惫/精英

写得越具体越省事。

2)把“风格与镜头语言”固定成一条硬规则

你要的是一条片,不是混剪。

固定项建议写清:

  • 画面风格:写实 / 电影感 / 赛博朋克 / 动漫
  • 光线:柔光/硬光/霓虹/逆光
  • 色调:暖色/冷色/低饱和
  • 镜头:尽量别一会儿手持抖动一会儿稳定器

3)分镜不要写成散文,写成可执行指令

坏例子:

他在城市里奔跑,紧张又刺激。

好例子:

  • “雨夜街道,路面反光”
  • “主角穿黑色风衣,喘息奔跑”
  • “中景跟拍,镜头轻微手持感”
  • “霓虹灯光,冷色调,电影质感”

4)镜头之间要有“桥”

多镜头最常见翻车:镜头切了,空间关系断了。

你可以在镜头尾/镜头头加桥接词:

  • “从上一镜头的街角继续”
  • “保持同一套服装与发型”
  • “同一时间线,紧接上一镜头”

这个笨办法很管用。


提示词写法:一套通用结构(照填就能用)

把提示词分成 5 块:

  1. 目的:这是第几镜头?要表达什么?
  2. 主体:人物/物体外观与动作
  3. 场景:地点、时间、天气、氛围
  4. 镜头:景别、运动、焦段感(可选)
  5. 风格:光线、色彩、质感、清晰度

示例(多镜头短片:镜头 2)

镜头2,紧接镜头1。 主角:25岁亚洲女性,黑色短发,戴银色细框眼镜,黑色风衣与深灰围巾不变,表情紧张。 场景:雨夜城市小巷,地面湿润反光,霓虹招牌在背景虚化。 镜头:中近景跟拍,轻微手持感,镜头向前推进。 风格:电影感写实,冷色调,强对比,细节清晰。

你会发现它不文艺,但很“可控”。


去哪里看效果?怎么判断演示视频值不值得信

官方通常会放 demo 视频。你别只看“好看”,建议你盯 3 件事:

  • 同一个角色跨镜头是否稳定:脸、发型、衣服有没有漂
  • 动作是否连续:上一镜头抬手,下一镜头手别莫名其妙放下
  • 场景逻辑是否一致:街道、建筑、光源方向别乱跳

如果 demo 专门展示“多镜头一致性”和“叙事连贯”,那就说明它想打的就是这个卖点。


避坑清单:这些问题最常见(也最烦)

  • 提示词太空:只写“电影感、高清、震撼”这种,稳定性会很差。
  • 镜头数量贪多:新模型再强,10+ 镜头也容易崩。控制在 3~8 个更现实。
  • 每个镜头都换风格:你自己都不统一,模型更不可能统一。
  • 角色设定不固定:上一镜头“黑色风衣”,下一镜头没写,衣服就可能换。
  • 缺少镜头衔接语:镜头之间没有“紧接上一镜头/同一地点”,跳戏概率飙升。

一个推荐工作流:让你少熬夜、少返工 🧠

  • 用“图 + 文”把角色定下来(定妆照)
  • 写 3~5 个镜头的分镜清单(每个镜头 4 行结构)
  • 先把镜头 1~2 跑通,确认角色与风格稳定
  • 再扩到 5~8 镜头
  • 发现某个镜头漂了:别硬修,回到“角色锁定卡 + 镜头桥接语”补约束

你可以直接复制的分镜模板(Markdown 版)

# 短片标题:
## 统一规则(全片通用)
- 角色锁定卡:
- 风格:
- 色调与光线:
- 镜头语言:

## 镜头1
- 主体:
- 场景:
- 镜头:
- 风格与要求:

## 镜头2(紧接镜头1)
- 主体:
- 场景:
- 镜头:
- 风格与要求:

## 镜头3(保持同一服装/同一时间线)
- 主体:
- 场景:
- 镜头:
- 风格与要求:

拿这个做底稿,再去跑 demo 或者接入你手头的平台,就会顺很多。


如果你把你想做的视频类型(剧情/产品/口播B-roll/音乐卡点)和你已有素材(有没有角色图、有没有参考视频、有没有音乐)发我,我可以按你的场景把分镜模板填一版,顺便给一组更稳的提示词。

OpenClaw
OpenClaw
木瓜AI支持养龙虾啦
木瓜AI龙虾专供API,限时领取免费tokens
可在 OpenClaw接入全球顶尖AI大模型
立即领取