用 AI 做一支有“真实重量”的虚拟角色 MV：从音乐氛围到角色入镜全流程

你有没有刷到过那种 AI MV？

画面很炫，角色很美，特效也不少。

可看完三秒就忘。

问题不是技术不够，而是没有“抓手”。没有一个让人记住的画面，没有一句能钻进脑子的台词，也没有一个角色真的站在你面前。

今天咱们聊一个更实用的做法：怎么把一首歌、一个虚拟角色、一套世界观，做成一支有情绪、有记忆点的 AI MV。

核心场景很简单：

深夜，一个人坐在车里，对着未知频道问：你能听见我吗？

这句话，就是整支 MV 的锚点。

这类 AI MV，别一上来就堆画面

很多人做 AI 视频，开局就问：

用哪个模型？
提示词怎么写？
怎么让角色不崩？
怎么做电影感？

这些都重要。

但你得先回答一个更狠的问题：

观众凭什么看完还记得你？

一支 MV 真正能立住，通常靠三件事：

一个清晰的情绪：孤独、呼叫、等待、失联
一个可视化场景：深夜车内、无线电、城市灯光、雨水玻璃
一个有身份的角色：她是谁？她在找谁？她为什么发出信号？

工具只是把这些东西做出来。

不是反过来。

项目设定：从一句“你能听见我吗”开始

这支 MV 的核心概念可以拆成一句话：

一个虚拟角色在现实世界里发送信号，试图确认远方是否有人接收。

这个设定很适合 AI MV。

因为它天然有画面：

车内低光环境
仪表盘闪烁
夜色里的街灯
玻璃上的雨痕
角色看向镜头，像在和你通话
信号故障、画面噪点、频道切换

也天然有声音：

英国 Garage 风格鼓组
低频 Bass
断续人声采样
电台噪声
空旷的混响
一句反复出现的“Can you hear me?”

你看，音乐和画面已经开始互相咬住了。

这就比“做一个赛博女孩 MV”强多了。

角色设计：虚拟人不能只漂亮，还要有重量

虚拟角色最容易翻车的地方，是“漂”。

她看起来像贴在画面上的。

没有重量，没有呼吸，没有和环境发生关系。

想让角色站住，要给她三个东西。

1. 明确身份

比如这里的角色叫：CHANNEL 05。

她不是普通虚拟歌手，也不是随便生成的女孩。

她是 Signal Girls 里的一个成员。

这个名字很关键。

“CHANNEL”自带频道、信号、广播的感觉。 “05”说明她不是唯一一个人，后面还有别人。

观众会自然产生问题：

其他频道是谁？
她们在发送什么？
她们属于哪个系统？
为什么现在只出现了 05？

好角色不是把设定写满。

而是留出钩子。

2. 给她一个正在发生的动作

别让角色只是站着摆拍。

让她在做事。

比如：

坐在深夜车里听信号
调整电台频率
盯着后视镜
对着麦克风低声询问
忽然转头，像听见了什么

动作越具体，角色越像真的存在。

3. 让环境影响她

真实感不是“高清”带来的。

真实感来自互动。

可以安排这些细节：

车窗外的灯扫过她的脸
仪表盘蓝光打在下巴和手指上
雨水折射她的轮廓
低频鼓点时，镜头轻微震动
信号干扰时，她的影像短暂错位

这些细节会告诉观众：

她不是贴图。

她在这个空间里。

音乐方向：Garage 风格适合做“夜间信号感”

如果你想做这种深夜、电台、城市边缘感的 MV，英国 Garage 是个很舒服的方向。

它的节奏有弹性。

不像四平八稳的流行鼓那么直，也不像纯电子舞曲那么满。

很适合表现一种状态：人还醒着，城市也没睡，但两边都不太说话。

你可以这样设计音乐层次：

鼓组：跳跃一点，给画面推进感
Bass：低频要稳，像车在夜路上滑行
人声：不用唱太满，保留呼吸和空白
采样：加入无线电噪声、拨号音、频道切换声
和声：少一点，冷一点，别太甜

这里有个小技巧。

别把“Can you hear me?”当成普通歌词。

把它当成信号。

它可以出现在：

前奏里，像远处传来
副歌前，像一次呼叫
间奏里，被切碎成采样
结尾处，只剩一句干声

听众会被这句话带着走。

画面概念：一支 MV 只需要一个强场景

很多人做 AI MV，十秒换八个场景。

城市、宇宙、海底、废土、神庙全来了。

看着热闹，记不住。

更好的办法是：先把一个场景拍透。

比如“深夜车内”。

这个场景可以拆出很多镜头：

近景：角色嘴唇轻声说话
特写：手指转动收音机旋钮
中景：她坐在后排，窗外霓虹划过
主观镜头：挡风玻璃外是一条空路
反打：后视镜里出现她的眼睛
细节：仪表盘显示 CHANNEL 05
故障画面：信号丢失，画面闪一下

一个场景拍得足够细，比十个空泛场景更高级。

可执行流程：从概念到成片怎么做

下面这套流程，你可以直接照着跑。

Step 1：写一句核心句

不要写长篇设定。

先写一句能当海报文案的话。

示例：

深夜的车里，CHANNEL 05 向未知频道发送了一次呼叫。

或者：

她不知道谁在听，但她还是问了一句：Can you hear me?

这句话后面会决定你的音乐、镜头和提示词。

Step 2：定角色关键词

给角色写 6 到 10 个关键词就够。

示例：

CHANNEL 05
Signal Girls 成员
冷静，但有一点疲惫
深夜广播员气质
银灰色短发或深色发色
轻微未来感服装
不夸张，不机甲
像真实世界里的虚拟偶像

别写太满。

太满会让生成结果乱跑。

Step 3：定视觉关键词

视觉风格要服务情绪。

示例：

late night car interior
rainy window
dashboard glow
radio signal glitch
urban neon reflection
cinematic close-up
low light
handheld subtle shake
realistic virtual character

如果你用中文工具，也可以这样写：

深夜车内
雨夜玻璃
仪表盘冷光
电台信号故障
城市霓虹反光
电影感近景
低照度
轻微手持镜头
真实空间里的虚拟角色

Step 4：列镜头表

别直接开生成。

先写镜头表。

示例：

| 镜头 | 画面 | 时长 | 情绪 | |---|---|---:|---| | 01 | 黑屏中出现电台噪声，字幕闪出 CHANNEL 05 | 3s | 神秘 | | 02 | 深夜车内，她坐在后排，窗外灯光扫过脸 | 5s | 孤独 | | 03 | 手指调节收音机旋钮，频率数字跳动 | 4s | 寻找 | | 04 | 她看向镜头，轻声说 Can you hear me | 5s | 呼叫 | | 05 | 信号干扰，画面短暂撕裂 | 3s | 失联 | | 06 | 车窗倒影里，她的脸和城市重叠 | 5s | 漂浮感 | | 07 | 画面切回仪表盘，SIGNAL BROADCAST SYSTEM 亮起 | 4s | 建立世界观 |

这个表很重要。

它能救你一命。

不然你会生成一堆好看的废片，然后剪辑时崩溃。

Step 5：为每个镜头写提示词

提示词别贪。

一个镜头一个目标。

示例：

A realistic virtual girl named CHANNEL 05 sitting in the back seat of a car at midnight, rainy window, blue dashboard light on her face, urban neon reflections, quiet and lonely mood, cinematic close-up, subtle handheld camera, radio signal glitch, realistic lighting

中文版本：

虚拟角色 CHANNEL 05 坐在午夜车后排，车窗有雨痕，仪表盘蓝光照在脸上，窗外城市霓虹反射，安静、孤独、像正在等待信号，电影感近景，轻微手持镜头，带一点电台信号故障，真实光影

注意，别一口气塞进“赛博朋克、废土、宇宙、女团、机甲、梦核”。

你不是在点自助餐。

剪辑节奏：别让画面抢音乐的戏

AI MV 容易犯一个毛病：每个镜头都想当封面。

结果整支片子像动态壁纸合集。

MV 不是壁纸。

它要跟音乐走。

可以按音乐结构安排：

前奏：黑屏、电台噪声、车内环境声
主歌：角色动作少一点，镜头更近
副歌：灯光变化更明显，剪辑加快
间奏：插入信号故障、字幕、频道编号
尾声：画面安静下来，只留角色和一句呼叫

如果音乐里有低频重拍，可以让画面轻微闪烁。

如果人声进入，就别乱切。

让观众看她说完那句话。

这比疯狂转场更有力量。

世界观别急着讲完，留点悬念更香

很多创作者一有世界观，就忍不住全倒出来。

组织叫什么，成员几人，时间线几条，敌人是谁，系统怎么运作……

观众还没喜欢上角色，就被设定砸晕了。

更好的方式是：一次只露一点。

比如这次只出现：

CHANNEL 05
SIGNAL BROADCAST SYSTEM
CAN YOU HEAR ME
PONYO SIGNAL GIRLS
MV-001

这些信息足够了。

观众会知道：这是一个系列的开始。

其他成员不用马上出现。

一句“在路上了”就够有期待感。

避坑清单：这些问题真的很常见

1. 角色太像随机生成

解决办法：固定名字、服装、发型、色彩、身份。

别每个镜头换一张脸。

2. 世界观太大，画面太空

解决办法：用一个小场景承载大设定。

一辆车、一个频道、一句呼叫，够了。

3. 提示词太满

解决办法：每个镜头只强调一个动作和一个情绪。

多了模型会乱。

4. 音乐和画面各玩各的

解决办法：把歌词、采样、节拍都变成剪辑点。

人声出现时，镜头要给到角色。

5. 虚拟角色没有真实感

解决办法：让光照、反射、遮挡、噪点影响她。

她得被环境“碰到”。

6. 开头太慢

解决办法：前三秒给信息。

黑屏、电台噪声、频道编号、角色眼神，任选一个强钩子。

一个可以直接套用的项目模板

你可以把下面这段当成 AI MV 企划模板。

项目名：CAN YOU HEAR ME
角色：CHANNEL 05
系列：PONYO SIGNAL GIRLS
核心情绪：深夜呼叫、孤独等待、信号失联
音乐方向：UK Garage / 夜间低频 / 电台采样
主场景：雨夜车内
视觉元素：仪表盘蓝光、霓虹反射、无线电噪声、画面故障
关键台词：Can you hear me?
世界观钩子：SIGNAL BROADCAST SYSTEM / MV-001 / 其他成员尚未出现

做项目时，别怕小。

小场景如果够准，反而更容易打中人。

结尾：好 AI MV 不是炫技，是让角色真的“到场”

一支有记忆点的 AI MV，不靠镜头数量堆出来。

它靠一个清楚的情绪，一个能站住的角色，一个可以反复出现的符号。

深夜车里那句“你能听见我吗”，就是符号。

CHANNEL 05 不是漂在云上的虚拟人。

她坐在车里，被仪表盘的光照着，被雨夜的城市包围，像真的在向某个未知的人发送信号。

这才是虚拟角色最迷人的地方。

她不需要假装自己是真人。

她只需要让你相信：

这一刻，她真的在这里。