HappyHorse 1.0：阿里“神秘空降”的视频模型，到底凭什么拿第一？

4 月 7 日，Video Arena（一个视频模型的盲测竞技场）突然冒出个陌生名字：HappyHorse。

没有公司署名、没有论文、没有 GitHub。

结果几小时内，它就在 文生视频 和 图生视频 两个榜单冲到 #1，把 Seedance 2.0、Kling 3.0、Veo 3.1 这些熟面孔都压下去了。

更戏剧的是：4 月 10 日阿里确认“这是我们家的”，然后 HappyHorse 又从榜单消失了。

你现在关心的无非几件事：

它强在哪里，强得值不值得等
弱点会不会卡死你的业务
跟 Seedance / Kling / Veo 怎么选
什么时候能真正上手（API 时间表）

下面把目前公开信息拆开讲，顺便给你一套“拿来就能用”的视频提示词写法和工作流。🧰

1）先搞清楚：Video Arena 的“#1”意味着什么？

Video Arena 是典型的盲测：

你看到的是两段匿名视频对比
不告诉你模型名字
你只投“哪段更好”

HappyHorse 的可怕点在于：它不是靠营销赢的，是靠大量用户在对比里“看着更顺眼”投出来的。

需要冷静的一点也在这：

HappyHorse 的 Elo 分数累积时间很短（不到一周就被拉下榜）
榜单分数通常要跑几周甚至几个月才更稳

结论很简单：它看起来确实猛，但还没被长周期压力测试。

2）HappyHorse 1.0 强项：为什么大家会投它？

2.1 电影感的关键不是“清晰”，是“光”

很多模型号称高清，问题是画面像“打了顶灯的广告棚”。

HappyHorse 让人上头的点在：

光比更自然，阴影不脏
皮肤像皮肤，没那种塑料蜡感
布料褶皱、材质反射更可信
体积光（volumetric lighting）更像真实摄影，而不是滤镜糊一层

如果你做的是：

人像短片、剧情片段、带情绪的氛围镜头
需要“高级感”而不是“信息密度”的广告镜头

那它这一项就很致命。

2.2 真正稀有的能力：音频和视频同一次生成

大多数 AI 视频工具是这种流程：

先出视频 → 再用另一个音频模型配对白/环境/音效 → 再对齐

HappyHorse 的卖点是：音画在同一次前向生成里一起出来。

体感差异会出现在这些细节：

门“关上”的那一帧，声音也正好落点
脚步频率更贴合步态
环境声不会像后期硬贴上去

别幻想它已经达到影视混音水平。

但在“自动同步”这件事上，它比常见拼接流程更像一体的。

2.3 镜头指令更听话：会区分“微风”和“大风”

你写提示词时最烦的是什么？

你明明写了“慢慢推进”，模型给你来个手持乱晃。

HappyHorse 的优势是：对镜头语言更敏感，尤其是这些：

slow dolly push-in（慢速滑轨推进）
overhead crane shot（俯拍吊臂）
breeze vs strong wind（风力差异）

如果你是分镜控、镜头控，这一点比“分辨率 4K 不 4K”更重要。

2.4 速度：1080p 大约 38 秒（H100）

公开信息里提到：

1080p 生成约 38 秒（在 H100 上）
低分辨率预览约 2 秒

它的意义很实际：你可以在写提示词时更快迭代，不会每次改一句话等到心态炸裂。

3）HappyHorse 1.0 短板：别被“#1”冲昏头

3.1 现在最大的问题：你用不了

已知时间点：

API 预计 4 月 30 日上线
权重开源说“coming soon”（这类话听听就好，没时间表就是没时间表）

所以今天的现实是：

你只能看 demo / 榜单样例
真实项目落地还得靠 Seedance / Kling 这些“能用的”

3.2 时长只有 5–10 秒

想做 30 秒短片？一分半剧情？

HappyHorse 目前做不到长段落输出，你得用“分段拼接”的方式。

对比信息里提到：

Kling 3.0 有 Extend，最长可到 2 分钟

3.3 控制输入很少：只支持文本 + 单图

Seedance 的强势在“参考控制”上（多图、多视频、多音频一起喂）。

HappyHorse 目前：

文本输入 ✅
单张参考图 ✅
多参考（多图/多视频/多音频）❌

你要做品牌角色、指定演员脸、固定服装道具、固定场景布局……控制项越多，越容易被这个限制卡住。

3.4 1080p，无原生 4K

如果你交付标准是 4K 母版、电视台素材库、或需要二次裁切，HappyHorse 这一点不够爽。

对比信息里提到：

Kling 3.0、Veo 3.1 支持原生 4K

3.5 “带音频”的领先并不大

在带音频的 Arena 排名里：HappyHorse 对 Seedance 的领先只有 6 Elo，基本算打平。

工程上“同通道生成”很亮眼。

但音质本身是否碾压？目前看不到。

4）怎么选模型：HappyHorse vs Seedance vs Kling vs Veo（按场景给你答案）

你不用背参数，按工作场景选就行：

你在意“电影感、人像质感、光影氛围”

选：HappyHorse（等 API）
备选：Veo 3.1（更稳的全能型）

你需要“参考控制拉满”（多图、多段参考、角色一致性）

选：Seedance 2.0

你要“长视频/多镜头延展/4K 交付”

选：Kling 3.0

你想要“各方面都不拉胯，少折腾”

选：Veo 3.1（全能型路线）

一句人话：

HappyHorse 更像“镜头美术强的短片机位”
Seedance 更像“参考素材吃得多的制作工具”
Kling 更像“能把片子拉长的剪辑搭子”
Veo 更像“综合稳定的通用选手”

5）拿来就用的提示词模板：把 HappyHorse 的优势榨出来

HappyHorse 听镜头话，那就别只写“一个人在街上走”。写到它爱听的点上：镜头、光线、运动、材质。

5.1 文生视频模板（偏电影镜头）

把下面这段当骨架，替换中括号内容：

[主体/人物/物体] 在 [场景]。
镜头：[镜头类型 + 运动]（例如 slow dolly push-in / overhead crane shot / locked-off tripod）。
光线：[时间 + 光源特征]（例如 golden hour side light, soft volumetric lighting）。
动作：[明确节奏]（例如 walks at a steady pace, slight head turn, cloth sways in a light breeze）。
风格：[摄影/色彩]（例如 film-grade color grading, natural skin tones, shallow depth of field）。
限制：no jitter, stable geometry, consistent character.
时长：5–10s，1080p。

5.2 图生视频模板（单图动起来）

Using the reference image as the exact character and outfit.
Camera: [镜头运动]。
Motion: [只写一两个核心动作]。
Keep face identity and clothing consistent.
Lighting: [光线要求]。
No morphing, no extra limbs, no sudden cuts.

图生视频最容易翻车的点就是：你动作写太多。

单图参考 + 复杂动作，模型很容易“越动越不像”。动作要克制。

6）工作流建议：用 5–10 秒拼出更长内容（不等 HappyHorse 也能练）

HappyHorse 当前是短片段路线。

你想做 30 秒成片，可以这么拆：

6.1 直接按“镜头”拆，不按“剧情”拆

别想着一条提示词把剧情讲完。

按镜头拆更稳：

A 镜：建立环境（2–4 秒）
B 镜：人物进入/动作（3–5 秒）
C 镜：特写/情绪（2–4 秒）

每段都更容易控制。

6.2 每段复用同一套“角色描述块”

把角色描述写成固定模块，每条提示词都粘贴一遍：

年龄、发型、服装材质、配饰
肤色、脸型特征
情绪基调

这招土，但能救命。

6.3 音频策略：别把“对白大片段”当目标

HappyHorse 的音画同生适合：

环境声（街道、雨声、室内空调声）
Foley（脚步、衣物摩擦、关门）
短对白（1–2 句，节奏清楚）

你要长对白、情绪层次、口型严格对齐，还是得准备后期方案。

7）避坑清单：这些写法很容易把模型带沟里 😅

提示词堆太满：动作、场景、镜头、风格全写一屏，结果每个都做一点点，画面就散。
镜头运动写得含糊：写“cinematic camera movement”这种废话，等于没写。
一条里要求多次转场：5–10 秒还要多场景切换？大概率崩。
图生视频动作太复杂：单图参考时，动作越多，脸越容易漂。
对 4K 有硬性交付：HappyHorse 目前 1080p，别在它身上赌项目死活。

8）时间表与可用性：你什么时候能用上？

目前公开信息口径：

API：4 月 30 日上线
开源权重：未给明确日期（“coming soon”）

如果你要做项目排期：

4 月 30 日之前，把 HappyHorse 当“看得到、摸不着”的选项
需要立刻交付：用 Seedance / Kling / Veo 现有工具跑通流程
等 API 真开了，再把 HappyHorse 插到你的对比测试里

9）你该怎么验证它到底适不适合你？（一套盲测方法）

等 HappyHorse API 可用后，建议你做一次“对你业务有意义”的盲测，不要只看别人的样片。

拿 10 条真实需求提示词来测：

3 条人像/情绪镜头（考验皮肤、光影、稳定性）
3 条产品/材质镜头（考验材质反射、细节）
2 条复杂运动（跑、跳、风吹衣摆）
2 条带声音（脚步、关门、短对白）

每条都固定：

同一个提示词
同一个参考图（如果是图生视频）
同一套输出规格

别让“模型名”影响判断，拉上同事一起投票，效果更真实。

信息来源

https://www.lunostudio.ai/blog/happyhorse-alibaba-ai-video-model

HappyHorse 1.0 全攻略：阿里“空降第一”的视频模型，强在哪、弱在哪、怎么用（含API时间表）