最近,阿里ATH创新事业部推出了一款全新的视频生成与编辑工具——HappyHorse 1.0(官方译名:快乐小马),并在4月27日开始进行灰度测试。
创作者可以通过阿里云百炼平台和HappyHorse官网申请使用这项新服务,而普通用户则可以在千问App中体验其功能。据Arena.ai盲测平台上数据显示,这款模型在文生视频、图生视频以及视频编辑三个领域内分别取得了第二名的成绩。

为了验证该工具的实际效果,我们对其进行了多维度的测试。结果表明,在指令遵循能力方面,HappyHorse表现出了明显的优势;同时其生成速度也让人印象深刻。

用户只需输入简短的文字描述,便能快速获得一段长度在3至15秒之间的视频片段,其中包括多个镜头切换和连贯的情节设计。
官方资料显示,该模型支持最高1080p的分辨率,并且可以同时生成四个视频。收费标准方面,720P与1080P视频的价格分别为每秒0.9元及1.6元;Pro套餐包月价格则为0.44元/s和0.78元/s。

目前HappyHorse 1.0已集成到阿里旗下的多款产品中,如悟空、MuleRun等Agent平台,并计划在千问App内推出“测一测”视频玩法功能。
在实测过程中,我们发现这款模型具有较强的指令遵循能力和较快的生成速度。然而,在画面物理准确性以及音画同步方面仍存在改进空间。
一方面,HappyHorse 1.0在执行复杂提示词时表现出色,并且能够准确呈现所有上传参考元素;另一方面,它还支持多图参考输入来增加视频背景和具体元素的多样性。
从本次测试来看,在提示词明确的情况下,这款模型可以较好地理解并完成复杂的画面构图、镜头运动以及风格氛围要求。然而在音画同步细节方面还有待改进。
在生成速度上,HappyHorse 1.0表现尤为突出,通常只需要2至5分钟就可以输出一段视频;并且能够准确呈现人物与场景等元素。
此外,在复杂动作和音乐同步测试中,虽然模型成功模拟了街头音乐表演的镜头推进效果,但吉他手的动作却未能完全匹配音频节奏,影响到了整体的真实感体验。
在物理真实性的考察上,当涉及到水体、风等元素时,尽管波涛汹涌的效果较为逼真,但在近景画面中水滴滑落的速度稍显迟缓。
针对类似知名游戏《GTA》的复杂场景提示词,HappyHorse 1.0能够准确呈现几乎所有定义中的元素。但其在物理一致性方面仍有提升空间,例如车门在没有外力的情况下自动关闭的情况。
在镜头语言与叙事感测试中,尽管模型成功展现了从远景到特写的电影黑色风格,但画面中文本渲染出现了明显的错误。
通过实测还发现,在图生视频功能方面,HappyHorse 1.0支持最多九张图片参考输入。然而在尝试生成涉及多位真实人物的场景时遭遇了拒绝;而在单人照生成中则取得了较为满意的结果。
经过深入探讨,技术合伙人李明认为3s-15s长度、较快生成速度及高分辨率是这款模型的优势所在。但在实际应用过程中也暴露出一些问题,比如视频结果一致性较差以及语音内容机械感较强等。
对于音画同步与文字渲染问题,专家指出当前AI视频生成模型普遍存在类似的问题,通常会借助后期工具进行补充调整;而在提示词优化方面,则有可能提升这些模型的效果。
在价格方面,用户更容易接受。如果能在质量、速度等方面进一步改进,用户对价格的敏感度自然就会降低很多。
FLOVA团队认为HappyHorse 1.0在真实感和叙事能力上的表现不错,尤其适合制作纪录片风格的内容;同时其镜头运动也比较自然,减轻了视频的“AI感”。
总结来看,尽管当前版本存在一些不足之处,但这款模型凭借出色的指令遵循能力和快速生成速度已显示出巨大潜力。随着不断迭代更新,它有望在未来真实生产场景中发挥更加重要的作用。
案例2:物理真实性
提示词: 海边悬崖上,海浪猛烈拍打岩石,水花飞溅,天空乌云密布,风吹动人物衣服和头发,电影级真实感,慢动作。
在这一案例中,HappyHorse 1.0需要完成对物理世界的模拟,其难点在于对水体、风这些元素的呈现。
最终,HappyHorse 1.0的生成结果很好地还原了波涛汹涌的效果,海浪与岩石的撞击、海面上的泡沫都较为符合物理规律。
切换到人物后,主角头发的飘动方向和衣服的飘动方向基本一致。美中不足的是,近景画面中水滴滑落的速度不太符合物理规律,显得略微慢了半拍。
案例三:超长提示词
提示词:
在这一案例中,我们考察了HappyHorse 1.0对复杂提示词的理解能力。这段提示词长达800词,描述的是一个类似知名游戏《GTA》的实机演示画面。
我们的提示词对画面中几乎所有元素都进行了定义,包括人物、天气、环境、建筑等等,HappyHorse 1.0对这些元素都做到了准确呈现。
不过,开头的第一个画面出现了物理bug,车门在没有受到外力的情况下自己关闭了。最后一个镜头中,主角出现了变化,这显示出HappyHorse在这一案例中的一致性方面还有提升空间。

案例四:镜头语言与叙事感
提示词: 夜晚城市街道,一名侦探在雨中行走,霓虹灯反射在湿漉漉的地面上,镜头从远景缓慢拉近到特写,电影黑色风格。
上方提示词对运镜方式、画面风格都做了细致的规定,这对HappyHorse 1.0的指令遵循能力提出要求。
最终,HappyHorse 1.0准确呈现了从远景缓慢拉近到特写的镜头要求,电影风格呈现准确,霓虹灯的光线和反射都较为自然,但画面中的中文文字渲染有明显错误。
在这一案例中,我们还采用了1080P的分辨率和最长的15s时长,可以看到,放大后的画面细节依然较为清晰。

从这几个案例来看,在提示词要求较为详细时,HappyHorse 1.0可以较好地理解并执行复杂的画面构图、镜头运动和风格氛围要求,生成的人物形体与基础物理交互也相对稳定;但在高精度音画同步、微观物理细节以及画面中的文字渲染方面仍有提升空间。
二、最多支持9图参考,实测让奥尔特曼和马斯克“对簿公堂”
除了文生视频之外,HappyHorse 1.0也支持图生视频与视频编辑,这些场景对一致性、稳定性提出了较高要求。不过,在今天的实际测试过程中,我们始终未能成功体验视频编辑能力。
案例一:首帧模式
我们首先尝试了图生视频功能中的首帧模式,所上传的图片是OpenAI联合创始人兼CEO萨姆·奥尔特曼和Anthropic联合创始人兼CEO达里奥·阿莫迪前段时间的合影。
不过,可能是因为画面中涉及多位真实人物,模型拒绝了这一生成请求。

之后我们上传了奥尔特曼的单人照,要求模型生成他喝咖啡的画面。这次尝试最后成功了,画面中人物与真人照片的相似度应该能达到8成左右,并且随着光线和背景的变化,人物的样貌没有出现改变。
案例二:多人物参考
多图参考中,我们上传了马斯克与奥尔特曼的图像,要求HappyHorse 1.0提前想象一下这两位人物对簿公堂、激烈争吵的画面。
这次HappyHorse 1.0也没有拒绝我们的生成请求,它给出的首版生成结果中,并没能体现出二人争吵的效果,主要是“马斯克”在单方面输出。此外,模型似乎不理解这两位人物的母语都是英语,画面中“马斯克”操着一口流利的中文。
再进一步细化要求后,HappyHorse 1.0能够生成二人用英语争论的画面,其中人物的表情丰富,但是与参考图相比出现了较为明显的偏差。
案例三:多元素参考
除了上传多个人物之外,多图参考也允许用户对视频模型生成画面的背景、具体元素等提供素材。我们便上传了Sora核心人物Bill Peebles、OpenAI办公室、纸箱等元素,要求HappyHorse 1.0生成一个离职的画面。
在这一案例中,HappyHorse 1.0做得较高的方面是它准确呈现了我们上传的所有参考元素,人物、环境等都基本一致。
然而画面中出现了不少物理bug,比如纸箱自动合上,门自动打开等等。
三、1080P、生成速度成HappyHorse亮点
在HappyHorse 1.0开始测试之际,智东西等部分媒体与多位参与HappyHorse 1.0测试的业内人士与探讨了这一模型目前的表现,及其在行业中的竞争站位。
出海一站式AI电商营销平台麦斯国际的技术合伙人李明认为,3s-15s的生成长度、较快的生成速度、支持1080P是HappyHorse 1.0的亮点功能。同时,在提示词较为明确的情况下,模型的产出效果“还可以”。
然而,在实践中,HappyHorse 1.0也展现出一些问题,比如生成视频结果的一致性、生成语音内容的机械感等等。李明认为,HappyHorse 1.0与字节Seedance 2.0、OpenAI Sora 2等模型相比,“还有一些再提升的空间”。
我们向李明提及实测过程中遇到的音画同步、文字渲染等问题。李明称,字幕等文字内容的渲染其实是当前AI视频生成模型的通病,目前业内很少靠大模型直接生成,而是会借助后期工具进行补充,这种模式也给调整留有余地。
音画同步方面,李明观察到通过更好的提示词工程,可以提升HappyHorse 1.0、Seedance 2.0等模型的音画同步效果,但这些模型目前在音画同步维度多少还存在一些问题。
李明判断,对企业而言,当前视频生成模型的生成质量仍是一个普遍存在的痛点,部分创作团队的“抽卡率”甚至高达50%-60%。生成的时效性也还有提升空间。
相比之下,价格反而是用户更容易接受的维度。如果能做到又快又好,用户对价格的接受度自然会随之提高。
参与内测的AI视频创作平台FLOVA相关团队认为,HappyHorse 1.0模型在真实感与叙事能力上表现不错,尤其适合叙事性内容、纪录片风格的题材。
同时,HappyHorse 1.0的焦段运用接近实拍,减轻了视频的“AI感”,让观感更加真实,其镜头运动也比较自然。
结语:一匹有潜力的“快乐小马”
从我们的体验感受来看,HappyHorse 1.0可以是一款不错的的视频生成模型,其较强的指令遵循能力为专业创作者提供了更多的精细化控制的空间,一定程度上降低了反复抽卡、试错带来的资源浪费。
然而,HappyHorse 1.0的画面还有不少可提升的空间,比如画面的“油腻感”、物理准确性等等。随着HappyHorse进一步迭代,这一模型有望在真实生产场景中发挥更大作用。
