最近一款名为「欢乐马」的神秘视频模型突然在AI视频领域排行榜上崭露头角。
据传10号正式发布
从昨日开始,这款模型就在文本转视频(无音频)类别中占据首位,其Elo评分已攀升至1375分,领先第二名Seedance 2.0约100分。
在图像转视频的比赛中,「欢乐马」更是以1409的高分打破了记录。

而在音频赛道上,它同样拔得头筹,超越了Seedance 2.0。

据悉,这款模型由阿里淘天集团未来生活实验室开发完成,该实验室主管张迪带领团队进行研究。
Artificial Analysis的AI Video Arena平台通过数千名匿名用户的盲测来决定排名。

用户在不知情的情况下选择他们认为更好的生成视频,这正是「欢乐马」能够脱颖而出的原因之一。


我尝试亲自体验了一次,连续几次都选择了「欢乐马」生成的画面,感觉它的效果确实令人印象深刻。
屠榜视频Arena
对比来看,右边的生成效果更接近于电影开场的真实场景。无论是整体色调还是镜头设置,都非常逼真。
相反地,左边画面中的天空过于夸张,不符合自然规律。
当我得知答案时,发现「欢乐马」确实更具优势。它不仅还原了提示词要求的“长枪短炮”的新闻发布会场景,还更加流畅地展示了不同镜头之间的切换。
先看第一个案例:

另一个测试中,尽管两个模型生成的画面看起来相似,但我还是倾向于选择右边的图像。
因为右边的人物面部纹理更清晰,显得更加真实;而左边则过于光滑,缺乏细节。
通过多次盲测实验后发现,在大多数情况下我都会倾向于「欢乐马」的输出结果。
再来看看这个:

这样的表现自然让人们对它的评价极高。根据已知的信息,该模型采用了先进的技术架构。
Happy Horse-1.0使用了单流Transformer结构,并且可以同时生成高质量的音视频内容,在H100显卡上仅需38秒就能完成5秒片段的渲染。
它支持包括中文在内的多种语言,并有望在未来完全开源,提供基础模型、蒸馏模型及超分辨率增强等功能。
接下来是第三个案例:

关于这款模型的研发团队归属问题,目前大多数人的猜测都指向了阿里淘天未来生活实验室。
张迪作为这个项目的领头人,在2010年毕业后便加入阿里巴巴,并担任多项技术职务。
他曾在快手工作期间领导大模型与多媒体技术研发团队,成功推出可灵系列视频生成模型。
近年来张迪又加入了哔哩哔哩和淘天集团,继续推动相关领域的创新和发展。
尽管目前「欢乐马」还没有官方网站或技术报告公布,但据说开发小组正在加紧工作,并计划在本月10日正式发布新版本。
这实力可想而知,也难怪空降屠榜了。
根据目前已知消息,Happy Horse-1.0采用40层单流Transformer架构,原生支持音视频同步生成,仅需8步去噪即可输出1080P视频。
在H100显卡上生成5秒片段仅需38秒,推理速度较传统模型大幅提升。其技术突破包括多模态统一建模、无CFG引导生成等。
原生支持中文(包括粤语)、英语、日语、韩语、德语、法语。
更重要的是,据说完全开源——基础模型+蒸馏模型+超分+推理代码,都会开源出来。
或出自阿里淘天
关于Happy Horse-1.0背后是哪家公司,目前猜测主要集中在国内。
而在众多选项中,呼声最高的是阿里淘天未来生活实验室,由前快手Kling一号位张迪领导。

张迪,上海交通大学本硕毕业,职级P11,直接向淘天集团首席科学家兼阿里妈妈CTO郑波汇报。
他于2010年毕业后便加入阿里,担任资深技术专家,负责阿里妈妈大数据与机器学习工程架构。
2020年,他曾转战快手,历任技术副总裁、大模型与多媒体技术团队负责人。在快手,他牵头了可灵大模型的底层架构研发与应用落地,成功推出了可灵1.0/2.0视频生成模型。
2025年9月初,张迪加入哔哩哔哩,出任技术条线负责人。
2025年11月,张迪离开哔哩哔哩,重返阿里,担任淘天集团未来生活实验室负责人。
目前,Happy Horse-1.0还处于无官网(目前出现的几个官网都被打假了)、无技术报告、无代码库的状态。
有消息称团队现在每晚都在加班加点,10号会正式发布,也是可以期待一下了。

听雨