最近,阿里ATH创新事业部研发的一款名为HappyHorse-1.0的视频生成模型,在Arena.ai平台上低调上线并启动了测试阶段,目前正处于最终优化过程中,预计很快就会正式发布。
据官方透露,这款模型在早期评估中表现出色,特别是在处理视频编辑任务时。现在它已进入最后调整期,计划在未来两周内进行版本更新。
根据阿里巴巴内部的消息,该模型的API接口将在4月30日开放给公众使用。目前,已经向社区发布了初步体验版本,并邀请用户参与测试和反馈意见。
去年的一周里,这款模型突然以匿名身份出现在全球知名的AI平台Artificial Analysis Video Arena的盲测榜单上,在没有音频的情况下与字节跳动Seedance 2.0及快手可灵3.0等竞争中脱颖而出,并分别在文本生成视频和图像生成视频两个领域取得了第一的位置。
HappyHorse-1.0采用了具有40层单流自注意力的Transformer架构,包含150亿参数,能够同时实现原生音视频的一体化生成。
相较于其他模型需要先单独制作出无声视频再添加音频,HappyHorse-1.0则简化了这一流程,实现了视频和声音同步生成,减少了人工干预的步骤,提高了效率并且降低了错误率。
该模型将音视频合成集成为单一过程,在一次推理后即可直接输出带有声音的完整作品,无需后续处理或剪辑。
此外,这款创新产品还支持七种语言的唇形同步功能,包括英语、普通话、粤语、日语、韩语、德语和法语。

