文 | 字母AI
最近,人工智能视频领域似乎进入了一段相对低迷期,Seedance 2.0陷入版权争议风波之中,OpenAI也关闭了其Sora项目,使得整个行业气氛显得有些沉重。
正当此时,阿里巴巴却带来了一个令人瞩目的新进展。
在2026年4月的Artificial Analysis排行榜上,HappyHorse-1.0在文本生成视频和图像转换成无音频视频两个赛道中超越了字节跳动、快手等竞争对手,一举登顶榜首。
张迪于2025年11月重返阿里巴巴,担任淘天集团未来生活实验室的负责人,并直接向阿里妈妈CTO郑波汇报工作。
从张迪回归到HappyHorse取得突破性进展仅隔了大约五个月的时间。
需要注意的是,与阿里推出的千问一样,HappyHorse同样提供了可商用的开源版本供开发者使用。
目前,千问在阿里巴巴内部的地位举足轻重。它是集团核心通用大模型的基础架构,并且承载了公司的AI战略,几乎所有业务布局都围绕着它展开。
因此,HappyHorse对于阿里来说不仅仅是一款展示技术能力的产品那么简单。
在进一步探讨阿里的战略之前,我们先来了解一下张迪的背景和他的职业生涯。
从阿里巴巴到快手再到回归
张迪毕业于上海交通大学计算机专业,他在该校完成了本硕连读,并于2010年加入阿里巴巴。他长期负责阿里妈妈的大数据和机器学习架构设计工作。
阿里妈妈专注于广告、推荐系统、搜索引擎优化及转化率提升等领域,涉及大规模的数据处理和复杂的工程体系。尽管这些内容可能不像大模型那样引人注目,但它们是培养中国互联网公司AI人才的关键环节之一。
实际上,在AI领域取得成功往往需要深入了解实际应用场景中的挑战与需求。
许多商品的卖点本身并不复杂,但如何通过视频形式将这些特点生动地展现给消费者却是一大难题。例如,太阳能喷泉泵这类普通庭院用品通过AI视频包装成了风靡一时的商品。
AI视频技术能够把产品的功能说明转化为具体的应用场景,这对电商内容的制作具有重要意义。
利用HappyHorse生成多版本、不同语言和场景的商品视频可以极大地提升转化率。例如,在淘宝或天猫平台上,商家可以根据用户的反馈数据优化商品展示方式,从而提高销售效率。
阿里巴巴的优势在于其庞大的商品数据库和交易系统,这为HappyHorse提供了丰富的训练素材。
通过接入这些真实的数据反馈循环,HappyHorse能够进一步进化成一个帮助商家生成更具有市场竞争力的视频内容工具。
这样的技术不仅有助于提高平台的内容供应量,还能降低中小企业的制作门槛和成本负担。
然而,AI视频带货也存在一定的风险。例如,过度夸大产品的效果可能会误导消费者,因此阿里巴巴需要确保生成的内容与实际产品相符,并在商品参数、实拍素材等方面进行严格审核。
近期,OpenAI宣布停止Sora独立应用和服务的运营,原因是高昂的成本和较低的用户留存率使得该计划无法持续发展。同时,字节跳动也因为版权问题而暂停了Seedance 2.0的全球发布。
在这样的背景下,张迪带领团队开发出来的HappyHorse则具有明确的实际应用价值,并且其商业前景相对稳健。阿里巴巴手中的丰富商品数据为可控生成提供了天然优势。
B站需要视频技术,阿里同样需要视频技术,只是阿里的需求更复杂。
快手做视频生成,无非就是分发。但阿里要是做视频生成,那背后牵连的环节就多了去了。有电商、广告、直播、云服务和海外商家。
前文提到,张迪2025年11月回归阿里后,出任淘天集团“未来生活实验室”负责人,职级P11。
如此安排下来,阿里味还是很浓的。它没有把视频模型简单放在一个纯研究部门里,其位置反而更靠近淘天这样一个交易现场。
换句话说,HappyHorse从构思开始,就是一个强调落地,和阿里现有生态绑定的产品。
五个月后,HappyHorse出现了。
这个速度确实快,阿里给了张迪一个新的业务场景和团队,他把视频模型这条路线再次打通。
他既不是从零开始进入AI视频,也不是单纯从外部空降到阿里。
他的职业路径像一条绕出去又绕回来的线。先在阿里学会大规模商业系统怎么运转,再去快手把视频生成做成产品,然后又回到阿里,把这套能力放进更大的商业机器里。
很多公司都在抢大模型人才,但真正稀缺的人,往往是能同时理解模型、业务和组织的人。
单纯会训练模型的人很多,单纯会讲战略的人也很多,难的是有人知道一个模型从技术路线开始,到架构设计,到训练推理,到产品出口,到最后被商家和用户用起来,中间每一步会在哪里卡住。
HappyHorse把张迪重新推到台前,也让阿里过去几年相对分散的AI叙事有了一个更具体的人物入口。
02 开源模型如何击败闭源巨头
HappyHorse真正引起关注的点,在于它赢得太突然了。
在视频生成这条赛道上,海外有Runway、Pika、Luma、Google的Veo,国内有字节的Seedance、快手的可灵。阿里排不上号。
所以当HappyHorse刚屠榜的时候,大家甚至更愿意相信说这是某创业公司开发的模型,也不愿意相信这是阿里的模型。
HappyHorse在文本转视频和图像转视频两个赛道都处在第一梯队,文本转视频Elo分数为1333,图像转视频Elo分数为1392。
Artificial Analysis的榜单本身会随用户盲测不断变化,后续页面分数也有更新,但是它确实在用户偏好测试中压过了一批更早出名的闭源模型。
这事其实挺反常的。通常来说,视频生成是最吃钱、吃数据、吃算力的方向之一。
闭源大厂可以把数据、模型细节、推理系统和产品体验藏在自己平台里,持续做内部迭代。
开源模型则要面对更多现实限制,它的参数要能公开,推理要能跑起来,社区要能复现,效果还要经得起横向比较。
所以在HappyHorse出现之前,开源视频模型大多数都是玩具,输出的视频不够稳定,人物还经常会出现漂移。
HappyHorse有150亿参数、40层统一自注意力Transformer架构,把文本、视频、音频三种模态的token放进同一个序列里联合建模。
这个路数和千问非常像,这也就解释了为什么张迪仅用5个月就把HappyHorse弄出来了,很可能是沿用千问留下来的高质量原生多模态训练方法。
像Sora这种非多模态原生的视频生成模型,经常会出现人物嘴在动,声音慢半拍的情况。并且有时候人物表情很丰富,但语气不对。人物还有可能在声音发出之前就行动了。
HappyHorse评分高的原因就在于,它通过原生多模态解决了这个问题。
HappyHorse原生支持英语、普通话、粤语、日语、韩语、德语、法语等多种语言的唇形同步,词错误率也被拿来和同类开源模型比较。
张迪为什么要这样做?我的理解是,如果阿里想让视频生这项技术进入广告、电商、短剧、教育和直播,就不能只靠画面漂亮。
它要能说话,要能配音,要让声音和画面同时成立。
另一个关键点是成本和速度。
HappyHorse在单张H100 GPU上生成5秒1080p视频约需38秒,并采用DMD-2蒸馏技术把去噪步骤压到8步。
这是视频生成商业化绕不开的一道坎。模型效果再好,如果生成一条短视频成本太高、等待太久,就很难进入商家日常工作流。
商家不会为每个商品等半天,也不会为几十个测试素材支付过高成本。
所以HappyHorse的意义不只是“能生成”,还在于它试图把生成速度和推理成本压到可用区间。
对开发者来说,开源意味着可以自托管、微调、接入自己的产品。对平台来说,开源也会带来更多社区反馈
一个闭源模型的进步主要依靠公司内部团队,一个开源模型会被开发者拿去做各种奇怪测试,问题暴露得快,改进方向也会变多。
Artificial Analysis的视频竞技场采用用户偏好投票,很多时候不只看某一个技术指标,更看用户在两段视频之间更喜欢哪一个。
当然,张迪还不能太骄傲,一次榜单登顶不等于永远领先。
竞争对手不会停在原地。HappyHorse现在赢下的只是一场公开测试,还不是整个战争。
HappyHorse如果只是一个能刷榜的模型,它的意义有限。可如果它能成为阿里云、淘天业务共同使用的视频生成底座,它就会变成一个入口。
所以说HappyHorse击败闭源巨头,最有意思的地方并不只是分数领先。真正值得关注的是,它让阿里找到了一种重新进入视频生成牌桌的方式。
它没有先做一个面向C端用户的APP,也没有只在内部做演示,而是直接拿开源模型接受全行业检验。
这场胜利未必会持续很久,但张迪让外界改变了对阿里在视频生成模型上的判断。
新的问题变成了,阿里准备把这项能力用到哪里?
03 HappyHorse对阿里的意义
HappyHorse最直接的落点,是电商。
过去大家谈AI视频,最容易想到影视、短剧、广告大片、创作者工具。诚然,这些都是实打实的大市场,不过它们离阿里的主业务还有一段距离。
阿里的优势不在于自己做一个视频社区,也不在于让普通用户每天打开一个AI视频APP消磨时间。阿里真正有优势的地方,是它手里有中国最密集的商品、商家、交易和广告系统。
这也是为什么很多人都在意说HappyHorse诞生于淘天集团的“未来生活实验室”。
淘天每天面对的是商家怎么卖货,商品怎么被看见,用户为什么点进来,又为什么下单。HappyHorse放在这里,大家自然就会想到它能不能提高商品内容生产效率,能不能提高转化,能不能帮平台多做生意?
对一个普通商家来说,视频内容一直是个麻烦事。
拍一条30秒的商品视频,你要找场景、找模特、打光、剪辑、配音。大品牌可以请团队,中小商家更多时候只能自己凑。
很多商品卖点并不复杂,问题在于没人把卖点拍出来。它们放在白底图里都很普通,一旦进入具体场景,用户才会意识到它能用来做什么。
前一阵在海外,太阳能喷泉泵这个产品卖爆了,它原本只是庭院小件,效果也就那么回事。但是被AI视频包装成鸟浴盆、鱼池和儿童浴缸里,酷炫的喷水玩具后,所有人都在疯抢。

AI没有改变商品本身,却改变了用户理解商品的方式。它把“功能说明”变成了“使用场景”。
这正好击中电商内容的痛点。
商品页里写满参数,用户未必有耐心看;主播讲半天,用户也未必相信。但一条十几秒的视频,如果能把场景讲清楚,转化效率可能会高很多。
更重要的是,AI视频可以批量生成。商家可以为同一个商品生成儿童版、家庭版、节日版、户外版,也可以为不同国家生成不同语言、不同人物、不同场景。
这对阿里的意义,比单纯做一个视频生成工具要大。无论是淘宝,还是天猫,上面都有大量商家,也都有大量商品数据和交易反馈。
一个AI视频工具如果只知道生成漂亮画面,它很快会变成素材软件;如果它能知道这个商品在什么场景下更容易被点击,什么文案更容易带来加购,什么视频前几秒更容易留住用户,它就会接近电商操作系统的一部分。
阿里比其他视频生成模型公司多出来的,正是这个反馈闭环。
商品图、详情页、评价、问答、搜索词、点击率、加购率、退款原因、直播间停留时间,这些东西看起来零碎,却都是训练电商内容能力的燃料。
HappyHorse如果接入这些反馈,就可以从“帮商家生成一条视频”,进化到“帮商家生成更可能卖货的视频”。
面向淘天,它可以做主图视频、商品场景短片、直播切片、虚拟主播和营销素材。
过去一个商家上新,可能只上传几张图,最多再拍一条粗糙短视频。以后它可以把商品图、卖点、评价和人群标签交给系统,让系统生成多条不同版本的视频,再用真实投放和成交数据筛选出更有效的那一条。
这个过程如果跑顺了,平台内容供给会明显增加,中小商家的内容门槛也会下降。
不过,AI视频带货也有风险。它可以放大卖点,也可能放大幻觉。一个喷泉泵在AI视频里喷得很高,现实里达不到那样的效果。
阿里的机会不该是纵容商家用AI造梦,重点应该放在商品参数、实拍素材、买家评价和平台审核上,让生成内容有边界。
3月下旬,OpenAI宣布关停Sora独立应用和相关API。原因很现实,视频生成太烧钱,用户留存撑不起成本,OpenAI要把算力放回编码、企业服务和机器人方向。
Sora倒在了商业账上。
字节也在另一头遇到麻烦。Seedance 2.0虽然效果也很猛,但是因为版权问题,字节暂停了Seedance 2.0的全球发布。
模型训练得越强,就越容易踩进版权、肖像权和训练数据的泥潭。
这时再看张迪带队做出的HappyHorse,它有清晰的商业场景。而且阿里手里的商品图、商家素材、实拍视频和交易反馈,天然比影视IP更适合可控生成。
所以HappyHorse的价值,不只在榜单。它给AI视频找了一个更稳的落点。
