
阿里巴巴后来居上,成功超越快手与字节跳动。
采写/陆小鹿
4月14日,字节跳动旗下的火山引擎发布了Seedance2.0系列API服务的更新版本,这些功能可供企业和个人用户调用以生成视频内容。
在初期阶段,使用这些服务需要支付高昂预付款,并且最低消费金额高达千万级别。
当计算能力充足时,大规模开放API几乎成了大模型商业化的关键驱动力。然而,最近被许多用户诟病排队时间长、变相涨价的Seedance2.0,为何突然全面开放了API呢?
这可能与上周迅速走红的HappyHorse有关。

4月7日,匿名身份的HappyHorse出现在权威AI平台Video Arena盲测榜单上,在图生视频(无音频)类别中获得1411分位居榜首;而在文生视频(无音频)领域,它以1379分的成绩超越了字节跳动的Seedance 2.0、快手可灵AI 3.0等公开产品。
接下来三天内,阿里官方承认了这匹“千里马”的身份。
在今年三月,OpenAI宣布停止Sora服务后,原本预计Seedance 2.0将独霸市场,但阿里巴巴却出其不意地推出了自己的视频生成工具,直接挑战字节跳动和快手的领先地位。
AI视频生成领域目前初显三国争霸的局面,并且中国企业在其中占据了主导地位。
一
OpenAI退出舞台,中国大型企业崭露头角
2024年至今,AI视频生成技术实现了从“玩具”到实际应用的转变,主要得益于底层技术范式的重大变革——即由基于海量数据的统计匹配转变为对物理世界规律的理解与模拟。这一变化解决了以往的技术难题:物理合理性及长期一致性问题。
据了解,HappyHorse使用统一的Transformer模型同时处理视频和音频信息,并直接生成带有声音的完整影片,无需后期剪辑。这种独特的技术架构(单流Transformer)对于提高长期一致性非常有利。
统一的Transformer能够一次性处理长序列中的混合Token,其自注意力机制可以捕捉视频帧与音频帧之间的长距离依赖关系。

这种方式比用多个独立模型分别处理后再协调更为直接且简单,减少了模块间的信息传递损耗,在理论上更有利于保持长时间叙事的一致性。
根据Artificial Analysis的评估标准(满分5分),HappyHorse在物理一致性方面获得4.52分、视觉质量为4.80分、文本对齐得分为4.18分,表明其基本一致性能良好但在复杂场景下的长期一致性仍需提升。
但是参考Sora的经验来看,良好的长期一致性并不一定意味着商业上的可行性。
据央视财经报道,尽管Sora在技术上有所突破,但其实际应用效果显示仅有5%-10%的生成视频可用于初步筛选,大部分情况下更像一个不可控的“抽卡游戏”。
Sora被关闭并非由于技术研发难度增加,而是因为高昂的成本问题。根据Appfigures的数据,Sora自推出以来的应用内总收入仅为约210万美元,投入产出比高达2500:1,成为史上代价最昂贵的技术实验之一。
硅谷风险投资机构a16z的合伙人Olivia Moore曾在社交媒体上分享SensorTower监测截图显示,Sora APP的30天用户留存率为1%,而60天则为零。这种低水平的用户保留率显然不满足商业应用的需求。
当前,在资本看来无法变现且耗资巨大的技术突破已不再受欢迎。因此,正在筹备上市的OpenAI不得不关闭Sora,并退回与迪士尼的合作款项。
同时,OpenAI也需要集中资源继续推进世界模型的研究进程。
目前顶级视频生成模型大多基于DiT架构,该架构起源于图像生成Diffusion技术。未来可能迈向Omni-Model的发展方向。视频大模型更像是在时间维度上融合了大量物理世界的因果片段的阶段性成就。
视频制作是验证时空预测能力的一个基本门槛。具备开发出视频大模型能力的企业,理论上也可以利用此类技术来研发其他垂直领域的大规模模型——前提是拥有足够的高质量真实数据来进行训练。
阿里巴巴的目标显然不仅仅局限于推出一个受欢迎的视频生成工具。
二
AI视频大有潜力
视频是AI大模型理想的垂直应用方向,因为它可以无缝融入娱乐、社交和电商等高利润行业。而抖音日活跃用户数达到十亿级的事实也证明了这一点。
人类天生对视觉内容更感兴趣,比起阅读文字更偏好观看视频。字节跳动能够深入互联网巨头的核心业务领域,正是抓住了这一关键点。
抖音平台上的大量视频流数据包含了人物行为、物体运动和场景互动等多维度信息,每一帧都是真实世界规律的记录。利用这些优质数据训练出的应用程序,很容易就能取得领先优势。
根据极客公园的测算,Seedance 2.0生成15秒视频的有效率可能达到90%,相较于此前行业内平均值20%有了显著提升。技术实力和商业可行性的双重进步使Seedance 2.0的成功变得顺理成章。
Seedance 2.0的商业化进程节奏感极强,首先是通过匿名榜单冲榜提高知名度,然后是官方正式公布,并迅速计划开放API接口接入阿里百炼MaaS平台。
考虑到Seedance 2.0团队负责人郑波同时担任阿里妈妈首席技术官,未来HappyHorse的应用很可能与电商领域产生深度绑定关系。
让AI技术与原有核心业务紧密结合,以促进整体生态系统的繁荣发展是所有互联网巨头共同追求的目标。除了这一目标外,阿里巴巴还长期致力于构建流量入口以支持其电商业务的发展。
在理想情况下,HappyHorse可以同时实现这两个关键目标。
作为视频生成工具的HappyHorse可以在商品广告、虚拟主播等电商场景中发挥作用,并且如果能够在AI内容创作源头占据一席之地,则能够为电商平台提供内生流量并构建“内容-交易-履行”的完整闭环。
这种设想并非毫无根据,因为Seedance 2.0已经进入了电子商务领域。
4月2日,NoDesk AI公司推出了其产品的新版 DeskClaw,正式接入了 Seedance2.0。这是首个明确聚焦垂直电商领域的AI产品,并且也是首批进入这一市场的Seedance 2.0相关应用之一。
对于大多数投资者和从业者而言,鉴于阿里巴巴在电子商务领域中的领先地位,它似乎没有理由不能做到类似的事情。
HappyHorse这款阿里系视频生成工具的出现某种程度上符合公众预期,毕竟让商家能够在电商平台上便捷地使用稳定可靠的视频生成服务是最为自然的做法。
在内容生态领域中,只要HappyHorse足够稳定、可靠并且价格合理,同样可以开辟出一片广阔的市场空间。
三
不止工具,生态协同
对于大部分的内容创作者而言,成本控制是一个关键因素,并不仅仅局限于简单的定价高低问题。
不管是个人UP主、小型工作室还是MCN机构,在内容生产过程中都有预算和时间限制。一个价格频繁变动且排队等待时间不可预知的工具会直接干扰整个制作计划,导致项目报价困难以及无法按时交付。
Seedance2.0现在就面临着这样的问题和风险:高峰时段普通用户需要等待超过7小时,即便是付费高级会员也无法避免长时间排队的情况。
同时,在短期内即梦平台连续调价后,制作一部2分钟AI动画的素材生成成本从最初的约7元飙升至80元,这已经触及了许多中小团队商业模式的根本底线。
据《财经故事荟》报道,“字节跳动在年费之外推出vvip等升级服务,实际上是在变相涨价”,一些用户对此表示不满。如今HappyHorse上线后,可能会促使字节跳动重新评估其策略。
只要HappyHorse能够保持质量稳定,并且做到用户体验优秀、价格低廉的话,就能够从竞争对手那里吸引一批真正有内容生成需求的客户了。
阿里巴巴销售团队或许已经开始接触火山引擎的潜在客户,以期挖掘更多商机。
字节跳动今天开放Seedance2.0 API接入权限,显然是在主动降低用户的使用门槛。有了HappyHorse这一竞争对手的存在,未来双方可能会围绕价格展开激烈竞争。
阿里巴巴、字节跳动和快手三方之间的模型能力竞赛不断推进,计算成本逐步下降,使得越来越多的中小企业能够享受到技术普及带来的红利,并迅速引爆市场——这正是我们期待看到的局面。
无论是个人UP主、小型工作室还是MCN机构,其内容生产都有预算和周期。一个价格频繁波动、排队时间无法预估的工具,会直接打乱整个生产计划,让项目无法报价、无法按期交付。
Seedance2.0现在恰恰就有这样的问题和风险。一方面,高峰期普通用户排队可达8万人,等待时间超过7小时,即便是付费高级会员也难以幸免。
另一方面,即梦平台在短期内连续调价,据说制作一部2分钟AI漫剧的纯素材生成成本,已经从最初的约7元飙升至80元,击穿了许多中小团队的商业模式底线。
“字节在年费之上推出vvip等升级服务,算是变相提价了,就是因为Seedance一家独大”, 有用户向《财经故事荟》吐槽,“现在HappyHorse上线,估计字节要掂量掂量了。”
只要HappyHorse质量稳定,又能做到体验好、定价低,就可以从竞争对手那里挖到到一批有真实内容生成需求的客户了。或许聪明的阿里云销售,已经开始接触火山引擎的客户了。
字节今天放开Seedance2.0的API接入,就是在主动降低用户的使用门槛,有了HappyHorse这个对手,接下来双方大打价格战,也是大概率事件。
字节、快手、阿里三国杀,模型能力你追我赶,算力成本稳中有降,让越来越多的中小创业者可以享受到技术普惠的红利,也能快速引爆市场——这才是我们想看到的AI时代。
