
科技巨头们对AI视频市场的巨大吸引力既感兴奋又充满顾虑。
这一领域中,极致的成本优势与高效的工业化生产能力引爆了资本的热情,并迅速重塑了赛道格局。
在4月初,一个新兴的模型HappyHorse-1.0在第三方测评平台Artificial Analysis上崭露头角,以卓越的表现力吸引了广泛注意。其文生视频和图生视频得分分别为1333分和1392分,超过了字节跳动与快手的相关产品。
图片来源|视觉中国
一个月后,阿里宣布HappyHorse-1.0为其“ATH事业群”AI创新事业部自主研发的成果,并计划于月底开放API接口。
阿里虽然在视频生成领域起步较晚,但自3月成立新的以Token为核心的“ATH事业群”,便开始着重提升多模态能力。HappyHorse的成功被视为这一战略转变的重要里程碑之一。
不仅仅是阿里,其他科技巨头也在加紧布局视频生成赛道,试图占领市场主导地位。
据了解,在种子舞蹈系列模型的助力下,字节跳动已建立起显著的竞争壁垒,并通过火山引擎向外部开放API接口来推动商业化进程。然而高昂的最低消费门槛限制了部分机构的使用。
在近期举行的招商会上,多家城市与火山引擎洽谈合作事宜,愿意投入巨额资金支持算力配套建设,以求得在视频生成领域的竞争优势。
腾讯也加入了这一竞争行列。相关人士透露,腾讯已招募数名种子舞蹈模型开发团队的核心成员,并计划推出新的混元视频大模型版本,在5月与对手直接对垒。
在HappyHorse-1.0出现之前,阿里虽有通义万相视频模型,但其表现平平,未在市场中占据重要位置。然而这一次,阿里似乎决心要认真对待这一领域的发展机遇。
HappyHorse采用了先进的技术手段,将文本、视频和音频三种模态的Token置于同一序列进行联合建模,解决了音画不同步及语气表情不匹配等问题,提高了模型的实际应用价值。
阿里认真了
一位测评专家表示,HappyHorse在物理模拟方面更接近真实环境,并支持多国语言唇形同步功能。同时,在生成效率和成本控制上也表现出色,单张视频的生成时间大幅缩短。
不过,该模型仍存在一些明显短板。例如在处理复杂动作和多人互动场景时容易出现肢体错乱等问题,与种子舞蹈相比更擅长镜头呈现而非叙事表达。
目前HappyHorse尚未对外开放API接口,在内部测试阶段支持的视频长度也较为有限,主要适用于短视频、广告及AI漫剧素材制作,并不适合长时间剧情片。此外,本地部署还需配备高性能显卡才能运行。

阿里此次进军视频模型战场的具体意图尚不明确,但可以推测可能希望借助电商场景来挖掘更多应用场景和商业机会。
作为一家拥有完整商品、商家交易与广告生态的企业,阿里正试图通过AI视频技术解决中小商家在拍摄和制作成本方面面临的难题,并降低创作门槛。
更重要的是,阿里的全链路信息可以反向训练电商专属的视频生成能力,让HappyHorse成为能够高效带货的内容生产引擎。
为了实现这一商业闭环,阿里不仅需要克服技术难关,还要解决算力资源紧张的问题。
据内部人士透露,目前公司GPU分配非常紧张。在面对多个业务线的需求时,未来可能要重新评估GPU的投入产出比。
视频生成领域对算力的巨大需求使得HappyHorse的发展潜力受到限制,如果不能有效解决这一瓶颈问题,则难以实现长远目标。
目前市场上AI视频制作的成本优势和生产效率吸引着大量资本的关注。有公司表示短短半个月内就接到了多家投资机构的收购请求,估值已经超过5亿元人民币。
各地方政府也敏锐地捕捉到这一趋势,并出台多项扶持政策以促进相关企业的发展。
这些措施包括提供算力补贴、内容奖励以及园区集聚等优惠政策,旨在吸引一人公司(OPC)进入该领域。
例如,武汉东湖高新区和上海市徐汇区分别推出了针对微短剧产业的支持政策。而深圳市则实施了一项新的扶持计划,单个项目最高可获得200万元的资金支持。
这些措施促使字节成为最早受益者之一,通过火山引擎向大型影视公司开放的API接口,即便收取高昂年费仍有不少机构愿意使用其服务。
由于地方政府算力扶持作为招商引资的重要配套举措,一些AI短剧制作团队得以低成本接入API并获得发展支持。
清晰可见的盈利路径与庞大的市场需求激发了各大科技公司的竞争热情。阿里和腾讯相继加大在AI视频赛道上的投入力度,试图分得更多市场份额。

据了解,腾讯已开发出新款混元视频模型,并计划于5月上线。该款新模型有望在短时间内实现技术突破并超越竞争对手。
依托自身生态体系,腾讯还希望将这款新的视频生成工具广泛应用于内容生产、分发和商业化等全链条环节,进一步扩大其商业版图。
尽管市场前景广阔,但AI视频领域高昂的研发投入与盈利挑战正考验着各参与方的智慧。
对于火山引擎而言,虽然收入可观,但算力成本负担仍然沉重。目前公司尚未制定详细的三年盈利规划。
OpenAI关闭Sora项目的消息给整个行业带来了冷水效应,凸显了视频生成领域对高算力资源的需求以及由此引发的成本问题。
据业内人士分析,高昂的单条1080p视频生成成本与用户支付意愿之间的巨大差距是导致这一决定的主要原因。
科技巨头们在技术路线选择上的风险也是未来发展中的一大挑战。如何合理分配有限资源,并找到最佳的成本效益平衡点成为关键问题。
当前行业内的定价策略已出现分化,头部领先模型可以维持较高溢价,而追赶者则不得不通过降价来争夺市场份额。
在Sora停止服务后,字节率先选择提高会员费用;相较之下,Google和快手则选择了降低价格以吸引更多用户。
视频模型的高风险抉择
这种定价策略上的两极分化反映了当前市场竞争的激烈程度。然而从长远来看,平台、API及广告等外部变量并不是决定胜负的关键因素,谁能够结合自身优势生态找到不可替代的应用场景才是成功之道。
虽然火山引擎的收入不菲,但其算力成本负担依然沉重,收入中的绝大部分,都要用来采购GPU和支付电力成本。
4月,火山引擎总裁谭待告诉《中国企业家》:“我们去年已经修改了商业计划,把目标提升了不少。但目前我们还没有做3年的盈利规划,暂时没有这方面的具体安排。”
OpenAI关停Sora,更给狂热的市场泼下一盆冷水。视频生成的算力消耗,是大模型的上百倍甚至上千倍,即便全球最具财力的科技公司,也难以承受这种无底洞式投入。
OpenAI虽宣称,关停Sora是为了将资源转向企业智能体、编码工具与具身智能等方向,但业内普遍认为,成本与付费严重倒挂才是核心原因:Sora单条1080p的视频生成成本约0.5~1美元,而用户平均付费意愿不足0.1美元,根本无法支撑持续运营。
更深层的挑战,还来自于科技大厂技术路线的高风险抉择。业内人士向《中国企业家》指出:多模态任务过度消耗算力,在Token用量已经暴涨的情况下,厂商有再多算力依旧不够烧,要把算力留给谁,就成了关键问题。
由于忌惮视频的无底洞式算力投入,Google始终不敢大规模开放API,也未推出独立的视频生成C端应用。“去年Google的多模态路线备受推崇,但今年便在Agent浪潮下被Anthropic赶超,现在只能说勉强留在牌桌上。大模型的核心技术路线,往往需要提前一两年布局,效果却要滞后显现。有时候真的像玄学。”
行业成本与收入失衡,近期利益和远期发展,迫使所有玩家重新审视视频模型的商业模式与定价逻辑,这也直接催生了行业内的定价策略分化。
摩根大通曾判断:头部领先模型可以维持溢价,追赶者则不得不通过降价抢占市场份额。
Sora停服后,字节率先选择涨价。4月8日,即梦宣布:基础、标准、高级会员的月度积分分别从1080、4000、15000下调至725、2210、6160,积分缩水近六成,相当于变相涨价。
相比之下,Google和快手则选择用降价换市场:谷歌在3月底放出的Veo 3.1 Lite版本,将720p视频生成价格压至0.05美元/秒。可灵紧随其后,推出会员限时8折优惠,部分图片生成功能甚至完全免费。
定价的两极分化,本质上是竞争烈度的直接体现。长期来看,平台、API、广告、电商都只是外层变量,决定胜负的关键因素仍然是:强化模型本身的同时,谁能在效果和成本之间找到最佳平衡点,谁能结合自身生态,找到不可替代的落地场景。
