
CVPR 2026:新扩散加速技术确保低步骤下的高质量图像稳定生成
崔奔雷(阿里巴巴)和何少轩(浙江大学实习生),他们的研究集中在多模态理解和生成领域。文章的通讯作者为洪海文(阿里巴巴)与赵洲(浙江大学),他们分别专注于多模态大语言模型和语音理解生成。近几年,扩散模型成为了图像、音频及视频等多模式数据生成的关键技术,并在实际生产中获得了广泛应用。然而,在落地过程中仍然存在一些瓶颈:工业级别的推理预算通常限制为 20 至 30 步,即便如此,许多加速方法依旧会遇到纹
共找到 115 篇相关文章

崔奔雷(阿里巴巴)和何少轩(浙江大学实习生),他们的研究集中在多模态理解和生成领域。文章的通讯作者为洪海文(阿里巴巴)与赵洲(浙江大学),他们分别专注于多模态大语言模型和语音理解生成。近几年,扩散模型成为了图像、音频及视频等多模式数据生成的关键技术,并在实际生产中获得了广泛应用。然而,在落地过程中仍然存在一些瓶颈:工业级别的推理预算通常限制为 20 至 30 步,即便如此,许多加速方法依旧会遇到纹

阿里巴巴ATH团队在4月10日透露,HappyHorse是该公司创新事业部开发的一款新型模型,并且正处于内部测试阶段,预计很快会开放API接口。该事业部正在着手研究一种全新的AI交互模式,而HappyHorse正是这一探索过程中的重要环节之一,未来还将有更多类似的产品陆续面世。据相关报道,在最近的视频排名榜单中,一个名为HappyHorse-1.0的匿名模型(未标明制造商)位居多个测评榜首。根据

阿里巴巴 ATH 最近证实了 HappyHorse 是该公司旗下创新事业部研发的产品。在社交媒体上引发热议的神秘视频生成工具 HappyHorse,现已通过微博公开亮相。它是一款内部测试中的产品,并没有正式上线,目前网络上流传的相关「官方网站」均为伪造信息。阿里巴巴 ATH 宣布:HappyHorse 系由阿里创新事业部自主研发,现正处于封闭测试阶段,并计划在未来不久向公众开放 API 接口。作为

近日,有消息称,在AI视频生成领域占据领先地位的匿名模型HappyHorse-1.0可能出自阿里巴巴集团,预计将在明日公开发布。4月9日,《信息》杂志报道指出,一个名为HappyHorse的AI模型近期在无音频类别中表现突出,并且击败了字节跳动公司的Seedance 2.0。这一消息引发了广泛猜测和讨论。前阿里通义千问团队负责人林俊旸也在X平台上转发了相关样例,并称赞“欢乐马乐疯了”,进一步增加了

昨日,阿里巴巴内部发布了一封信件,宣布了一系列涉及AI业务的人事调整,其中李飞飞被任命为阿里云的新任CTO。这里的主角并非那位出自斯坦福的知名女性人工智能专家,而是目前担任阿里集团副总裁,并领导着达摩院数据库部门的重要人物。如果提及的是后者,则这篇文章可能会讨论World Lab的最新进展。说句玩笑话,在此次调整中,最引人注目的是原CTO周靖人的职位变动及李飞飞接任这一职务的事实。除此之外,阿里巴

中国电信与中国科技巨头阿里巴巴共同宣布,在广东省韶关市建立了一个全新的数据中心,该中心将用于人工智能训练和推理,并装备了自主研发的真武AI芯片共计一万枚。上周五(4月3日),这座数据中心正式启动运营,能够支持数万亿参数规模的人工智能模型,标志着中国科技企业在人工智能基础设施与半导体技术领域的自主发展势头正在增强。近年来,美国对中国获取关键性的半导体技术实施了限制措施,包括对英伟达的AI芯片进行管

阿里巴巴推出的新一代人工智能模型“阿里千问”3.6Plus,在全球范围内创下日调用量突破一万亿的大关。 量子位的朋友们 2026-04-04 21:38:01 量子位

周四,谷歌宣布推出Gemma 4系列开放权重模型,旨在为AI智能体和编程环境提供优化支持,并采用更为宽松的Apache 2.0许可协议,以吸引更多企业用户。这一举措恰逢中国大语言模型快速发展之时。目前,多家中国企业如月之暗面、阿里巴巴千问等已推出多款性能优异的大规模语言模型,与国际头部产品形成竞争态势。针对日趋激烈的市场竞争环境,谷歌通过Gemma 4向企业客户提供了安全可控的本地化部署方案,并明


阿里巴巴近期推出了一款名为Wan2.7-Image的全新图像处理模型,集成了文本到图像生成、多图批量制作、指令驱动编辑和交互式修改等多功能于一体。新发布的这款软件具有四大核心功能:个性化定制面部特征、“调色盘”色彩控制、高质量文字渲染以及精准区域选择性编辑。在测试过程中,我们着重考察了模型的个性面孔生成、互动编辑及跨场景人物一致性三个关键领域的能力。通过使用基础指令词“年轻女性半身像,电影质感光影

阿里巴巴今日推出了图像生成与编辑统一模型Wan2.7-Image,旨在解决当前AI生图领域中“标准脸”审美疲劳和色彩单一等问题。新的模型能够实现个性化定制,“千人千面”,并具备全新的调色盘功能,精准控制颜色。用户现在可以通过阿里云百炼平台、wan.video网站以及即将上线的千问App体验Wan2.7-Image的功能。Wan2.7-Image涵盖了从文本生成图像到交互式编辑等一系列能力。在盲测中

在近期的一则消息中,一家专注于具身智能领域的初创公司于3月初成立,并在短短数周后估值便突破了十亿美元大关。该公司由理想汽车前自动驾驶研发总监郎咸朋和阿里巴巴集团前副总裁任庚联合创立,名为昆仑行。没开玩笑!据悉,在量子位的报道中提到,昆仑行已迅速完成了三轮融资,并成为今年初最具吸引力的投资对象之一。北京昆仑行机器人科技有限公司成立于2026年3月16日,其业务范围涵盖了智能机器人的研发和销售、工业机

阿里巴巴继续加大投资力度,已投入超过700亿元人民币。作者丨应梅三家主要外卖平台在截至2025年四季度的财报中显示,总计花费了大约1700亿元人民币。投资专家王锡(化名)认为市场低估了阿里巴巴愿意为即时零售业务付出的成本。阿里巴巴的外卖业务亏损情况正在改善,第四财季环比减少超过一百亿元。然而,关于2026年一季度的具体减亏进展,尚未有明确消息公布。据接近淘宝闪购的人士李青(化名)透露,在过去几个月

观点网讯:3月26日,淘天集团正式推出“AI生产力计划”,并向实习生全员开放,实习生享有的所有权限、额度及使用流程与正式员工完全一致淘天集团正式推出“AI生产力计划”,面向全体实习生开放。据介绍,该计划自3月17日起实施,阿里巴巴淘天集团员工可免费使用悟空、Qoder系列等付费AI工具,用于技术研发和通用办公,公司向员工提供Token额度。

在3月26日的夜晚,前阿里大模型技术负责人林俊旸在社交媒体平台上发布了一篇长文,这是他在从阿里巴巴离职后首次发表关于他对大模型发展方向的见解以及对未来人工智能阶段的预测。林俊旸指出,过去两年间,整个行业对大模型的评估方式和核心期望发生了重大变化。OpenAI的o1展示了“思考”可以作为一种训练出来的技能。紧随其后,DeepSeek-R1展示了推理式后训练不仅可以在实验室环境中复现,还能进一步扩展。

星期二(3月24日)的关键新闻如下:尽管美国总统特朗普在星期一(3月23日)表示,美国和伊朗已经开始进行和平对话,但由于投资者担心伊朗战争可能会继续,美国股市的主要股指期货在星期二(24日)仍然下跌。截至7时15分,标准与普尔500指数期货微跌4.40点或0.07%,报6576.60点;纳斯达克100指数期货下跌9.50点或0.04%,报24179.10点;道琼斯指数期货下跌57.60点,报461

3月23日,阿里巴巴宣布千问已推出AI打车服务,用户通过简单的自然语言指令就能轻松实现选车、设置途经点和预约时间等操作。新推出的打车功能拥有强大的意图识别技术,可以准确捕捉用户的个性化需求。无论是寻找空气清新、驾驶平稳、费用不超过30元或服务态度良好的车辆,系统都能迅速匹配合适的车型。面对多人同行、车内有病人等特殊情况,系统会智能推荐商务车或适合平稳驾驶的车型,并自动向司机传达提前通风等备注信息。

在3月份,一种被称为“养虾”的AI智能体技术成为了业界关注的焦点之一。这里的“养虾”特指采用开源AI执行框架OpenClaw(意为“小龙虾”)的技术。伴随“养虾”技术的兴起,国内多家互联网企业纷纷进入这一领域,相继推出了各自的产品。3月22日,微信发布了“ClawBot”插件,加入了OpenClaw生态系统。而在3月13日,阿里巴巴上线了名为“无影 JVS”的JVS Claw产品,百度智能云则发

据悉,有关“养虾PC”和主机硬件即将面世的传言,阿里巴巴进行了澄清:确实存在研发计划,但具体时间表尚未确定,且将基于现有产品进行升级。一位内部人士透露:“实际上是云电脑,而不是传统意义上的PC。”最近有报道指出,阿里巴巴计划推出名为JVS Book的笔记本终端和JVS Box的迷你主机等硬件设备,研发工作由阿里云无影团队负责。JVS Book笔记本终端专为移动办公设计,采用了类似OpenClaw的

多模态大模型的自信心有多强?一项由浙江大学、阿里巴巴、香港城市大学及密歇根大学的研究团队进行的实验表明:当图像逐渐变得模糊,直至几乎无法辨认时,研究者持续监测模型的准确率与置信度的变化情况。实验结果显示,准确率急剧下降,而置信度基本保持不变。这意味着,即使图像变得模糊,模型仍然会以很高的置信度给出答案。这种“盲目自信”的倾向,正是多模态大模型在复杂视觉推理中产生幻觉和误判的主要原因之一。为了解决这