
谷歌发布Gemmar 4,击败规模超自身13倍的Qwen3.5
在本周四晚间,谷歌发布了其最新的模型系列 Gemma 4,这一系列被认为是当前开源领域中最强大的。新的 Gemma 系列在 Arena AI 排行榜上获得第三名的位置,并且超过了参数量是它五倍多的大规模模型。此外,Gemma 4 使用了 Apache 2.0 开源许可证,这意味着它可以完全用于商业用途。Google DeepMind 最近开发的 Gemma 4 是一个多模态模型系列,专门处理文本和
共找到 53 篇相关文章

在本周四晚间,谷歌发布了其最新的模型系列 Gemma 4,这一系列被认为是当前开源领域中最强大的。新的 Gemma 系列在 Arena AI 排行榜上获得第三名的位置,并且超过了参数量是它五倍多的大规模模型。此外,Gemma 4 使用了 Apache 2.0 开源许可证,这意味着它可以完全用于商业用途。Google DeepMind 最近开发的 Gemma 4 是一个多模态模型系列,专门处理文本和

小米公司最近发布了其MiMo大模型的Token Plan服务,为用户提供了一种全新的订阅模式来满足全模态代理任务的需求。 量子位的朋友们 2026-04-03 13:44:33 量子位

LongCat团队在最新研究中推出了名为LongCat-Next的模型,该模型基于先前的工作,展示了如何通过离散原生框架实现统一的理解与生成能力。这项工作证明了文字、图像和声音可以在同一Token序列中被表示。 一水 2026-04-03 14:24:01

最近,一项名为Wan2.7-Video的视频生成模型已经正式发布。这款创新工具能够处理包括文本、图像、音频和视频在内的多种输入模式,并专注于改进视频编辑与修改的技术。W2.7在视频编辑功能上表现出色,它允许用户通过简单的指令来局部调整画面内容,无需重新制作整个片段。具体来说,它可以实现元素的增加或删除(例如,“移除火车”)、物体替换(如“把胶片换成盘子”)以及修改物件属性(比如改变建筑物的颜色)。

据悉,在美国当地时间周四,微软旗下的Microsoft AI研究团队宣布了三项基础人工智能模型的研发进展,涵盖了文本、语音和图像生成等领域。这一举措显示,尽管与OpenAI的合作关系密切,微软仍在积极构建自己的多模态人工智能技术栈,以应对行业内的竞争压力。公告透露,MAI-Transcribe-1转录模型支持多达25种语言,并且速度是现有Azure Fast服务的两倍半;而音频生成器MAI-Voi

新智元报道在竞争对手仍在专注于单点能力时,Agnes已将文本代理、图像处理、视频生成和办公自动化工具整合进开发者工具箱中,提供了一整套AI生产力解决方案。最近,Agnes的核心模型矩阵在Zenmux平台(https://zenmux.ai/models?sort=newest)正式上线,并一次性开放了四款主力模型的调用接口,涵盖文本代理与多模态生成两大核心领域。其中包括Claw系列中的Agnes-

一位学生因为疏忽了一行代码而意外发现了一个严重问题。在一个用于医学多模态人工智能的项目中,这行代码本应使模型能够读取图像数据,但由于这次失误,实际上模型并未接触任何图片资料。尽管理应出现错误或拒绝回答,该系统却依然正常运行,并且在没有获取到图象信息的情况下完成了全部分析过程,甚至在基准测试中取得了高分。斯坦福大学最近发表的一篇论文对这一现象进行了深入研究并指出,目前许多多模态AI模型,在未能正确读

凤凰网科技讯 3月31日,凤凰卫视在香港举办三十周年台庆的庆典,活动发布了多项重要合作。凤凰卫视执行副总裁兼运营总裁李奇与国内AI训练数据领域龙头企业——海天瑞声创始人、董事长贺琳出席仪式并交换文件,双方将携手深入挖掘海量音视频、文本及多语种、多模态内容,建设具备高知识密度和多元文化视角的高质量数据,为训练大模型逻辑推理、跨文化认知能力提供“黄金语料”。凤凰卫视三十周年台庆签约现场据凤凰卫视执行副

阿里发布Qwen3.5-Omni,多模态能力超越Gemini-3.1 Pro 量子位的朋友们 2026-03-30 22:21:45 量子位

凤凰网科技讯 3月30日,智象未来(HiDream.ai)与诺亦腾机器人(Noitom Robotics)近日宣布正式达成战略合作。双方将结合多模态大模型的视频生成能力与真实动作捕捉基础设施,共同探索具身智能行业高质量训练数据的大规模生成模式。诺亦腾机器人创始人兼首席执行官戴若犁与智象未来创始人兼首席执行官梅涛共同出席了此次签约仪式。当前,具身智能产业正面临高质量多模态训练数据的获取瓶颈。相较于传

IT之家 3 月 27 日消息,美团今日发布原生多模态大模型 LongCat-Next,将图像、语音与文本统一映射为同源的离散 Token,使模型从学习连续空间的映射,转向学习离散 ID 之间的关系结构,并通过纯粹的下一个 Token 预测(Next Token Prediction, NTP)范式,以一种统一的方式建模各种物理信号。美团还宣布把研究思路的核心 —— LongCat-Next 模型

人人都在卷多模态,可多模态之后呢?直到今天,终于有人给出了清晰答案——而且是刚刚把多模态卷到全球第一梯队的国产玩家。不是更强的模型,而是平台。更关键的是,这个判断并非来自一次普通发布,而是出现在中关村论坛这一国家级科技创新平台之上。天工AI董事长兼CEO周亚辉在《世界模型前沿技术与天工AIGC全家桶大模型生态》发布会上分享:过去三年,第一次跃迁已经完成。从移动互联网的流量经济,进入了大模型工具时代

江宇撰写,冰倩编辑谷歌在3月26日的凌晨发布了其最新的语音和音频模型Gemini 3.1 Flash Live,这款模型已在Gemini应用、Search Live以及Google AI Studio中上线,其中包括一个开发者预览版本。此次更新主要提升了实时语音代理的功能,语音可以直接控制应用开发,Gemini App的实时多模态对话功能也得到了加强,多项测试结果表明,该模型的表现优于其他同类产品


天工AI在中关村论坛上宣布了全新的多模态产品线,包括Matrix-Game 3.0、Matrix-Video 2.0和Skywork 6.0,以及AI音乐创作与分发平台Mureka。这一系列创新产品进一步确立了天工AI在AI全模态领域的领先地位。 一水 2026-03-27

近日,多模态生成式AI公司智象未来(HiDream.ai)推出了其首款专为图片与视频领域的原生AI应用HiDreamClaw。这款产品现已在面向海外用户的个人创意工具vivago的网页版中投入使用。随着通用AI代理的不断涌现,市场焦点逐渐转向了具体应用场景。此次新产品的发布,标志着AI代理正在更多地介入到垂直内容创作领域。HiDreamClaw的核心技术基于智象未来自主研发的百亿参数级多模态大模型

多模态大模型的自信心有多强?一项由浙江大学、阿里巴巴、香港城市大学及密歇根大学的研究团队进行的实验表明:当图像逐渐变得模糊,直至几乎无法辨认时,研究者持续监测模型的准确率与置信度的变化情况。实验结果显示,准确率急剧下降,而置信度基本保持不变。这意味着,即使图像变得模糊,模型仍然会以很高的置信度给出答案。这种“盲目自信”的倾向,正是多模态大模型在复杂视觉推理中产生幻觉和误判的主要原因之一。为了解决这

浙大研究小组解决了多模态模型过度自信的问题,通过先调整置信度再优化计算资源分配来实现。 听雨 2026-03-22 15:17:19 量子位

量子位公众号QbitAI收到了一篇由MIPL团队提交的文章。当你看到一只蓝锥嘴雀的照片时,或许能辨认出它属于鸟类,但能否具体到“鸟纲-雀形目-唐纳雀科-锥嘴雀属-蓝锥嘴雀”这个分类呢?目前,即使是先进的多模态大模型也无法准确完成这一任务。实际上,自然界中的物种分类结构非常复杂,形成了从界到种的层级体系。例如,蓝锥嘴雀属于动物界-脊索动物门-鸟纲-雀形目-唐纳雀科-锥嘴雀属-蓝锥嘴雀。与传统的细粒度

一项新的研究指出,北京大学彭宇新团队利用细粒度树形结构先验,提高了多模态大模型在生物分类识别中的泛化能力,成功解决了生物类别层次识别的难题。 衡宇 2026-03-21 17:48:18 量子位