
阿里发布Qwen3.5-Omni,多模态能力超越Gemini-3.1 Pro
阿里发布Qwen3.5-Omni,多模态能力超越Gemini-3.1 Pro 量子位的朋友们 2026-03-30 22:21:45 量子位
共找到 96 篇相关文章

阿里发布Qwen3.5-Omni,多模态能力超越Gemini-3.1 Pro 量子位的朋友们 2026-03-30 22:21:45 量子位

新智元报道【新智元导读】语音AI最烦人的一句话,可能终于要被谷歌干掉了。Gemini 3.1 Flash Live 正在逼近「像人与人说话那样响应」的体验:不仅更快、更自然,连在交通声、电视声这样的真实噪音里,也更能听清你在说什么。刚刚,谷歌把语音AI最烦人的一句话狠狠干掉了:「请再说一次。」这次谷歌新发布的 Gemini 3.1 Flash Live,直接瞄准了现实生活中最乱、最吵的那些场景。h

【新智元导读】语音AI最烦人的一句话,可能终于要被谷歌干掉了。Gemini 3.1 Flash Live 正在逼近「像人与人说话那样响应」的体验:不仅更快、更自然,连在交通声、电视声这样的真实噪音里,也更能听清你在说什么。刚刚,谷歌把语音AI最烦人的一句话狠狠干掉了:「请再说一次。」这次谷歌新发布的 Gemini 3.1 Flash Live,直接瞄准了现实生活中最乱、最吵的那些场景。https:

江宇撰写,冰倩编辑谷歌在3月26日的凌晨发布了其最新的语音和音频模型Gemini 3.1 Flash Live,这款模型已在Gemini应用、Search Live以及Google AI Studio中上线,其中包括一个开发者预览版本。此次更新主要提升了实时语音代理的功能,语音可以直接控制应用开发,Gemini App的实时多模态对话功能也得到了加强,多项测试结果表明,该模型的表现优于其他同类产品

近日,硅谷初创企业Luma AI发布了其最新图像模型Uni-1,该模型结合了图像理解和图像生成的功能,具有强大的思考和创作能力。据测试结果显示,Uni-1的性能与Google的Gemini 3 Pro相当,在高分辨率图像生成方面成本降低了大约10%到30%,并且在空间理解能力方面超越了谷歌Nano Banana 2和OpenAI GPT Image 1.5。Luma AI成立于2021年,最初以D

当遇到棘手问题时,借用谷歌的力量或许是个不错的选择。最近,Meta公司遭遇了一些挫折,最明显的例子就是新模型“牛油果”的开发进度被推迟。这一推迟的原因相当直接,模型的性能没有达到预期目标,它甚至还不如去年三月发布的Gemini 2.5,更不用说去年十一月的Gemini 3.0了。在一些内部讨论中,有一项被忽视的细节是,公司高层曾考虑过在“牛油果”尚未准备好之前,先使用Gemini作为过渡方案。今年

Gemini加密货币交易所的股票在盘后交易中显著上涨,原因是信用卡使用率上升和费用结构的调整,以及该公司公布的强劲第四季度业绩。Gemini在周四披露,其第四季度营收同比增长39%,达到了6030万美元,这一数字超过了分析师预期的5170万美元。Gemini报告称,第四季度净亏损为1.408亿美元,相比去年同期的2700万美元亏损进一步扩大。全年亏损总额为5.85亿美元,高于2024年的1.566

Gemini正因其九月首次公开募股期间和之后对投资者的误导行为,在纽约遭遇一起拟议集体诉讼。该诉讼由股东于本周四在曼哈顿联邦法院提起,针对Gemini、其联合创始人泰勒和卡梅伦·温克莱沃斯,以及公司的其他高级管理人员。原告马克·梅斯文指出,Gemini在其IPO文件中声称是一家致力于扩大用户基础和国际布局的加密货币交易平台,但事实上却突然转向了预测市场的商业模式。Gemini于九月在纳斯达克上市,

Gemini助力谷歌地图革新!出行攻略一键搞定,网友热议垂直应用将被淘汰 听雨 2026-03-14 18:48:10 量子位 今

据报道,谷歌正在将其Gemini人工智能技术融入地图服务的一项新功能中。该公司正积极地将AI工具更深入地集成到其广泛的产品线中。谷歌地图的高级副总裁米里亚姆·丹尼尔在一篇博文中透露,名为“询问地图”的新按钮将配备一个聊天机器人,使用户能够提出超出常规导航范围的问题。用户现在可以询问诸如“哪里有提供充电服务且无需排队购买咖啡的地方?”或“今天晚上是否有带灯光的公共网球场可供使用?”等问题。谷歌声称

在3月10日,硅谷知名风险投资公司Andreessen Horowitz(a16z)公布了第六次发布的《Top 100 Gen AI Consumer Apps》榜单。作为中国唯一上榜的AI浏览器,QQ浏览器与ChatGPT、Gemini和DeepSeek一同进入了全球顶级行列。 这份榜单依据SimilarWeb提供的网站访问量数据以及Sensor Tower的月度活

全球加密货币合作伙伴项目由万事达卡发起,该项目集合了数字资产与支付行业内的85多家企业,共同推进区块链支付清算系统的建设。通过这项计划,旨在促进加密公司、金融机构及支付服务提供商之间的合作,随着数字货币在国际转账和支付等领域的作用日益突出。其中包括币安、Circle、Gemini、Paxos、Ripple等知名交易所以及Polygon、Solana、Crypto.com等区块链网络和相关基础设施供

新智元报道谷歌近日发布了首个原生全模态 Embedding 模型 Gemini Embedding 2,它实现了文本、图像、音频视频以及 PDF 的无缝整合,构成了一个统一的向量空间,显著提升了检索效率。类似于生成式 AI 大模型在表达方面的功能(即“嘴”),Embedding 模型则扮演着理解和检索的角色,也就是负责记忆的部分。过去,这种记忆机制一直处在分裂的状态之中。Gemini API 已经

原生,启动! 谷歌最近推出了首个原生多模态嵌入模型 Gemini Embedding 2。 这款新模型的核心创新在于,它能够将文本、图像、视频、音频和文档等不同形式的数据映射到同一个统一的嵌入空间中。 其输入能力涵盖了多种数据类型: 文本格式支持最多8192个token 图像请求可以处理6张图片,格式为PNG或JPEG 视频长度限制在120秒以内,格式包括MP4和MOV 音频可以直接嵌入,无需

这是一次关于AI技术发展及其对软件工程影响的深入对话,探讨了从模型设计到应用实践等多个方面。 本次访谈中,Jeff Dean分享了他对当前大语言模型的看法,并强调了未来的发展趋势。 在讨论多模态能力时,Dean指出,早期强调视频输入是为模型提供最高带宽的沟通方式。 关于Gemini项目的起源和进展,Dean提到多个团队独立研发算力分散的问题及整合后的成果。 谈话中还探讨了在编程任务上使用AI助手

最近,一些顶级通用大模型参与了三项特殊的专业“工业执业考试”。结果令人惊讶:即便是像GPT-5.2 Thinking (high) 和Gemini-3.1-Pro这样在业界具有领先地位的选手,在面对真实的工业工程环境时也显得力不从心。能够写诗、编程的通用AI为何无法解决一条生产线的问题?答案隐藏在一个低调但备受瞩目的工业AI公司——思谋科技,及其自主研发的专为工业设计的大模型IndustryGPT

大模型能撰写论文,但它们是否真正理解科研的本质呢? 实际上,在许多情况下,人工智能只是在模仿科学家的行为——引用文献、列出逻辑和规范格式,看起来非常专业。然而,深入探究后会发现其中充满漏洞:推理往往凭空编造,推导依赖猜测,结论的正确性全靠运气决定。 近期,发布过BabyVision多模态评估基准的UniPat AI团队推出了一项引人注目的开源项目: UniScientist。 虽然这个模型仅有30

报!龙虾更新了! 最近,新的OpenClaw测试版(版本号为2026.3.7)已经迅速上线,并包含了最新的GPT-5.4和Gemini Flash 3.1模型。 此次更新还带来了以下改进: 在重启后,ACP绑定依然能够保留。 精简版Docker支持多阶段构建。 新增了用于网关认证的SecretRef功能。 可插拔的上下文引擎 支持HEIF图像格式 修复Zalo渠道问题 其中最受关注的是可插拔

最近,一些顶尖的通用人工智能模型参与了三项特殊的工业技能测试。 测试结果令人惊讶:即使是像GPT-5.2 Thinking (high)和Gemini-3.1-Pro这样的佼佼者,在面对实际工业环境时也显得力不从心。 为什么这些能写诗、编程的通用AI却难以应对生产线上的挑战? 答案隐藏在一家专注于工业人工智能领域的新兴企业——思谋科技及其自主研发的大模型IndustryGPT中,后者专门针对工业场

林俊旸深夜发文“告别”千问,在AI圈中引起轩然大波,也让“周浩”这个名字进入公众视野。2026年1月,周浩低调加入阿里,第一站不是通义实验室,而是先挂靠在夸克。在夸克短暂过渡之后,周浩随即转入通义实验室,接替同日离职的后训练负责人郁博文,汇报线直接拉到阿里云 CTO、通义实验室负责人周靖人。周浩本科毕业于中国科学技术大学,2019年在威斯康星大学麦迪逊分校取得机器学习与计算机视觉方向的博士学位,随