搜索: "多模态"

共找到 53 篇相关文章

FOCUS 关键帧提取:长视频理解能力提升11.9%,只需采样<2% 帧

FOCUS 关键帧提取:长视频理解能力提升11.9%,只需采样<2% 帧

本文第一作者朱子瑞为新加坡国立大学四年级博士生,本科毕业于清华大学,研究方向为多模态大模型和后训练优化。通讯作者为 TikTok 内容智能负责人 Kanchan Sarkar、Meta杨振恒博士(相关工作完成于其在 TikTok 任职期间)以及新加坡国立大学校长青年教授尤洋老师。文章速览长视频会使 MLLM 的视觉 token 规模快速增长,但推理阶段的计算与上下文预算有限,难以对全量帧进行处理。

科技3 阅读
上海语音Agent团队融资近亿,浙大校友创办

上海语音Agent团队融资近亿,浙大校友创办

AI应用风向标(公众号:ZhidxcomAI)作者|江宇编辑|漠影智东西2月28日报道,昨日,上海多模态Agent创企VUI Labs(宇生月伴)宣布完成数千万元天使+轮融资。本轮由同创伟业领投,老股东靖亚资本、小苗朗程持续加注,心流资本FlowCapital担任长期财务顾问。据企查查公开信息显示,其此前融资经历如下:2025年8月18日,VUI Labs完成天使轮融资,融资金额为数千万元,投资方

科技3 阅读
巴展前瞻:马斯克星链进军通信核心领域,巨头争夺AI终端市场,智能将成为生存关键

巴展前瞻:马斯克星链进军通信核心领域,巨头争夺AI终端市场,智能将成为生存关键

AI入局,通信升维。2026年3月2日,备受关注的世界移动通信大会(MWC)将在西班牙巴塞罗那拉开帷幕。本届大会的主题是“IQ时代(The IQ Era)”。“网速更快”不再是比拼的重点,如今的核心悬念在于谁的设备更加智能。在此届展会中,除了常规旗舰机型更新外,自研芯片、多模态交互穿戴设备以及形态创新终端将成为探索智能设备新领域的重要展品。这些技术共同构成了本届大会关注智慧硬件发展趋势的主要方向。

科技4 阅读
Seedance2.0火爆之后,另一款中国新秀荣登AA榜单榜首!传统风味回归

Seedance2.0火爆之后,另一款中国新秀荣登AA榜单榜首!传统风味回归

新智元报道昆仑万维的SkyReels-V4是最新发布的视频生成模型,在全球AI竞赛中名列前茅。这款产品在众多竞争者中脱颖而出,其背后的技术革新令人瞩目。SkyReels-V4不仅具有卓越的功能性,还在创意和实际应用方面展现了巨大潜力。其核心竞争力在于全面的多模态输入能力和音视频联合生成技术。这种能力涵盖了从文本、图像到音频等多样化的数据类型组合使用,为用户提供了一个全新的创作工具平台。此外,Sky

科技2 阅读
上海交大与深势科技推出Innovator-VL:引领科学大模型新时代

上海交大与深势科技推出Innovator-VL:引领科学大模型新时代

在当前通用大模型(LLM)迅速发展的背景下,AI for Science(科学智能)正成为人工智能领域新的竞争焦点。然而,科研人员面临的现实是严峻的:现有的多模态科学模型通常依赖于海量且难以获取的数据,并且训练过程如同“黑箱”,不易复现和改进。我们是否真的需要大量数据来教会AI理解科学?近日,上海交通大学、深势科技(DP Technology)、记忆张量(MemTensor)及中国科学院理论物理研

科技3 阅读
DeepSeek V4即将发布 美国感到恐慌 据称绕过了英伟达的限制 在国内优先使用 机密参数已被曝光

DeepSeek V4即将发布 美国感到恐慌 据称绕过了英伟达的限制 在国内优先使用 机密参数已被曝光

新智元报道最近,一系列重磅消息接连传出。首先,DeepSeek V4预计将在一周内发布。据多方渠道透露,DeepSeek V4即将上线!目前,DeepSeek V4 Lite已经在至少一家推理服务商中进行测试,相关信息如下:该模型代号为Sealion-lite,拥有100万token的上下文窗口,相较于网页版或应用内版本更为出色,并且是原生多模态模型。同时,一张对比图在网络上迅速传播开来,展示了D

科技8 阅读
千问3.5荣登全球开源大模型排行榜第四,仅用十分钟完成五小时内编程任务

千问3.5荣登全球开源大模型排行榜第四,仅用十分钟完成五小时内编程任务

2月26日,全球最大AI开源社区Hugging Face发布了最新的排行榜,阿里千问3.5模型包揽了前四名的位置,成为全球最热门的开源模型之一。据了解,新上榜的三款中型千问3.5模型在多个榜单中的表现均明显优于GPT-5 mini,并且其原生多模态能力和代理功能强大,性能达到了中等尺寸模型的新高度。部分模型甚至可以直接部署在消费级显卡上,在开源不到24小时内便成功登顶。最新一期全球开源模型排行榜显

AI4 阅读
ICLR 2026:新一代图灵测试——VLA技术在生物实验室的应用

ICLR 2026:新一代图灵测试——VLA技术在生物实验室的应用

目前对 VLA 模型的研究和测试大多集中在家用场景(如摆放餐具、折叠衣物),而对于专业科学环境,特别是生物实验室的应用则较少探索。生物实验室因其流程结构化、操作精度高以及多模态交互复杂等特点,是评估 VLA 模型在精确操作、视觉推理及指令执行能力方面的理想场地。最近,香港大学MMLAB 罗平教授团队和上海交通大学穆尧教授团队合作的项目“AutoBio”已被 ICLR 2026 接受,并且获得了同行

科技10 阅读
港中文与美团合作为Agent引入「过程评分」解决稀疏奖励问题

港中文与美团合作为Agent引入「过程评分」解决稀疏奖励问题

在许多大型模型及代理的训练过程中,常见的方式是仅依据结果来判断:如果最终答案正确,则给予奖励;反之则得零分。对于简单的问答任务,这种方法尚可适用;但当涉及到需要多轮对话、搜索和编写代码等复杂过程的任务时,这种评价方式就显得过于简化了。因此,在差之毫厘的情况下与一开始就走错方向的情况之间,仅凭结果评判无法区分其优劣;训练过程中也无法识别出哪些失败更为关键,人工细粒度的评分又难以应对开放环境和多模态任

科技8 阅读
千问3.5荣膺Hugging Face榜首,开源模型前十中八席来自中国

千问3.5荣膺Hugging Face榜首,开源模型前十中八席来自中国

千问3.5在Hugging Face社区中位居榜首,前十名开源模型中有八款来自中国 于2月24日,全球最大的AI开放平台Hugging Face发布了最新的开源大模型排行榜,其中阿里巴巴最新发布的原生多模态模型千问3.5荣登榜首。该模型自除夕夜发布以来,迅速引起

AI9 阅读
清华发布全球首个人工智能评估标准“约束流形”, Gemini 3仅获33.6分

清华发布全球首个人工智能评估标准“约束流形”, Gemini 3仅获33.6分

新智元报道SSI-Bench是首个专注于评估模型在约束流形中空间推理能力的基准,强调真实结构和具体限制条件,通过排序任务来考察模型对三维几何与拓扑关系的理解程度,揭示了当前大模型在处理实际空间问题时严重依赖二维信息的情况,并且其表现远逊于人类。如果将一个在空间理解榜单中得分很高的多模态大型模型直接放置于现实世界环境中,它很可能会在看似简单的任务上遇到困难。

科技28 阅读
冯骥才盛赞“地表最强”、Tim连声惊叹“震撼”,字节跳动Seedance 2.0见证AI盛宴与信任浪潮

冯骥才盛赞“地表最强”、Tim连声惊叹“震撼”,字节跳动Seedance 2.0见证AI盛宴与信任浪潮

在2026年的开端,视频生成模型继续引发广泛关注。游戏科学创始人冯骥在微博上发布了一篇长文,分享了他体验字节跳动最新视频生成模型Seedance 2.0后的感受,形容其为“地表最强”,并感叹“AIGC的婴儿期已经结束”。冯骥认为,目前Seedance 2.0具有领先性、全能性和低门槛特性,能够大幅提升产能和推动视频普及。这得益于它在理解多模态信息(包括文字

国内30 阅读