
医学视频解析大型模型首次开放源代码!精标测试数据集突破6000组/英雄榜单启动
近日,一个名为“元智医疗视频理解大模型”的新工具在GitHub和Hugging Face社区上线。该工具是全球规模最大的医疗视频理解模型之一,并且它的性能指标也达到了行业顶尖水平。其中一项令人瞩目的特性在于其能够解析并理解手术视频内容,这一突破性进展已经在计算机视觉领域的顶级会议CVPR上得到了认可。此外,该研究团队还发布了一套包含6245个视频-指令对的标准测试集,旨在为医疗视频的理解提供一个通
共找到 9 篇相关文章

近日,一个名为“元智医疗视频理解大模型”的新工具在GitHub和Hugging Face社区上线。该工具是全球规模最大的医疗视频理解模型之一,并且它的性能指标也达到了行业顶尖水平。其中一项令人瞩目的特性在于其能够解析并理解手术视频内容,这一突破性进展已经在计算机视觉领域的顶级会议CVPR上得到了认可。此外,该研究团队还发布了一套包含6245个视频-指令对的标准测试集,旨在为医疗视频的理解提供一个通

全球首款医疗视频理解大模型现已开放源代码,同步推出一个包含6000多组精细标注的测试集。 田, 晏林 2026-04-26 13:24:56 量子位

复旦大学、上海创智学院和新加坡国立大学共同提出了HERMES,这是一种无需训练的流式视频理解框架。该框架将KV Cache重构为层次化记忆系统,能够在用户提问时直接利用缓存进行回答而不需要额外检索或计算。实验结果表明,在多个流式及离线视频基准测试中,与均匀采样相比,HERMES在减少68%的视频token情况下仍能达到相似甚至更好的理解性能;特别是在流式数据集上,它带来了11.4%的最大增益,并实

最近,商汤科技联合创始人兼首席科学家林达华教授荣获了第四届中银香港科技创新奖(人工智能及机器人领域),以表彰他在科研创新和成果转化方面的杰出贡献。林达华教授在计算机视觉与多模态智能领域的系统性创新,在图像视频理解、大规模多模态模型以及空间智能等方面取得了许多突破,促进了关键核心技术的自主创新与开源生态建设,并推动了人工智能研究成果的应用,为中国的人工智能技术进步和产业升级作出了重要贡献。林达华教授

最近,理想公司发布了一项新的技术突破——一款结合了流式视频理解和具身智能的新型Agent框架StreamingClaw。该系统不再像传统的“龙虾”那样只是盯着屏幕玩电脑,在实际应用中已经能够主动介入用户的生活与工作场景之中。StreamingClaw在确保兼容OpenClaw的基础上,新增了实时多模态流式交互的支持功能。这种改进使得系统可以像人类一样,在接收到视觉输入时即时进行处理并生成反馈。例如

在多模态内容的理解和生成领域,统一的多模型已经显示出显著的效果,但这些成果主要集中在图像处理上。近日,滑铁卢大学与快手可灵团队共同研发出了一种名为 UniVideo 的创新性系统。该系统能够在单一框架下执行视频理解、创建及编辑任务,并且基于一个多模态生成模型构建而成。UniVideo 采用双通道结构设计,将大规模多模态语言模型(MLLM)的指令理解和推理能力与多模态扩散 Transformer(M

本文的主要作者是王赞毅,他曾于西安交通大学取得学士学位,并现为加州大学圣迭戈分校(UCSD)电气与计算机工程系的一名硕士生。他的研究集中在视频理解以及生成式建模领域。这项工作是他实习期间,在国家电网思极AI实验室(SGIT AI Lab)完成的成果。计算机视觉长久以来一直执着于如何更有效地表征动态世界的复杂性,试图通过精心设计的各种编码器来压缩现实中的信息。然而,视频作为一种复杂的高维数据集,其内

新智元报道【新智元导读】Meta联合多所高校发布首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU ,让多模态大模型首次真正「听懂世界」。现在最强的多模态大模型,虽然能接收声音和视频输入,但无法做到真正的「同时理解」。在第一视角视频任务中,模型经常会出现各种问题,比如完全忽略音频信息、错误判断声源位置、用视觉线索「猜声音」,也就是说,现在的多模态大模型只会看,但不会听。而这正是当前具身智

本文第一作者朱子瑞为新加坡国立大学四年级博士生,本科毕业于清华大学,研究方向为多模态大模型和后训练优化。通讯作者为 TikTok 内容智能负责人 Kanchan Sarkar、Meta杨振恒博士(相关工作完成于其在 TikTok 任职期间)以及新加坡国立大学校长青年教授尤洋老师。文章速览长视频会使 MLLM 的视觉 token 规模快速增长,但推理阶段的计算与上下文预算有限,难以对全量帧进行处理。