
医学视频解析大型模型首次开放源代码!精标测试数据集突破6000组/英雄榜单启动
近日,一个名为“元智医疗视频理解大模型”的新工具在GitHub和Hugging Face社区上线。该工具是全球规模最大的医疗视频理解模型之一,并且它的性能指标也达到了行业顶尖水平。其中一项令人瞩目的特性在于其能够解析并理解手术视频内容,这一突破性进展已经在计算机视觉领域的顶级会议CVPR上得到了认可。此外,该研究团队还发布了一套包含6245个视频-指令对的标准测试集,旨在为医疗视频的理解提供一个通
共找到 17 篇相关文章

近日,一个名为“元智医疗视频理解大模型”的新工具在GitHub和Hugging Face社区上线。该工具是全球规模最大的医疗视频理解模型之一,并且它的性能指标也达到了行业顶尖水平。其中一项令人瞩目的特性在于其能够解析并理解手术视频内容,这一突破性进展已经在计算机视觉领域的顶级会议CVPR上得到了认可。此外,该研究团队还发布了一套包含6245个视频-指令对的标准测试集,旨在为医疗视频的理解提供一个通

新智元报道NVIDIA 最近发布了 Lyra 2.0 并将其完全开源,与谷歌保守的技术态度形成鲜明对比。Lyra 2.0 简化了去噪步骤并提升了图像到3D世界转换的效率。AI 技术封闭的时代即将过去。想象一下,你有没有想过能通过一张旧照片重新体验过去的场景?在以前这可能是电影《盗梦空间》中的情节。然而今天,它已经成为现实的一部分。NVIDIA 宣布了一个重大消息:开源 Lyra 2.0 的全部代码

全球首款医疗视频理解大模型现已开放源代码,同步推出一个包含6000多组精细标注的测试集。 田, 晏林 2026-04-26 13:24:56 量子位

今日,DeepSeek的最新模型DeepSeek-V4预览版正式对外发布,并且同步开放源代码。受到这一消息的影响,国内人工智能芯片股集体上涨。海光信息股价攀升6.77%,寒武纪涨幅为1.28%;上证科创板芯片指数强势上升2.72%,科创芯片ETF易方达也增长了2.87%。DeepSeek-V4具备百万级长文本处理能力,在代理功能、知识库和推理性能方面均处于国内及开源领域的领先地位。该模型提供两个版

昨日夜间,千问3.6系列的最新版本Qwen3.6-27B正式对外开放源代码。据官方披露,这款模型凭借其庞大的参数规模,在核心编程能力评估中表现出色,与拥有千亿级参数量级别的模型不相上下。在多项权威基准测试如SWE-bench、Terminal-Bench 2.0、SkillsBench、QwenWebBench及NL2Repo等真实世界智能体编程技能评价体系中,该模型均取得了卓越的成绩。目前,开源

4月23日,腾讯发布了混元 Hy3 preview 语言模型,并宣布将其开源。该模型结合了快慢思考的特点,拥有总计2950亿参数和激活参数210亿,能够处理长达256K的上下文长度。腾讯官方透露,在今年二月,腾讯对预训练及强化学习的基础架构进行了重建,并确立了三个追求实用性的准则:能力系统化、评估真实性以及性价比。Hy3 preview 是在此次基础建设改进之后生成的第一个模型,也是迄今为止混元系

4月19日,阿里巴巴集团旗下的高德宣布推出面向AGI的全栈具身智能技术体系ABot,并决定将其全面开源。当天,在北京亦庄举行的机器人半程马拉松活动中,基于此技术架构研发的第一款四足机器人——高德途途将进行公开测试,重点展示其在复杂环境中的避障能力和人群间穿梭的能力。该技术体系采用了闭环模式运行机制,并且包括了数据、模型和应用三个层次。据透露,在15个行业的基准测试中,ABot系列已经取得了领先地位


目前,生成一个互动性的三维空间已经不再是新鲜事了,但如何将庞大的虚拟世界嵌入到普通用户的手机浏览器中却是个挑战。最近,李飞飞领导的人工智能公司 World Labs 推出了他们的最新成果 Spark 2.0,并将其开放源代码。这款专门为网页设计的动态三维高斯点云(3DGS)渲染引擎,能够让任何设备上的浏览器流畅运行上亿粒子的大规模三维场景,这在以前是难以想象的。把如此庞大的三维世界塞进手机里为什么
近日,国产大模型公司MiniMax宣布,其最新版本的MiniMax M2.7于4月12日在全球范围内开放源代码。华为昇腾、摩尔线程、沐曦、昆仑芯、NVIDIA等国内外芯片制造商以及TogetherAI、Fireworks、Ollama等多个推理平台,在开源首日便迅速完成了模型接入与推理适配工作。三周前,MiniMax M2.7正式上线。该版本具备自我进化的能力,并能够构建复杂的智能体控制框架(Ag


据快科技4月10日的消息,在3月底智谱公司发布了GLM-5.1大模型,该模型在编程能力方面的评分达到了45.3分,并声称仅比全球领先的Opus 4.6低2.6分。不久前,GLM-5.1大模型正式向公众开放源代码,受到了开发者的广泛欢迎。最近,权威的人工智能评估平台LMArena(由百万用户参与盲测)更新了Code Arena的专项排名表,显示GLM-5.1在开源模型中位居第一,在全球所有模型中的排

甲子光年最近与黄超、任旭滨进行了深入对话,探讨了AI技术的最新进展和未来趋势。作者|王博 周悦在访谈中,两人详细讨论了他们创建OpenClaw项目的初衷以及它在解决现有Agent问题中的作用。黄超解释说,OpenClaw项目旨在提供一种更高效、更灵活的方法来构建和管理代码智能体,以满足开发者社区的真实需求。任旭滨补充道:“通过开源我们能够更快地获取反馈并进行迭代优化。”对话中还提及了LightRA

4月7日,京东探索研究院对外发布了其自主研发的JoyAI-Image-Edit图像处理模型,并宣布将其开源。此款模型是业界首个深度融合“空间智能”的开放源代码解决方案,它使人工智能技术能够理解和编辑三维空间,超越了以往仅限于平面修改的能力。开发者可以直接利用该模型创建各种应用。JoyAI-Image-Edit 模型全面模拟真实世界的空间结构规律,在多个方面进行了建模,包括视角一致性、相机感知和场景

据报道,在中美两国的AI技术差异中,美国企业倾向于采用封闭源代码的方式,而OpenAI也因此被戏称为ClosedAI。相比之下,中国的科技企业则大多采取开放源代码的策略。无论是阿里巴巴的Qwen,还是深度求索的DeepSeek,抑或是智谱的GLM、稀宇的MiniMax,以及月之暗面的Kimi等,全球范围内开源的AI大模型大多由中国公司主导。国产开源AI大模型不仅降低了全球用户的使用成本,还吸引了美

YuanLab.ai团队近日正式发布了源Yuan3.0 Ultra多模态基础大模型的开源代码。 作为源3.0系列中的旗舰产品,源Yuan3.0 Ultra是全球少数几个可以公开获取的万亿级参数规模的大模型之一。 源Yuan3.0 Ultra在设计上引入了混合专家(MoE)架构,并针对企业应用和智能体工具调用进行了优化,在多模态文档理解、检索增强生成、表格数据分析以及内容摘要等方面表现出色。 这些能

在ICRA 2026大会上,中兴通讯发布了RealMirror平台,这是一个开放源代码的视觉语言行动平台,旨在促进具身智能的研究与应用普及。 具身智能的目标是创建能够感知、理解并操作物理环境的智能体。这一领域正推动人工智能从抽象计算向更贴近人类物理行为的方向发展