搜索: "视觉语言"

共找到 6 篇相关文章

中国团队打造全球首个人工智能超声影像大数据平台，含36.4万例图像与文字资料

超声领域迎来大型预训练模型！实时且无辐射的超声影像，已成为临床诊断的重要手段。然而，异质化的解剖结构和多样的诊断属性使得通用视觉语言预训练模型难以直接应用，加之现有医疗跨模态数据中用于超声样本的比例不足5%，成为该领域研究的关键瓶颈。为了克服这些挑战，浙大城市学院联合浙江大学、香港城市大学及多家附属医院等机构，建立了首个大规模的专用于超声影像的数据集US-365K，并提出了专门为超声设计的语义感知

科技2026/4/1317 阅读

小鹏高层人事变动：魏斌副总裁近日卸任 VLM大模型项目主要推手退出

近日，《一见Auto》报道指出，小鹏集团副总裁兼智能座舱部门负责人魏斌已辞职，此前他因家庭原因而休长假。目前，该公司的智能座舱团队与自动驾驶团队合并组建了新的通用智能中心，由刘先明负责管理。在离职之前，魏斌的主要职责是推动视觉语言模型（VLM）大模型在智能座舱中的应用。魏斌曾担任高德地图的产品总监，专注于导航和地图产品的开发。加入小鹏集团后，他主要担任互联网中心的负责人，并主导了智能座舱的研发工

科技2026/4/15 阅读

视频模型为何难以完成“从1数到10”这一任务？

目前的人工智能技术已经能够掌握电影中的视觉语言规则，但在理解和遵循现实世界的物理法则方面还存在不足。作者｜汤一涛最近一个月内，Seedance 2.0 的表现引起了广泛关注。好莱坞各公司纷纷发表声明，并且迪士尼的法律团队也向字节跳动发送了律师函。然而，当要求它生成一段男人从1数到10并用手指展示每个数字的视频时，它的缺陷就暴露无遗了。即使是专业的演员也很难分辨这是瑞安·雷诺兹还是本·斯蒂勒。好莱坞

科技2026/3/926 阅读

强大的开源平台助力14亿参数模型实现实时视频生成

在过去一年里，人们普遍认为大模型意味着更强的质量，但速度必然更慢。然而，袁粒课题组基于UniWorld-OSP2.0训练出了名为OSP-RealTime 14B的模型，在单块昇腾Atlas A3系列产品上实现了每秒生成十帧的实时文生视频效果，成为首个接近“交互式视频生成”的开源级扩散架构。UniWorld-OSP2.0通过FlashI2V解决了物理真实感问题，并利用冻结状态下的预训练视觉语言模型（

科技2026/3/823 阅读

ICRA 2026 | 中兴开放RealMirror平台，助力端到端仿真技术推广实体人工智能研发

在ICRA 2026大会上，中兴通讯发布了RealMirror平台，这是一个开放源代码的视觉语言行动平台，旨在促进具身智能的研究与应用普及。具身智能的目标是创建能够感知、理解并操作物理环境的智能体。这一领域正推动人工智能从抽象计算向更贴近人类物理行为的方向发展

AI2026/2/2631 阅读

何小鹏发布2026年开工信：今年将量产机器人与飞行汽车，启动Robotaxi网约车试点运营

2月24日，《每日经济新闻》记者获悉，小鹏汽车董事长何小鹏今日在公司内部发布了2026年开工信。在信中，何小鹏透露其春节假期一直在高频体验小鹏汽车的第二代VLA（Vision-Language-Action，视觉语言动作模型‌），并表示第二代VLA已实现复杂场景下的丝滑操控与精准决策，模型泛化能力正加速进化。“这是我们面向L4全自动驾驶时代交出的第一个版本

国内2026/2/2512 阅读