搜索: "多模态架构"

共找到 6 篇相关文章

商汤SenseNova U1深度拆解，原生统一架构终结缝合时代

当 AI 行业的目光集中在 Agent、工具调用、长程任务这些上层应用之时，底层的多模态架构正在经历一次更安静、也更彻底的范式转变 —— 它要回答的是一个看似朴素的问题：理解与生成，是否天生就该是两件事长期以来，多模态系统大都是拼起来的 —— 感知与理解、生成各自承担一部分能力，再把它们串起来跑。问题也很明显：理解通过预训练视觉编码器（VE）实现，生成依赖变分自编码器（VAE），两套系统的学习目标

科技2026/5/162 阅读

商汤最强Lite模型来了，Token消耗直降60%，限时免费调用

智东西作者杨京丽编辑李水青智东西5月8日报道，今天，商汤科技发布新一代轻量化多模态智能体模型——日日新SenseNova 6.7 Flash-Lite，同时SenseNova Token Plan限时免费开放，全线办公技能SenseNova-Skills在GitHub开源。SenseNova 6.7 Flash-Lite通过原生多模态架构，长链路办公任务成本大幅降低，在信息搜索等场景中

科技2026/5/92 阅读

阿里推出全新应用「欢乐马」，抢先体验潜力新星

隐藏在幕后的「欢乐马」终于揭开了它的面纱。4月27日，阿里ATH团队发布了视频生成模型HappyHorse 1.0的首个版本。这款模型基于原生多模态架构设计，不仅能同时处理音视频内容，还能实现创作和编辑的一站式服务，免去了繁琐的操作过程。此前它在知名AI评测平台Artificial Analysis上的表现备受关注，无论是文字生成视频还是图像转换成视频，均获得了第一名的佳绩，使Seedance 2

科技2026/4/285 阅读

最新消息：阿里巴巴推出全新世界模型“欢乐蚝”，探索视频创造的新纪元

最近，阿里ATH创新事业部对外宣布了他们的首款开放式世界模型HappyOyster。该模型基于多模态架构设计，具备音视频生成、场景理解和实时互动等功能。用户只需输入文本或图像信息，即可构建一个持续运行的虚拟物理空间。在这个空间里，各种元素如光照、重力以及物体运动遵循时间和逻辑上的连续性。举例来说，在HappyOyster中创建的角色和背景可以随着视角变换而保持一致性。与传统的生成视频流程不同，这款

科技2026/4/173 阅读

商汤革新多模态技术：摒弃传统VE与VAE架构中的中间编码器

多模态大模型的研发方式正在经历全面革新。今天，商汤科技与南洋理工大学共同发布了最新技术成果NEO-unify。这是一个实现了“原生、统一、端到端”的多模态架构，其最突出的创新在于：彻底摒弃了传统的视觉编码器（VE）和变分自编码器（VAE）。不再依赖组件拼凑来完成感知与生成任务，而是直接以近乎无损的形式处理像素和文字。通过独特的混合变换器（Mixture-of-Transformer, Mo

AI2026/3/825 阅读

商汤发布创新多模态架构，挑战全球模型界权威，实现无编码器图像处理技术革新

本文由智东西陈骏达撰写，李水青编辑。近日，商汤科技发布了一篇最新技术博客《NEO-unify：原生架构促进端到端多模态理解和生成统一》，介绍了他们研发的全新模型架构。该模型通过在底层整合多种模式的理解与生成，实现了更高的训练效率和数据处理能力。当前的技术趋势显示，大多数多模态系统会采用视觉编码器来理解图像信息，并利用变分自编码器进行内容创作。这种方法尽管有效，但在模块间的协作上却存在一些局限性。N

科技2026/3/77 阅读