
美团进军原生多模态领域:大胆创新,将图像与语音视为Token进行预测
LongCat团队在最新研究中推出了名为LongCat-Next的模型,该模型基于先前的工作,展示了如何通过离散原生框架实现统一的理解与生成能力。这项工作证明了文字、图像和声音可以在同一Token序列中被表示。 一水 2026-04-03 14:24:01
共找到 8 篇相关文章

LongCat团队在最新研究中推出了名为LongCat-Next的模型,该模型基于先前的工作,展示了如何通过离散原生框架实现统一的理解与生成能力。这项工作证明了文字、图像和声音可以在同一Token序列中被表示。 一水 2026-04-03 14:24:01

IT之家 3 月 27 日消息,美团今日发布原生多模态大模型 LongCat-Next,将图像、语音与文本统一映射为同源的离散 Token,使模型从学习连续空间的映射,转向学习离散 ID 之间的关系结构,并通过纯粹的下一个 Token 预测(Next Token Prediction, NTP)范式,以一种统一的方式建模各种物理信号。美团还宣布把研究思路的核心 —— LongCat-Next 模型

原生,启动! 谷歌最近推出了首个原生多模态嵌入模型 Gemini Embedding 2。 这款新模型的核心创新在于,它能够将文本、图像、视频、音频和文档等不同形式的数据映射到同一个统一的嵌入空间中。 其输入能力涵盖了多种数据类型: 文本格式支持最多8192个token 图像请求可以处理6张图片,格式为PNG或JPEG 视频长度限制在120秒以内,格式包括MP4和MOV 音频可以直接嵌入,无需

在发布会上,大圣这一全新科学智能体正式亮相,它拥有原生多模态融合能力、自驱动验证机制和场景验证Skills体系。 大圣的展示涉及了药物研发案例,通过干湿闭环实验来证明AI建议的有效性。例如,在药物研发中,模型会提出候选分子,然后在自动化实验室里进行合成测试,并根据反馈迭代模型。 上海库帕思科技有限公司和上海气象局的合作展示了大圣如何以高保密性和高效的方式处理PB级数据,同时保持安全性和资源消耗的低

新智元报道深度探索V4即将在下周亮相:这款原生多模态模型将绕过英伟达,优先与国产芯片厂商合作进行深度优化。又到了见证历史时刻的时候了!据报道,深度探索V4将在下周正式推出。自上一个重大版本R1发布以来,已经过去了一年多的时间。在这一年里,AI领域风云变幻,OpenAI连续推出了几代GPT模型,Anthropic的Claude成功进入顶级阵营,谷歌的Gemini也经历了快速迭代。整个硅谷都在投入数百

新智元报道最近,一系列重磅消息接连传出。首先,DeepSeek V4预计将在一周内发布。据多方渠道透露,DeepSeek V4即将上线!目前,DeepSeek V4 Lite已经在至少一家推理服务商中进行测试,相关信息如下:该模型代号为Sealion-lite,拥有100万token的上下文窗口,相较于网页版或应用内版本更为出色,并且是原生多模态模型。同时,一张对比图在网络上迅速传播开来,展示了D

2月26日,全球最大AI开源社区Hugging Face发布了最新的排行榜,阿里千问3.5模型包揽了前四名的位置,成为全球最热门的开源模型之一。据了解,新上榜的三款中型千问3.5模型在多个榜单中的表现均明显优于GPT-5 mini,并且其原生多模态能力和代理功能强大,性能达到了中等尺寸模型的新高度。部分模型甚至可以直接部署在消费级显卡上,在开源不到24小时内便成功登顶。最新一期全球开源模型排行榜显

千问3.5在Hugging Face社区中位居榜首,前十名开源模型中有八款来自中国 于2月24日,全球最大的AI开放平台Hugging Face发布了最新的开源大模型排行榜,其中阿里巴巴最新发布的原生多模态模型千问3.5荣登榜首。该模型自除夕夜发布以来,迅速引起