搜索: "原生多模态"

共找到 8 篇相关文章

美团发布开源原生多模态大模型 LongCat-Next

美团发布开源原生多模态大模型 LongCat-Next

IT之家 3 月 27 日消息,美团今日发布原生多模态大模型 LongCat-Next,将图像、语音与文本统一映射为同源的离散 Token,使模型从学习连续空间的映射,转向学习离散 ID 之间的关系结构,并通过纯粹的下一个 Token 预测(Next Token Prediction, NTP)范式,以一种统一的方式建模各种物理信号。美团还宣布把研究思路的核心 —— LongCat-Next 模型

科技2 阅读
谷歌突破性技术:融合文本、图像、视频与音频的全新龙虾也能理解的多媒体空间

谷歌突破性技术:融合文本、图像、视频与音频的全新龙虾也能理解的多媒体空间

原生,启动! 谷歌最近推出了首个原生多模态嵌入模型 Gemini Embedding 2。 这款新模型的核心创新在于,它能够将文本、图像、视频、音频和文档等不同形式的数据映射到同一个统一的嵌入空间中。 其输入能力涵盖了多种数据类型: 文本格式支持最多8192个token 图像请求可以处理6张图片,格式为PNG或JPEG 视频长度限制在120秒以内,格式包括MP4和MOV 音频可以直接嵌入,无需

AI1 阅读
上海年轻学者研发出学术领域的开放型机械臂项目

上海年轻学者研发出学术领域的开放型机械臂项目

在发布会上,大圣这一全新科学智能体正式亮相,它拥有原生多模态融合能力、自驱动验证机制和场景验证Skills体系。 大圣的展示涉及了药物研发案例,通过干湿闭环实验来证明AI建议的有效性。例如,在药物研发中,模型会提出候选分子,然后在自动化实验室里进行合成测试,并根据反馈迭代模型。 上海库帕思科技有限公司和上海气象局的合作展示了大圣如何以高保密性和高效的方式处理PB级数据,同时保持安全性和资源消耗的低

AI2 阅读
下周见证DeepSeek V4问世,美股或将再掀波澜!避开英伟达,寻找五十分之一价格的机遇

下周见证DeepSeek V4问世,美股或将再掀波澜!避开英伟达,寻找五十分之一价格的机遇

新智元报道深度探索V4即将在下周亮相:这款原生多模态模型将绕过英伟达,优先与国产芯片厂商合作进行深度优化。又到了见证历史时刻的时候了!据报道,深度探索V4将在下周正式推出。自上一个重大版本R1发布以来,已经过去了一年多的时间。在这一年里,AI领域风云变幻,OpenAI连续推出了几代GPT模型,Anthropic的Claude成功进入顶级阵营,谷歌的Gemini也经历了快速迭代。整个硅谷都在投入数百

科技1 阅读
DeepSeek V4即将发布 美国感到恐慌 据称绕过了英伟达的限制 在国内优先使用 机密参数已被曝光

DeepSeek V4即将发布 美国感到恐慌 据称绕过了英伟达的限制 在国内优先使用 机密参数已被曝光

新智元报道最近,一系列重磅消息接连传出。首先,DeepSeek V4预计将在一周内发布。据多方渠道透露,DeepSeek V4即将上线!目前,DeepSeek V4 Lite已经在至少一家推理服务商中进行测试,相关信息如下:该模型代号为Sealion-lite,拥有100万token的上下文窗口,相较于网页版或应用内版本更为出色,并且是原生多模态模型。同时,一张对比图在网络上迅速传播开来,展示了D

科技7 阅读
千问3.5荣登全球开源大模型排行榜第四,仅用十分钟完成五小时内编程任务

千问3.5荣登全球开源大模型排行榜第四,仅用十分钟完成五小时内编程任务

2月26日,全球最大AI开源社区Hugging Face发布了最新的排行榜,阿里千问3.5模型包揽了前四名的位置,成为全球最热门的开源模型之一。据了解,新上榜的三款中型千问3.5模型在多个榜单中的表现均明显优于GPT-5 mini,并且其原生多模态能力和代理功能强大,性能达到了中等尺寸模型的新高度。部分模型甚至可以直接部署在消费级显卡上,在开源不到24小时内便成功登顶。最新一期全球开源模型排行榜显

AI3 阅读
千问3.5荣膺Hugging Face榜首,开源模型前十中八席来自中国

千问3.5荣膺Hugging Face榜首,开源模型前十中八席来自中国

千问3.5在Hugging Face社区中位居榜首,前十名开源模型中有八款来自中国 于2月24日,全球最大的AI开放平台Hugging Face发布了最新的开源大模型排行榜,其中阿里巴巴最新发布的原生多模态模型千问3.5荣登榜首。该模型自除夕夜发布以来,迅速引起

AI8 阅读