
谷歌突破性技术:融合文本、图像、视频与音频的全新龙虾也能理解的多媒体空间
原生,启动! 谷歌最近推出了首个原生多模态嵌入模型 Gemini Embedding 2。 这款新模型的核心创新在于,它能够将文本、图像、视频、音频和文档等不同形式的数据映射到同一个统一的嵌入空间中。 其输入能力涵盖了多种数据类型: 文本格式支持最多8192个token 图像请求可以处理6张图片,格式为PNG或JPEG 视频长度限制在120秒以内,格式包括MP4和MOV 音频可以直接嵌入,无需
AI1 阅读
共找到 1 篇相关文章

原生,启动! 谷歌最近推出了首个原生多模态嵌入模型 Gemini Embedding 2。 这款新模型的核心创新在于,它能够将文本、图像、视频、音频和文档等不同形式的数据映射到同一个统一的嵌入空间中。 其输入能力涵盖了多种数据类型: 文本格式支持最多8192个token 图像请求可以处理6张图片,格式为PNG或JPEG 视频长度限制在120秒以内,格式包括MP4和MOV 音频可以直接嵌入,无需