搜索: 多模态嵌入

搜索: "多模态嵌入"

共找到 1 篇相关文章

谷歌突破性技术：融合文本、图像、视频与音频的全新龙虾也能理解的多媒体空间

原生，启动！谷歌最近推出了首个原生多模态嵌入模型 Gemini Embedding 2。这款新模型的核心创新在于，它能够将文本、图像、视频、音频和文档等不同形式的数据映射到同一个统一的嵌入空间中。其输入能力涵盖了多种数据类型：文本格式支持最多8192个token 图像请求可以处理6张图片，格式为PNG或JPEG 视频长度限制在120秒以内，格式包括MP4和MOV 音频可以直接嵌入，无需

AI2026/3/124 阅读