原生,启动!
谷歌最近推出了首个原生多模态嵌入模型 Gemini Embedding 2。
这款新模型的核心创新在于,它能够将文本、图像、视频、音频和文档等不同形式的数据映射到同一个统一的嵌入空间中。
其输入能力涵盖了多种数据类型:

文本格式支持最多8192个token
图像请求可以处理6张图片,格式为PNG或JPEG
- 视频长度限制在120秒以内,格式包括MP4和MOV
- 音频可以直接嵌入,无需文字转录
- 文档支持最多6页PDF文件的直接输入
- Gemini Embedding 2不仅能处理单一模态的信息,还能同时接收多种数据类型的混合输入。
- 这种能力使得模型能够更好地理解和分析不同媒体之间的复杂关联。
在性能评估方面,Gemini Embedding 2比前一代产品有了显著提升,并且在多模态嵌入任务中确立了新的基准标准。
不仅提高了语音处理的效率,还在文本、图像和视频等领域超越了现有的领先模型,实现了最先进的技术水准。
初看之下,这项更新似乎只是简单的底层数据工程技术改进。
实际上,它为AI代理如龙虾提供了理解和操作现实世界的必要基础。

目前,Gemini Embedding 2已经在通过Gemini API和Vertex AI进行公开测试。
嵌入模型的基本作用是将数据转换成密集向量表示形式,在这个空间里语义相似的数据点会彼此靠近。
过去的嵌入模型主要针对文本信息,而谷歌之前的研究论文《Gemini Embedding: Generalizable Embeddings from Gemini》中提出——
利用大语言模型中的海量知识构建表征,并应用于语义检索、分类和排序等下游任务。
但这些功能仅限于文字处理阶段。
然而,最新的Gemini Embedding 2则成功地将多模态数据整合到了一起。
文本、图片、视频、音频及文档都被压缩进了同一个向量空间。
这种跨模态语义对齐使得“猫”这个概念的文字描述与相关图像在嵌入空间中的距离变得极为接近。

也就是说,当你搜索“猫”的时候,系统不仅能返回相关的文字信息,还能找到猫的图片、视频和声音等多媒体内容。
这种技术革新简化了原本复杂的多模态流程。
在RAG检索、语义搜索、情感分析以及数据聚类等领域有着广泛的应用前景。
更重要的是,这项能力对AI代理来说意义重大。
以往的Agent在处理计算机界面时通常依赖于文字信息。
比如识别按钮上的“设置”和“确认”等标签。然而,在实际操作中大量信息来源于视觉元素:
图标、布局、颜色以及控件位置,这些都是传统文本嵌入模型难以捕捉的细节。
有了多模态嵌入技术之后,这些挑战迎刃而解。
对于像龙虾这样的AI代理来说,它不再仅仅识别文字。
它可以直接理解屏幕上的视觉元素,例如哪个区域是设置图标、哪一个按钮与当前任务最相关等信息。
Gemini Embedding 2提供了一个统一的感官接口。无论是视觉、听觉还是文本数据,都能在同一语义空间中进行关联处理。
这为未来AI代理理解屏幕环境并执行操作奠定了重要的基础。
在技术实现上,Gemini Embedding 2采用了一种名为Matryoshka Representation Learning(MRL)的方法。

它允许向量维度在保留关键语义信息的同时进行动态缩减。
(注:这种方法强制模型将最重要的特征压缩到向量的前几十维,次要特性则放在后面。这让开发者可以根据预算和算力灵活选择信息密度分布)
Gemini Embedding 2的默认输出维度为3072维,但可以依据需求缩减至1536维或768维,以达到性能与成本之间的平衡。
此外,Gemini Embedding 2还支持多种调用方式,包括LangChain、LlamaIndex、Haystack等工具的集成。

通过为不同类型的数据提供统一的语义表示,Gemini Embedding 2正在成为下一代AI应用——特别是多模态Agent和具身智能机器人的重要基础设施。
(注:MRL强制模型把最核心、最关键的特征压缩在向量的前几十维里,次要的特征放在后面,这让开发者可以根据预算和算力,自由决定信息密度的分布管理)
Gemini Embedding 2的默认输出维度为3072维,但开发者可以根据需求缩减,例如:3072维、1536维、768维,从而在性能与存储成本之间取得平衡。
除了支持API调用外,Gemini Embedding 2也支持通过LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB和Vector Search等工具调用。
通过为不同类型的数据赋予统一的语义表示,Gemini Embedding 2正在为下一代AI应用:多模态Agent,乃至具身智能机器人提供关键基础设施。
参考链接
[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
[2]https://arxiv.org/pdf/2503.07891
