谷歌突破性技术：融合文本、图像、视频与音频的全新龙虾也能理解的多媒体空间

作者：世界网2026年3月12日AI4 阅读

原生，启动！

谷歌最近推出了首个原生多模态嵌入模型 Gemini Embedding 2。

这款新模型的核心创新在于，它能够将文本、图像、视频、音频和文档等不同形式的数据映射到同一个统一的嵌入空间中。

其输入能力涵盖了多种数据类型：

文本格式支持最多8192个token

图像请求可以处理6张图片，格式为PNG或JPEG

视频长度限制在120秒以内，格式包括MP4和MOV
音频可以直接嵌入，无需文字转录
文档支持最多6页PDF文件的直接输入
Gemini Embedding 2不仅能处理单一模态的信息，还能同时接收多种数据类型的混合输入。
这种能力使得模型能够更好地理解和分析不同媒体之间的复杂关联。

在性能评估方面，Gemini Embedding 2比前一代产品有了显著提升，并且在多模态嵌入任务中确立了新的基准标准。

不仅提高了语音处理的效率，还在文本、图像和视频等领域超越了现有的领先模型，实现了最先进的技术水准。

初看之下，这项更新似乎只是简单的底层数据工程技术改进。

实际上，它为AI代理如龙虾提供了理解和操作现实世界的必要基础。

目前，Gemini Embedding 2已经在通过Gemini API和Vertex AI进行公开测试。

嵌入模型的基本作用是将数据转换成密集向量表示形式，在这个空间里语义相似的数据点会彼此靠近。

过去的嵌入模型主要针对文本信息，而谷歌之前的研究论文《Gemini Embedding: Generalizable Embeddings from Gemini》中提出——

利用大语言模型中的海量知识构建表征，并应用于语义检索、分类和排序等下游任务。

但这些功能仅限于文字处理阶段。

然而，最新的Gemini Embedding 2则成功地将多模态数据整合到了一起。

文本、图片、视频、音频及文档都被压缩进了同一个向量空间。

这种跨模态语义对齐使得“猫”这个概念的文字描述与相关图像在嵌入空间中的距离变得极为接近。

也就是说，当你搜索“猫”的时候，系统不仅能返回相关的文字信息，还能找到猫的图片、视频和声音等多媒体内容。

这种技术革新简化了原本复杂的多模态流程。

在RAG检索、语义搜索、情感分析以及数据聚类等领域有着广泛的应用前景。

更重要的是，这项能力对AI代理来说意义重大。

以往的Agent在处理计算机界面时通常依赖于文字信息。

比如识别按钮上的“设置”和“确认”等标签。然而，在实际操作中大量信息来源于视觉元素：

图标、布局、颜色以及控件位置，这些都是传统文本嵌入模型难以捕捉的细节。

有了多模态嵌入技术之后，这些挑战迎刃而解。

对于像龙虾这样的AI代理来说，它不再仅仅识别文字。

它可以直接理解屏幕上的视觉元素，例如哪个区域是设置图标、哪一个按钮与当前任务最相关等信息。

Gemini Embedding 2提供了一个统一的感官接口。无论是视觉、听觉还是文本数据，都能在同一语义空间中进行关联处理。

这为未来AI代理理解屏幕环境并执行操作奠定了重要的基础。

在技术实现上，Gemini Embedding 2采用了一种名为Matryoshka Representation Learning（MRL）的方法。

它允许向量维度在保留关键语义信息的同时进行动态缩减。

（注：这种方法强制模型将最重要的特征压缩到向量的前几十维，次要特性则放在后面。这让开发者可以根据预算和算力灵活选择信息密度分布）

Gemini Embedding 2的默认输出维度为3072维，但可以依据需求缩减至1536维或768维，以达到性能与成本之间的平衡。

此外，Gemini Embedding 2还支持多种调用方式，包括LangChain、LlamaIndex、Haystack等工具的集成。

通过为不同类型的数据提供统一的语义表示，Gemini Embedding 2正在成为下一代AI应用——特别是多模态Agent和具身智能机器人的重要基础设施。

（注：MRL强制模型把最核心、最关键的特征压缩在向量的前几十维里，次要的特征放在后面，这让开发者可以根据预算和算力，自由决定信息密度的分布管理）

Gemini Embedding 2的默认输出维度为3072维，但开发者可以根据需求缩减，例如：3072维、1536维、768维，从而在性能与存储成本之间取得平衡。

除了支持API调用外，Gemini Embedding 2也支持通过LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB和Vector Search等工具调用。

通过为不同类型的数据赋予统一的语义表示，Gemini Embedding 2正在为下一代AI应用：多模态Agent，乃至具身智能机器人提供关键基础设施。

参考链接

[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

[2]https://arxiv.org/pdf/2503.07891

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。

谷歌突破性技术：融合文本、图像、视频与音频的全新龙虾也能理解的多媒体空间

作者：世界网2026年3月12日AI4 阅读

原生，启动！

谷歌最近推出了首个原生多模态嵌入模型 Gemini Embedding 2。

这款新模型的核心创新在于，它能够将文本、图像、视频、音频和文档等不同形式的数据映射到同一个统一的嵌入空间中。

其输入能力涵盖了多种数据类型：

文本格式支持最多8192个token

图像请求可以处理6张图片，格式为PNG或JPEG

视频长度限制在120秒以内，格式包括MP4和MOV
音频可以直接嵌入，无需文字转录
文档支持最多6页PDF文件的直接输入
Gemini Embedding 2不仅能处理单一模态的信息，还能同时接收多种数据类型的混合输入。
这种能力使得模型能够更好地理解和分析不同媒体之间的复杂关联。

在性能评估方面，Gemini Embedding 2比前一代产品有了显著提升，并且在多模态嵌入任务中确立了新的基准标准。

不仅提高了语音处理的效率，还在文本、图像和视频等领域超越了现有的领先模型，实现了最先进的技术水准。

初看之下，这项更新似乎只是简单的底层数据工程技术改进。

实际上，它为AI代理如龙虾提供了理解和操作现实世界的必要基础。

目前，Gemini Embedding 2已经在通过Gemini API和Vertex AI进行公开测试。

嵌入模型的基本作用是将数据转换成密集向量表示形式，在这个空间里语义相似的数据点会彼此靠近。

过去的嵌入模型主要针对文本信息，而谷歌之前的研究论文《Gemini Embedding: Generalizable Embeddings from Gemini》中提出——

利用大语言模型中的海量知识构建表征，并应用于语义检索、分类和排序等下游任务。

但这些功能仅限于文字处理阶段。

然而，最新的Gemini Embedding 2则成功地将多模态数据整合到了一起。

文本、图片、视频、音频及文档都被压缩进了同一个向量空间。

这种跨模态语义对齐使得“猫”这个概念的文字描述与相关图像在嵌入空间中的距离变得极为接近。

也就是说，当你搜索“猫”的时候，系统不仅能返回相关的文字信息，还能找到猫的图片、视频和声音等多媒体内容。

这种技术革新简化了原本复杂的多模态流程。

在RAG检索、语义搜索、情感分析以及数据聚类等领域有着广泛的应用前景。

更重要的是，这项能力对AI代理来说意义重大。

以往的Agent在处理计算机界面时通常依赖于文字信息。

比如识别按钮上的“设置”和“确认”等标签。然而，在实际操作中大量信息来源于视觉元素：

图标、布局、颜色以及控件位置，这些都是传统文本嵌入模型难以捕捉的细节。

有了多模态嵌入技术之后，这些挑战迎刃而解。

对于像龙虾这样的AI代理来说，它不再仅仅识别文字。

它可以直接理解屏幕上的视觉元素，例如哪个区域是设置图标、哪一个按钮与当前任务最相关等信息。

Gemini Embedding 2提供了一个统一的感官接口。无论是视觉、听觉还是文本数据，都能在同一语义空间中进行关联处理。

这为未来AI代理理解屏幕环境并执行操作奠定了重要的基础。

在技术实现上，Gemini Embedding 2采用了一种名为Matryoshka Representation Learning（MRL）的方法。

它允许向量维度在保留关键语义信息的同时进行动态缩减。

（注：这种方法强制模型将最重要的特征压缩到向量的前几十维，次要特性则放在后面。这让开发者可以根据预算和算力灵活选择信息密度分布）

Gemini Embedding 2的默认输出维度为3072维，但可以依据需求缩减至1536维或768维，以达到性能与成本之间的平衡。

此外，Gemini Embedding 2还支持多种调用方式，包括LangChain、LlamaIndex、Haystack等工具的集成。

通过为不同类型的数据提供统一的语义表示，Gemini Embedding 2正在成为下一代AI应用——特别是多模态Agent和具身智能机器人的重要基础设施。

Gemini Embedding 2的默认输出维度为3072维，但开发者可以根据需求缩减，例如：3072维、1536维、768维，从而在性能与存储成本之间取得平衡。

除了支持API调用外，Gemini Embedding 2也支持通过LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB和Vector Search等工具调用。

通过为不同类型的数据赋予统一的语义表示，Gemini Embedding 2正在为下一代AI应用：多模态Agent，乃至具身智能机器人提供关键基础设施。

参考链接

[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

[2]https://arxiv.org/pdf/2503.07891

“”

谷歌突破性技术：融合文本、图像、视频与音频的全新龙虾也能理解的多媒体空间

谷歌突破性技术：融合文本、图像、视频与音频的全新龙虾也能理解的多媒体空间

相关文章

相关文章