Building with Gemini Embedding 2: Agentic multimodal RAG and beyond
Google宣布Gemini Embedding 2正式可用,该模型支持文本、图像、视频、音频和文档的统一嵌入,实现100多种语言的跨模态搜索与应用,如增强型多模态RAG、视觉搜索等。
入选理由:Gemini Embedding 2是首个通过单一接口处理多样输入并映射至同一语义空间的模型,支持多模态数据理解。
模型
别名:Gemini Embedding 2
Google 发布的多模态嵌入模型,支持视频等非文本数据向量化。
已跟踪 8 条高相关材料
最近变化
2026-05-19 · 使用 Gemini embedding 2 多模态模型直接嵌入视频片段。
为什么值得关注
Gemini embedding 2 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
Building with Gemini Embedding 2: Agentic multimodal RAG and beyond
Google Developers Blog · 8.5 分
Google宣布Gemini Embedding 2正式可用,该模型支持文本、图像、视频、音频和文档的统一嵌入,实现100多种语言的跨模态搜索与应用,如增强型多模态RAG、视觉搜索等。
The Gemini API's File Search tool now supports multimodal retrieval. Use `gemini-embedding-2` as the...
Philipp Schmid(@_philschmid) · 7.8 分
Gemini API 的文件搜索工具现已支持多模态检索,使用 `gemini-embedding-2` 模型可构建统一处理 PDF 和图像的 RAG 系统,索引与查询分离计费,存储和查询嵌入免费。
Last week, we made Gemini Embedding 2, our first natively multimodal embedding model, available to t...
Google AI(@GoogleAI) · 7.8 分
Google 推出 Gemini Embedding 2,首个原生多模态嵌入模型,可将文本、图像、视频、音频统一映射为语义向量,支持跨模态语义搜索,已开放公测并用于视频分析、视觉购物等场景。
已收录 8 条与 Gemini embedding 2 相关的内容,按评分排序。
Google宣布Gemini Embedding 2正式可用,该模型支持文本、图像、视频、音频和文档的统一嵌入,实现100多种语言的跨模态搜索与应用,如增强型多模态RAG、视觉搜索等。
入选理由:Gemini Embedding 2是首个通过单一接口处理多样输入并映射至同一语义空间的模型,支持多模态数据理解。
Gemini API 的文件搜索工具现已支持多模态检索,使用 `gemini-embedding-2` 模型可构建统一处理 PDF 和图像的 RAG 系统,索引与查询分离计费,存储和查询嵌入免费。
入选理由:Gemini 新增多模态文件检索能力,支持 PDF 与图像混合检索。
Google 推出首个原生多模态嵌入模型,可将文本、图像、视频、音频统一映射为语义向量,支持跨模态语义搜索,已开放公测并用于视频分析、视觉购物等场景。
入选理由:Gemini Embedding 2 是首个原生多模态嵌入模型,支持文本、图像、视频、音频统一编码。
视频搜索不再依赖转录文本或元数据,可直接通过多模态模型嵌入视频片段进行检索。
入选理由:使用 Gemini embedding 2 多模态模型直接嵌入视频片段。
Gemini API 的 File Search 工具升级为多模态,基于 Gemini Embedding 2 模型,支持自定义元数据与内联引用,且查询时的存储与嵌入生成免费。
入选理由:File Search 现支持文本、图像等多模态文件检索
Gemini API File Search 工具新增多模态支持,支持图像与文档嵌入,简化 RAG 构建,并可引用页码;但信息高度碎片化,无技术细节或验证。
入选理由:Gemini Embedding 2 现支持图像和文档联合嵌入
Gemini Embedding 2 正式发布,支持文本、图像、视频、音频和文档统一嵌入,但原文仅为一条无技术细节的 Twitter 宣发推文。
入选理由:Gemini Embedding 2 已进入通用可用(GA)阶段
Gemini Embedding 2 正式发布,是 Google DeepMind 首个支持文本、图像、视频、音频和文档统一向量嵌入的多模态模型。
入选理由:Gemini Embedding 2 是 Google 首个多模态统一嵌入模型