T
traeai
登录
返回首页
Milvus(@milvusio)

RAG上线后召回率下降的常见原因

7.5Score
RAG上线后召回率下降的常见原因

TL;DR · AI 摘要

文章指出,RAG系统上线后召回率下降的常见原因包括索引过时、嵌入模型更新导致向量不匹配以及用户查询方式变化。

核心要点

  • 索引过时:三个月前构建的向量索引无法反映最新文档的增删改。
  • 嵌入模型变更:OpenAI等提供商更新模型,新旧版本嵌入向量不再对齐。
  • 查询方式变化:用户群体和产品迭代导致问题表述方式改变,测试集未能覆盖新情况。

结构提纲

按章节快速跳转。

  1. RAG系统上线后召回率下降,文章列举了三个主要原因。

  2. 三个月前构建的向量索引未包含最新文档的修改或新增内容。

  3. 提供商(如OpenAI)更新嵌入模型,导致新旧版本向量不兼容。

  4. 用户群体和产品迭代导致问题表述方式改变,测试集未能覆盖新情况。

  5. 测试集可能已偏离实际场景,或未涵盖某些查询类型,导致无法发现召回率下降。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • RAG召回率下降原因
    • 索引过时
      • 三个月前构建的索引
      • 未包含最新文档
    • 嵌入模型变更
      • 提供商更新模型
      • 新旧版本向量不匹配
    • 查询方式变化
      • 用户群体变化
      • 产品迭代导致表述方式改变
    • 测试集偏差
      • 测试集偏离实际场景
      • 未涵盖某些查询类型

金句 / Highlights

值得收藏与分享的关键句。

  • 索引过时:三个月前构建的向量索引无法反映最新文档的增删改。

    第2段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 嵌入模型变更:OpenAI等提供商更新模型,新旧版本嵌入向量不再对齐。

    第3段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 查询方式变化:用户群体和产品迭代导致问题表述方式改变,测试集未能覆盖新情况。

    第4段

    ⬇︎ 下载 PNG𝕏 分享到 X
#RAG#召回率#Milvus#嵌入模型#向量数据库
打开原文

标题: Milvus on X: "你的RAG测试表现良好并已上线,但召回率正在下降。 三个常见原因:

  • 索引过时。 新文档被添加,旧文档被编辑或删除,但向量索引仍然是三个月前构建的那个。检索是在搜索一个过时的快照。
  • 嵌入模型变更。 像OpenAI这样的提供商在没有太多预警的情况下更新他们的嵌入模型。你现有的文档是用旧版本嵌入的,新查询使用的是新版本,向量不再像以前那样对齐。
  • 用户开始以不同方式提问。 你的用户群体增长了,产品发生了变化,人们提问的方式也随之改变。今天系统处理的查询与测试时的查询不同。

还有一个第四种召回看起来更差的原因。 你的测试集偏离了现实,或者从一开始就未涵盖某些查询类型。这不会导致召回率下降——只是意味着你无法看到它已经下降的地方。

Image 1: Image

AI 可能会生成不准确的信息,请核实重要内容