RAG正在烧钱——我构建了一层成本控制机制来修复它
RAG系统在生产中常因上下文过取、无缓存、无模型路由导致成本激增;作者构建成本控制层,通过语义缓存(98.5%命中率)、查询路由(81%请求转向低成本模型)与令牌预算熔断机制,在10,000请求/日下实现85.8%成本削减且质量不变。
入选理由:上下文过取使每查询平均多消耗350 tokens,10k请求/日造成$52.5/日浪费(按$0.015/1K tokens计)
概念
别名:Retrieval-Augmented Generation
Technique combining retrieval systems with generative models to improve response accuracy.
已跟踪 30 条高相关材料
最近变化
2026-06-03 · 固定长度分块(512/1024 token)易截断完整答案,如600 token的Nginx配置被512切分导致信息缺失。
为什么值得关注
RAG 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
RAG Is Burning Money — I Built a Cost Control Layer to Fix It
Towards Data Science · 9.2 分
RAG系统在生产中常因上下文过取、无缓存、无模型路由导致成本激增;作者构建成本控制层,通过语义缓存(98.5%命中率)、查询路由(81%请求转向低成本模型)与令牌预算熔断机制,在10,000请求/日下实现85.8%成本削减且质量不变。
Enterprise Document Intelligence: A Series on Building RAG Brick by Brick, from Minimal to Corpus scale
Towards Data Science · 9.2 分
企业级RAG系统应聚焦文档理解与业务逻辑,而非堆叠模型和框架。简单的Python脚本往往比复杂生产系统更有效。
From Regex to Vision Models: Which RAG Technique Fits Which Problem
Towards Data Science · 9 分
RAG 技术并非万能,应根据文档结构和问题控制程度选择合适方法:模板化文档用正则表达式,客服对话需 LLM 判断语调,工程图纸必须使用视觉模型。
已收录 30 条与 RAG 相关的内容,按评分排序。
RAG系统在生产中常因上下文过取、无缓存、无模型路由导致成本激增;作者构建成本控制层,通过语义缓存(98.5%命中率)、查询路由(81%请求转向低成本模型)与令牌预算熔断机制,在10,000请求/日下实现85.8%成本削减且质量不变。
入选理由:上下文过取使每查询平均多消耗350 tokens,10k请求/日造成$52.5/日浪费(按$0.015/1K tokens计)
企业级RAG系统应聚焦文档理解与业务逻辑,而非堆叠模型和框架。简单的Python脚本往往比复杂生产系统更有效。
入选理由:多数企业RAG部署效果不佳,因基础解析和检索质量差。
RAG 技术并非万能,应根据文档结构和问题控制程度选择合适方法:模板化文档用正则表达式,客服对话需 LLM 判断语调,工程图纸必须使用视觉模型。
入选理由:模板化文档(如保险单、银行流水)适合用正则表达式提取字段,避免使用高成本的 RAG 流程。
RAG 不是机器学习,使用 ML 工具包解决的是错误问题。文章指出,尽管 RAG 看似类似 ML,但其核心是构建搜索系统而非训练模型,因此超参数调优、嵌入模型微调等 ML 方法无法解决 RAG 的真实故障,反而导致资源浪费和信任下降。
入选理由:RAG 解决的是确定性答案查找问题,而非预测未知结果,因此不能用 ML 方法优化。
Proxy-Pointer RAG 通过保留文档结构上下文,将知识图谱实体与关系匹配的计算成本降低 90% 以上,实现高效、低延迟的图谱入管,解决了大规模知识图谱的语义蔓延问题。
入选理由:Proxy-Pointer RAG 使用 Skeleton Tree 和 Breadcrumb Injection 技术,使向量检索能精准定位文档完整结构段,而非碎片化块。
文章介绍了 baseline 企业 RAG 从 PDF 到高亮答案的最小实现,通过 100 行 Python 代码实现文档解析、问题解析、检索和生成,返回带引用的 JSON 答案和高亮 PDF。
入选理由:了解 RAG 的最快方式是实现一个最小的、实际工作的版本
本文是一篇关于如何将简单的RAG(Retrieval-Augmented Generation)原型转化为生产级系统的指南。文章强调了在扩展、调试和安全方面面临的挑战,并提供了一个全面的课程,涵盖了从向量数据库优化和可观测性到高级代理和多模态架构的整个RAG管道。通过本课程,读者将学习如何确保AI应用程序在部署时是强大、安全和准备就绪的。
入选理由:通过解决扩展、调试和安全方面的关键挑战,将简单的RAG原型转化为生产级系统。
尽管传统RAG在处理代理工作负载时存在局限性,但通过引入代理RAG,可以有效解决这些问题。代理RAG通过查询路由、混合检索、检索评估和多步检索等机制,使得检索层与工作负载相匹配,从而提高系统的性能和可靠性。
入选理由:传统RAG在处理代理工作负载时存在单次检索、相似度与相关性不一致、缺乏检索质量检查和单一检索策略等问题。
AI正在成为金融服务核心基础设施,但缺乏安全性和数据准备反而加速了风险。斯坦福报告显示从试验到生产阶段的关键在于数据可访问性和治理能力。
入选理由:金融服务领域的AI使用已从试验阶段转变为生产阶段,安全威胁也在以机器速度演进,攻击者利用AI加速钓鱼、恶意软件开发和社会工程,攻击响应时间从天缩短到分钟。
数据岗位技能要求已从SQL+Python基础转向AI系统构建与数据工程能力,LLM、RAG、数据建模和MLOps成为新差异化技能。
入选理由:2026年数据岗位需求中AI技能排名第二,1/3岗位要求LLM/RAG/向量数据库实操能力
LLM评估系统存在重大缺陷,需引入决策层以识别虚假信息。
入选理由:构建了基于可信度和具体性的评分层,可检测幻觉内容。
Agent 工程化全面落地,Anthropic 和 OpenAI 同步推进工具走向生产。
入选理由:Claude Code 放弃 RAG 索引,采用 Agentic Search 实现代码导航。
Zoox 通过构建 AI 驱动的 Cortex 平台,系统性提升开发者生产力。
入选理由:Cortex 平台整合 RAG、多模态 LLM 和 API,实现文档与开发流程智能化。
文章探讨了生产环境中RAG系统的混合搜索和重排序技术,解决了密集向量检索在特定技术查询中的不足。
入选理由:密集向量检索在概念性查询中表现良好,但在特定技术查询中存在不足。
Miro通过结合Amazon Bedrock的RAG技术实现BugManager,将软件错误路由准确性提升六倍,解决时间从天缩短到小时。
入选理由:Miro利用Amazon Bedrock的RAG技术,使错误路由团队重分配减少六倍。
Qdrant 1.17 引入首个原生向量索引相关性反馈机制,将相关性判断直接嵌入检索过程,提升向量搜索效率与准确性。
入选理由:Qdrant 1.17 首次实现向量索引原生相关性反馈(index-native relevance feedback)
OncoAgent是一个开源的隐私保护肿瘤临床决策支持系统,结合了双层LLM架构和LangGraph拓扑,显著提升了决策支持系统的性能和安全性。
入选理由:OncoAgent结合了双层LLM架构和LangGraph拓扑
AI代理系统暴露四个攻击面,需建立新安全模型。
入选理由:88%的组织报告AI代理安全事件
文章揭示了RAG系统在时间感知上的缺陷,并提出通过添加时间层解决过时信息问题,提升知识库的时效性。
入选理由:RAG系统无法识别文档时效性,导致过时内容优先显示
文章解析Agentic RAG的三个难度层级,对比传统RAG的局限性,介绍代理机制如何提升信息检索和生成能力。
入选理由:传统RAG无法处理多源信息整合
Agentic Search 通过 AI 代理主动构建上下文,显著提升大模型在复杂任务中的表现,降低对提示工程的依赖。
入选理由:Agentic Search 使用 AI 代理自动检索与任务相关的文档片段,准确率提升至 87%
RAG文档分块策略需按数据类型选择:技术文档优先语义分块,聊天记录用固定长度加大重叠,API文档按章节切分,避免单一方法导致检索失效。
入选理由:固定长度分块(512/1024 token)易截断完整答案,如600 token的Nginx配置被512切分导致信息缺失。
Nsight Copilot 可在 DGX Spark 上本地离线运行,利用 128GB 显存部署 GPT OSS 12B NIM + CUDA RAG 管道,为 CUDA 开发者提供隐私安全、零云成本的 AI 编程辅助。
入选理由:Nsight Copilot 支持在 DGX Spark(128GB 显存)上本地部署 GPT OSS 12B NIM + CUDA RAG 管道,实现完全离线运行。
Agent仅靠文档检索(如RAG)无法支撑高质量决策,必须引入含决策轨迹、因果链与先例的上下文图,才能实现可解释、高准确率的自主决策;Neo4j提供工具链支持快速构建。
入选理由:上下文图(context graph)不仅包含实体与事实,更整合决策轨迹、因果链和历史先例,使Agent能回答‘为何拒绝/接受’而非仅‘是什么’。
文章指出,RAG系统上线后召回率下降的常见原因包括索引过时、嵌入模型更新导致向量不匹配以及用户查询方式变化。
入选理由:索引过时:三个月前构建的向量索引无法反映最新文档的增删改。
构建成功AI代理的关键在于系统设计而非模型本身,文章详细阐述了企业级RAG代理所需的四个核心架构层:安全、检索、指令和护栏。
入选理由:在生产环境中,AI代理的成功主要取决于系统设计,而非模型选择。
Amazon OpenSearch Serverless 集成到 Vercel Marketplace,支持统一配置与管理,提供高达 60% 的成本节省。
入选理由:Amazon OpenSearch Serverless 提供统一支持向量、词法、混合和代理搜索。
Milvus 提出将对话历史转化为可读、可编辑的长期记忆的方法,结合 Markdown 和语义搜索。
入选理由:对话历史应以 Markdown 格式存储,便于人类阅读和编辑。
Jerry Liu 祝贺 Mirage 发布,认为 2023 年托管 RAG 需求低或因基础设施未成熟,文件系统或为生产级文档索引的理想抽象。
入选理由:Mirage 项目历时 6 周,代码量超 110 万行,重构 bash 核心功能
RAG管道可能忽视了相关性,只关注相似性,导致返回的结果不符合实际需求。
入选理由:RAG管道将相似性误认为相关性。