概念

RAG

Q: RAG 最近有什么新动态？

traeai 已收录 30 篇与 RAG 相关的内容。最新一篇是「RAG Is Burning Money — I Built a Cost Control Layer to Fix It」，由 Towards Data Science 发布。

别名：Retrieval-Augmented Generation

Technique combining retrieval systems with generative models to improve response accuracy.

已跟踪 30 条高相关材料

TraeAI 观察

如果只读 3 篇

RAG Is Burning Money — I Built a Cost Control Layer to Fix It

Towards Data Science · 9.2 分

RAG系统在生产中常因上下文过取、无缓存、无模型路由导致成本激增；作者构建成本控制层，通过语义缓存（98.5%命中率）、查询路由（81%请求转向低成本模型）与令牌预算熔断机制，在10,000请求/日下实现85.8%成本削减且质量不变。

Enterprise Document Intelligence: A Series on Building RAG Brick by Brick, from Minimal to Corpus scale

Towards Data Science · 9.2 分

企业级RAG系统应聚焦文档理解与业务逻辑，而非堆叠模型和框架。简单的Python脚本往往比复杂生产系统更有效。

From Regex to Vision Models: Which RAG Technique Fits Which Problem

Towards Data Science · 9 分

RAG 技术并非万能，应根据文档结构和问题控制程度选择合适方法：模板化文档用正则表达式，客服对话需 LLM 判断语调，工程图纸必须使用视觉模型。

RAG正在烧钱——我构建了一层成本控制机制来修复它

Towards Data Science5月30日4995 字 (约 20 分钟)

入选理由：上下文过取使每查询平均多消耗350 tokens，10k请求/日造成$52.5/日浪费（按$0.015/1K tokens计）

精选文章#RAG#成本优化#语义缓存#模型路由#LLM英文

Enterprise Document Intelligence: A Series on Building RAG Brick by Brick, from Minimal to Corpus scale

企业文档智能：从最小到语料库规模逐砖构建RAG系列

Towards Data Science5月23日5486 字 (约 22 分钟)

企业级RAG系统应聚焦文档理解与业务逻辑，而非堆叠模型和框架。简单的Python脚本往往比复杂生产系统更有效。

入选理由：多数企业RAG部署效果不佳，因基础解析和检索质量差。

精选文章#RAG#企业AI#文档智能#检索增强生成#LLM应用英文

From Regex to Vision Models: Which RAG Technique Fits Which Problem

从正则到视觉模型：哪种 RAG 技术适合你的问题

Towards Data Science6月2日4997 字 (约 20 分钟)

RAG 技术并非万能，应根据文档结构和问题控制程度选择合适方法：模板化文档用正则表达式，客服对话需 LLM 判断语调，工程图纸必须使用视觉模型。

入选理由：模板化文档（如保险单、银行流水）适合用正则表达式提取字段，避免使用高成本的 RAG 流程。

精选文章#RAG#LLM#文档智能#视觉模型#企业AI英文

RAG Is Not Machine Learning, and the ML Toolkit Solves the Wrong Problem

RAG 不是机器学习，且 ML 工具包解决的是错误问题

Towards Data Science6月2日6346 字 (约 26 分钟)

RAG 不是机器学习，使用 ML 工具包解决的是错误问题。文章指出，尽管 RAG 看似类似 ML，但其核心是构建搜索系统而非训练模型，因此超参数调优、嵌入模型微调等 ML 方法无法解决 RAG 的真实故障，反而导致资源浪费和信任下降。

入选理由：RAG 解决的是确定性答案查找问题，而非预测未知结果，因此不能用 ML 方法优化。

精选文章#RAG#机器学习#企业AI#信息检索#大语言模型英文

Proxy-Pointer RAG：解决大规模知识图谱中的实体与关系蔓延问题

Towards Data Science5月21日3847 字 (约 16 分钟)

Proxy-Pointer RAG 通过保留文档结构上下文，将知识图谱实体与关系匹配的计算成本降低 90% 以上，实现高效、低延迟的图谱入管，解决了大规模知识图谱的语义蔓延问题。

入选理由：Proxy-Pointer RAG 使用 Skeleton Tree 和 Breadcrumb Injection 技术，使向量检索能精准定位文档完整结构段，而非碎片化块。

精选文章#RAG#知识图谱#Proxy-Pointer#实体消歧#向量检索英文

Baseline Enterprise RAG, From PDF to Highlighted Answer

企业 RAG，从 PDF 到高亮答案的 baseline 实现

Towards Data Science5月30日9383 字 (约 38 分钟)

文章介绍了 baseline 企业 RAG 从 PDF 到高亮答案的最小实现，通过 100 行 Python 代码实现文档解析、问题解析、检索和生成，返回带引用的 JSON 答案和高亮 PDF。

入选理由：了解 RAG 的最快方式是实现一个最小的、实际工作的版本

精选文章#RAG#PDF#自然语言处理中文

Production RAG with LangChain & Vector Databases – Full Course

使用LangChain和向量数据库实现生产级RAG - 完整课程

freeCodeCamp.org5月28日106526 字 (约 427 分钟)

本文是一篇关于如何将简单的RAG（Retrieval-Augmented Generation）原型转化为生产级系统的指南。文章强调了在扩展、调试和安全方面面临的挑战，并提供了一个全面的课程，涵盖了从向量数据库优化和可观测性到高级代理和多模态架构的整个RAG管道。通过本课程，读者将学习如何确保AI应用程序在部署时是强大、安全和准备就绪的。

入选理由：通过解决扩展、调试和安全方面的关键挑战，将简单的RAG原型转化为生产级系统。

精选视频#RAG#LangChain#向量数据库#AI应用#生产级系统中文

A lot of the "RAG is dead" arguments have some truth: traditional RAG is a poor fit for agentic work...

Milvus(@milvusio)5月22日168 字 (约 1 分钟)

尽管传统RAG在处理代理工作负载时存在局限性，但通过引入代理RAG，可以有效解决这些问题。代理RAG通过查询路由、混合检索、检索评估和多步检索等机制，使得检索层与工作负载相匹配，从而提高系统的性能和可靠性。

入选理由：传统RAG在处理代理工作负载时存在单次检索、相似度与相关性不一致、缺乏检索质量检查和单一检索策略等问题。

精选推文#RAG#代理RAG#检索增强生成#人工智能#机器学习中文

Stanford’s AI Index Report 2026 meets the security reality in financial services

斯坦福AI指数报告2026与金融服务的安全现实

Elastic Blog5月21日1505 字 (约 7 分钟)

AI正在成为金融服务核心基础设施，但缺乏安全性和数据准备反而加速了风险。斯坦福报告显示从试验到生产阶段的关键在于数据可访问性和治理能力。

入选理由：金融服务领域的AI使用已从试验阶段转变为生产阶段，安全威胁也在以机器速度演进，攻击者利用AI加速钓鱼、恶意软件开发和社会工程，攻击响应时间从天缩短到分钟。

精选文章#AI#金融服务#网络安全#数据治理#斯坦福AI指数英文

The Hidden Skill Gap: Why Knowing SQL + Python Isn’t Enough Anymore

隐藏的技能差距：为什么仅懂SQL和Python已经不够

KDnuggets5月19日1477 字 (约 6 分钟)

数据岗位技能要求已从SQL+Python基础转向AI系统构建与数据工程能力，LLM、RAG、数据建模和MLOps成为新差异化技能。

入选理由：2026年数据岗位需求中AI技能排名第二，1/3岗位要求LLM/RAG/向量数据库实操能力

精选文章#数据科学#AI技能#数据工程#职业发展英文

LLM Evals Are Based on Vibes — I Built the Missing Layer That Decides What Ships

LLM评估基于直觉——我构建了决定什么能发布的缺失层

Towards Data Science5月18日5139 字 (约 21 分钟)

LLM评估系统存在重大缺陷，需引入决策层以识别虚假信息。

入选理由：构建了基于可信度和具体性的评分层，可检测幻觉内容。

精选文章#LLM#评估系统#AI英文

BestBlogs 周刊 | 第 95 期：Agent 工程化的全面落地

Gino Notes5月18日7632 字 (约 31 分钟)

Agent 工程化全面落地，Anthropic 和 OpenAI 同步推进工具走向生产。

入选理由：Claude Code 放弃 RAG 索引，采用 Agentic Search 实现代码导航。

精选文章#Agent#工程化#AI 工具中文

Presentation: Accelerating LLM-Driven Developer Productivity at Zoox

InfoQ5月15日8379 字 (约 34 分钟)

Zoox 通过构建 AI 驱动的 Cortex 平台，系统性提升开发者生产力。

入选理由：Cortex 平台整合 RAG、多模态 LLM 和 API，实现文档与开发流程智能化。

精选文章#AI#LLM#开发者工具#平台架构英文

生产环境中的RAG混合搜索和重排序

Towards Data Science5月13日3582 字 (约 15 分钟)

文章探讨了生产环境中RAG系统的混合搜索和重排序技术，解决了密集向量检索在特定技术查询中的不足。

入选理由：密集向量检索在概念性查询中表现良好，但在特定技术查询中存在不足。

精选文章#RAG#搜索引擎#混合搜索#重排序中文

How Miro uses Amazon Bedrock to boost software bug routing accuracy and improve time-to-resolution from days to hours

Miro 如何利用 Amazon Bedrock 提高软件错误路由准确性并从天级缩短至小时级解决时间

AWS Machine Learning Blog5月11日2327 字 (约 10 分钟)

Miro通过结合Amazon Bedrock的RAG技术实现BugManager，将软件错误路由准确性提升六倍，解决时间从天缩短到小时。

入选理由：Miro利用Amazon Bedrock的RAG技术，使错误路由团队重分配减少六倍。

精选文章#Amazon Bedrock#RAG#Bug Triage#Miro#AI英文

Search shouldn’t stop at reranking.

Qdrant 1.17 introduces the first vector index-native relevance ...

搜索不应止于重排序

Qdrant(@qdrant_engine)5月11日99 字 (约 1 分钟)

Qdrant 1.17 引入首个原生向量索引相关性反馈机制，将相关性判断直接嵌入检索过程，提升向量搜索效率与准确性。

入选理由：Qdrant 1.17 首次实现向量索引原生相关性反馈（index-native relevance feedback）

精选推文#向量搜索#RAG#Qdrant#AI 检索英文

OncoAgent：一个用于隐私保护肿瘤临床决策支持的双层多智能体框架

AI HOT 精选5月10日3086 字 (约 13 分钟)

OncoAgent是一个开源的隐私保护肿瘤临床决策支持系统，结合了双层LLM架构和LangGraph拓扑，显著提升了决策支持系统的性能和安全性。

入选理由：OncoAgent结合了双层LLM架构和LangGraph拓扑

精选文章#oncology#multi-agent#LangGraph#RAG#QLoRA#AMD中文

The AI Agent Security Surface: What Gets Exposed When You Add Tools and Memory

AI代理安全攻击面：添加工具和记忆时暴露了什么

Towards Data Science5月9日1949 字 (约 8 分钟)

AI代理系统暴露四个攻击面，需建立新安全模型。

入选理由：88%的组织报告AI代理安全事件

精选文章#AI安全#代理系统中文

RAG Is Blind to Time — I Built a Temporal Layer to Fix It in Production

RAG对时间无感知——我在生产环境中构建了一个时间层来修复它

Towards Data Science5月9日5126 字 (约 21 分钟)

文章揭示了RAG系统在时间感知上的缺陷，并提出通过添加时间层解决过时信息问题，提升知识库的时效性。

入选理由：RAG系统无法识别文档时效性，导致过时内容优先显示

精选文章#RAG#AI#知识库#时间感知中文

Agentic RAG Explained in 3 Levels of Difficulty

Agentic RAG 解析：三种难度层次

Machine Learning Mastery5月9日1374 字 (约 6 分钟)

文章解析Agentic RAG的三个难度层级，对比传统RAG的局限性，介绍代理机制如何提升信息检索和生成能力。

入选理由：传统RAG无法处理多源信息整合

精选文章#RAG#AI代理#信息检索中文

Agentic Search for Context Engineering — Leonie Monigatti, Elastic

AI Engineer5月9日775 字 (约 4 分钟)

Agentic Search 通过 AI 代理主动构建上下文，显著提升大模型在复杂任务中的表现，降低对提示工程的依赖。

入选理由：Agentic Search 使用 AI 代理自动检索与任务相关的文档片段，准确率提升至 87%

精选视频#AI Agent#Context Engineering#Search#RAG#Elastic中文

𝗧𝗵𝗲𝗿𝗲 𝗮𝗿𝗲 𝘁𝗵𝗿𝗲𝗲 𝗰𝗼𝗺𝗺𝗼𝗻 𝘄𝗮𝘆𝘀 𝘁𝗼 𝗰𝗵𝘂𝗻𝗸 𝗱𝗼𝗰𝘂𝗺𝗲𝗻𝘁𝘀 𝗳𝗼𝗿 𝗥𝗔𝗚....

RAG文档分块的三种常见策略及选型指南

Milvus(@milvusio)昨天129 字 (约 1 分钟)

RAG文档分块策略需按数据类型选择：技术文档优先语义分块，聊天记录用固定长度加大重叠，API文档按章节切分，避免单一方法导致检索失效。

入选理由：固定长度分块（512/1024 token）易截断完整答案，如600 token的Nginx配置被512切分导致信息缺失。

精选推文#RAG#分块策略#Milvus#向量检索#LLM英文

Private, Local AI CUDA Coding Assistance on DGX Spark

DGX Spark 上私有本地 AI CUDA 编程辅助

NVIDIA Developer5月31日354 字 (约 2 分钟)

Nsight Copilot 可在 DGX Spark 上本地离线运行，利用 128GB 显存部署 GPT OSS 12B NIM + CUDA RAG 管道，为 CUDA 开发者提供隐私安全、零云成本的 AI 编程辅助。

入选理由：Nsight Copilot 支持在 DGX Spark（128GB 显存）上本地部署 GPT OSS 12B NIM + CUDA RAG 管道，实现完全离线运行。

精选视频#CUDA#AI 编程助手#NVIDIA#本地大模型#DGX Spark英文

Why your agents need decision traces, not just documents — Zach Blumenfeld, Neo4j

为什么你的Agent需要决策轨迹，而不仅是文档——Zach Blumenfeld，Neo4j

AI Engineer5月30日3906 字 (约 16 分钟)

Agent仅靠文档检索（如RAG）无法支撑高质量决策，必须引入含决策轨迹、因果链与先例的上下文图，才能实现可解释、高准确率的自主决策；Neo4j提供工具链支持快速构建。

入选理由：上下文图（context graph）不仅包含实体与事实，更整合决策轨迹、因果链和历史先例，使Agent能回答‘为何拒绝/接受’而非仅‘是什么’。

精选视频#Agent#图数据库#Neo4j#决策可解释性#RAG英文

Your RAG tested well and went live, but recall is getting worse.
𝗧𝗵𝗿𝗲𝗲 𝗰𝗼𝗺𝗺𝗼𝗻 ...

RAG上线后召回率下降的常见原因

Milvus(@milvusio)6月2日189 字 (约 1 分钟)

文章指出，RAG系统上线后召回率下降的常见原因包括索引过时、嵌入模型更新导致向量不匹配以及用户查询方式变化。

入选理由：索引过时：三个月前构建的向量索引无法反映最新文档的增删改。

精选推文#RAG#召回率#Milvus#嵌入模型#向量数据库英文

The model is the least interesting part of a RAG agent.

What actually determines whether an agent s...

RAG代理系统设计：模型并非关键，系统设计决定成败

Weaviate • vector database(@weaviate_io)6月2日403 字 (约 2 分钟)

构建成功AI代理的关键在于系统设计而非模型本身，文章详细阐述了企业级RAG代理所需的四个核心架构层：安全、检索、指令和护栏。

入选理由：在生产环境中，AI代理的成功主要取决于系统设计，而非模型选择。

精选推文#RAG#AI代理#系统设计#Weaviate#向量数据库英文

Amazon OpenSearch Serverless is now available in the Vercel Marketplace

Vercel News5月29日424 字 (约 2 分钟)

Amazon OpenSearch Serverless 集成到 Vercel Marketplace，支持统一配置与管理，提供高达 60% 的成本节省。

入选理由：Amazon OpenSearch Serverless 提供统一支持向量、词法、混合和代理搜索。

精选文章#Amazon OpenSearch#Vercel#Serverless#RAG英文

Milvus: 如何将对话历史转化为长期记忆

Milvus(@milvusio)5月15日144 字 (约 1 分钟)

Milvus 提出将对话历史转化为可读、可编辑的长期记忆的方法，结合 Markdown 和语义搜索。

入选理由：对话历史应以 Markdown 格式存储，便于人类阅读和编辑。

精选推文#Agent Memory#RAG#Vector Search英文

Congrats on the launch! Filesystems are all you need (?)

Jerry Liu(@jerryjliu0)5月9日235 字 (约 1 分钟)

Jerry Liu 祝贺 Mirage 发布，认为 2023 年托管 RAG 需求低或因基础设施未成熟，文件系统或为生产级文档索引的理想抽象。

入选理由：Mirage 项目历时 6 周，代码量超 110 万行，重构 bash 核心功能

精选推文#RAG#AI Agents#Filesystem#Mirage#Infrastructure中文

𝗧𝗵𝗲𝗿𝗲'𝘀 𝗽𝗿𝗼𝗯𝗮𝗯𝗹𝘆 𝗮 𝗯𝗹𝗶𝗻𝗱 𝘀𝗽𝗼𝘁 𝗶𝗻 𝘆𝗼𝘂𝗿 𝗥𝗔𝗚 𝗽𝗶𝗽𝗲𝗹𝗶𝗻𝗲: 𝗶𝘁 ...

Milvus(@milvusio)5月25日17 字 (约 1 分钟)

RAG管道可能忽视了相关性，只关注相似性，导致返回的结果不符合实际需求。

入选理由：RAG管道将相似性误认为相关性。

精选推文#RAG#Milvus#相关性#相似性英文

跨材料问答 · RAG

回答基于：RAG 相关 30 条材料