RAG正在烧钱——我构建了一层成本控制机制来修复它
RAG系统在生产中常因上下文过取、无缓存、无模型路由导致成本激增;作者构建成本控制层,通过语义缓存(98.5%命中率)、查询路由(81%请求转向低成本模型)与令牌预算熔断机制,在10,000请求/日下实现85.8%成本削减且质量不变。
入选理由:上下文过取使每查询平均多消耗350 tokens,10k请求/日造成$52.5/日浪费(按$0.015/1K tokens计)
模型
别名:GPT4
OpenAI推出的第四代大型语言模型,广泛用于生成式任务。
已跟踪 18 条高相关材料
最近变化
2026-06-02 · 3%的攻击者用AI写恶意软件,AI在攻入后用于账户发现、横向移动等,提升威胁等级(6月33%升至56%)。
为什么值得关注
GPT-4 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
RAG Is Burning Money — I Built a Cost Control Layer to Fix It
Towards Data Science · 9.2 分
RAG系统在生产中常因上下文过取、无缓存、无模型路由导致成本激增;作者构建成本控制层,通过语义缓存(98.5%命中率)、查询路由(81%请求转向低成本模型)与令牌预算熔断机制,在10,000请求/日下实现85.8%成本削减且质量不变。
Deep learning hit a wall. Neurosymbolic AI rescued it.
Gary Marcus(@GaryMarcus) · 9 分
神经符号AI通过融合符号推理与深度学习,突破了纯大模型的局限。Claude Code整合53个符号工具和50万行符号代码,是当前最接近通用人工智能的重要进展,标志着AI范式从纯数据驱动转向混合架构。
🤩🤯🤩 Claude Code (still not AGI but biggest advance since GPT-4) is the most neurosymbolic thing I...
Gary Marcus(@GaryMarcus) · 9 分
Claude Code 是自 GPT-4 以来最重要的进展,融合了 53 个符号工具与 50 万行符号代码,标志着神经符号系统在 AI 领域的重大突破,验证了 Gary Marcus 长期倡导的混合智能路线。
已收录 18 条与 GPT-4 相关的内容,按评分排序。
RAG系统在生产中常因上下文过取、无缓存、无模型路由导致成本激增;作者构建成本控制层,通过语义缓存(98.5%命中率)、查询路由(81%请求转向低成本模型)与令牌预算熔断机制,在10,000请求/日下实现85.8%成本削减且质量不变。
入选理由:上下文过取使每查询平均多消耗350 tokens,10k请求/日造成$52.5/日浪费(按$0.015/1K tokens计)
Claude Code 融合 53 个符号工具与 50 万行符号代码,是自 GPT-4 以来最重要的 AI 进展。
入选理由:Claude Code 集成 53 个符号工具与 50 万行符号代码,显著超越纯 LLM 架构。
神经符号AI通过融合符号推理与深度学习,突破了纯大模型的局限。
入选理由:Claude Code集成53个符号工具与50万行符号代码,显著超越纯LLM能力。
基于2025.03-2026.03被封禁的832个账户,AI使攻击者在入侵后更广泛使用生成式能力,威胁等级显著上升;MITRE ATT&CK难以刻画AI赋能攻击者的“链式自主”行为,需更新框架与评估方法。
入选理由:3%的攻击者用AI写恶意软件,AI在攻入后用于账户发现、横向移动等,提升威胁等级(6月33%升至56%)。
Text Arena数据显示自2023年以来AI模型价格性能比发生巨大变化:GPT-4级别质量成本降低500倍,从每百万token约50美元降至0.10美元,低端模型性能大幅提升而高端模型价格下降。
入选理由:GPT-4级别质量成本从2023年每百万token约50美元降至现在的0.10美元,降幅达500倍
文章介绍了OpenAI最新发布的AI模型,强调其在自然语言处理和代码生成方面的突破性进展。
入选理由:OpenAI的GPT-4在代码生成任务中准确率提升至92%
尽管AI可能不会自动降低法律服务的成本,但解决监管障碍、对抗动态和人类参与是实现AI在法律领域的广泛应用的关键。
入选理由:AI不会自动降低法律服务成本。
Vercel 的 Chat SDK 新增对 Facebook Messenger 的适配器支持,使开发者能通过统一 API 快速集成聊天功能至 Messenger 平台。
入选理由:Chat SDK 现已支持 Facebook Messenger 适配器,实现跨平台统一接口。
本文介绍了一个关于构建和部署智能AI代理的教程,重点展示了如何利用Node.js、OpenAI GPT-4和PostgreSQL等现代技术栈,在Slack上创建一个能自动处理成员研究和分析的AI机器人。
入选理由:课程涵盖从零开始到部署的完整流程,使用Node.js和Express构建后端服务。
Martin Fowler在Fragments中分析了AI工具评估指标的缺陷,指出自动化并未导致职业消亡,开源模型追赶闭源模型的速度正在加快,以及AI生成内容中的幻觉引用问题。
入选理由:闭源模型创新速度领先,开源模型追赶周期从GPT-4的13-18个月缩短至GPT-4o的2-7个月。
Google 在 2021 年已经开发出比 GPT-3 更强大的 MoE 大模型 GLaM 和 PaLM 2,但在组织和时间安排上存在问题,导致这些模型未能及时应用到 Gemini 中,使其落后于 GPT-4。
入选理由:Google 在 2021 年已开发出比 GPT-3 更强大的 MoE 大模型 GLaM 和 PaLM 2。
Codex 不再局限于代码生成,已扩展至知识工作领域,帮助非技术人员完成文档组织、任务规划等日常事务。
入选理由:Codex 最初是为开发者设计的代码生成工具,但逐渐转向支持更广泛的知识工作。
Gary Marcus质疑GPT-4相比GPT-3.5是否真有突破,认为其仅为渐进式改进,行业存在夸大宣传。
入选理由:GPT-4相较GPT-3.5属于增量改进,无实质护城河
GPT-5.5是虚构模型,标题为吸引眼球的误导性内容;视频实为对AI炒作现象的讽刺分析。
入选理由:GPT-5.5是虚构模型,OpenAI从未宣布此版本存在。
更强的模型并不总是能进化出更好的自改进代理,实验表明模型能力与代理性能之间并非线性关系,需关注训练机制和反馈循环设计。
入选理由:在长周期任务中,编码代理的性能提升不依赖于模型参数规模,而是取决于反馈机制的设计。
Simon Willison认为,由于最初的“每封生成邮件消耗一瓶水”的水资源估算很大程度上基于对GPT-4架构的猜测,OpenAI应公开该已退役三年的模型的架构。
入选理由:最初的水资源估算依赖于对GPT-4架构的猜测。
文章强调了在AI开发中获得的700万美元以上计算和软件信用的重要性。
入选理由:Andrew Chen 提到在AI开发中获得了超过700万美元的计算和软件信用。
Meta与斯坦福测试显示,GPT-4、Claude 3、Gemini平均得分仅12%,暴露其在逻辑与数学推理中的根本缺陷。
入选理由:Meta与斯坦福测试中,GPT-4、Claude 3、Gemini平均得分仅12%