模型

GPT-4

Q: GPT-4 最近有什么新动态？

traeai 已收录 18 篇与 GPT-4 相关的内容。最新一篇是「RAG Is Burning Money — I Built a Cost Control Layer to Fix It」，由 Towards Data Science 发布。

别名：GPT4

OpenAI推出的第四代大型语言模型，广泛用于生成式任务。

已跟踪 18 条高相关材料

TraeAI 观察

如果只读 3 篇

RAG Is Burning Money — I Built a Cost Control Layer to Fix It

Towards Data Science · 9.2 分

RAG系统在生产中常因上下文过取、无缓存、无模型路由导致成本激增；作者构建成本控制层，通过语义缓存（98.5%命中率）、查询路由（81%请求转向低成本模型）与令牌预算熔断机制，在10,000请求/日下实现85.8%成本削减且质量不变。

Deep learning hit a wall. Neurosymbolic AI rescued it.

Gary Marcus(@GaryMarcus) · 9 分

神经符号AI通过融合符号推理与深度学习，突破了纯大模型的局限。Claude Code整合53个符号工具和50万行符号代码，是当前最接近通用人工智能的重要进展，标志着AI范式从纯数据驱动转向混合架构。

🤩🤯🤩 Claude Code (still not AGI but biggest advance since GPT-4) is the most neurosymbolic thing I...

Gary Marcus(@GaryMarcus) · 9 分

Claude Code 是自 GPT-4 以来最重要的进展，融合了 53 个符号工具与 50 万行符号代码，标志着神经符号系统在 AI 领域的重大突破，验证了 Gary Marcus 长期倡导的混合智能路线。

RAG正在烧钱——我构建了一层成本控制机制来修复它

Towards Data Science5月30日4995 字 (约 20 分钟)

入选理由：上下文过取使每查询平均多消耗350 tokens，10k请求/日造成$52.5/日浪费（按$0.015/1K tokens计）

精选文章#RAG#成本优化#语义缓存#模型路由#LLM英文

🤩🤯🤩 Claude Code (still not AGI but biggest advance since GPT-4) is the most neurosymbolic thing I...

🤩🤯🤩 Claude Code（仍非通用人工智能但自 GPT-4 以来最大进步）是我见过最神经符号化的系统

Gary Marcus(@GaryMarcus)5月12日244 字 (约 1 分钟)

Claude Code 融合 53 个符号工具与 50 万行符号代码，是自 GPT-4 以来最重要的 AI 进展。

入选理由：Claude Code 集成 53 个符号工具与 50 万行符号代码，显著超越纯 LLM 架构。

精选推文#神经符号系统#Claude Code#AI 前沿#Gary Marcus#LLM中文

Deep learning hit a wall. Neurosymbolic AI rescued it.

Gary Marcus(@GaryMarcus)5月12日134 字 (约 1 分钟)

神经符号AI通过融合符号推理与深度学习，突破了纯大模型的局限。

入选理由：Claude Code集成53个符号工具与50万行符号代码，显著超越纯LLM能力。

精选推文#神经符号AI#Claude Code#大模型#AGI#AI范式中文

What we learned mapping a year’s worth of AI-enabled cyber threats

解析一年AI赋能网络威胁：我们学到什么

Anthropic News6月4日1236 字 (约 5 分钟)

基于2025.03-2026.03被封禁的832个账户，AI使攻击者在入侵后更广泛使用生成式能力，威胁等级显著上升；MITRE ATT&CK难以刻画AI赋能攻击者的“链式自主”行为，需更新框架与评估方法。

入选理由：3%的攻击者用AI写恶意软件，AI在攻入后用于账户发现、横向移动等，提升威胁等级（6月33%升至56%）。

精选文章#AI安全#MITRE ATT&CK#威胁情报#网络威胁图景#Claude Code英文

5 patterns in Text Arena's price–performance Pareto frontier since 2023:

lmarena.ai(@lmarena_ai)5月22日235 字 (约 1 分钟)

Text Arena数据显示自2023年以来AI模型价格性能比发生巨大变化：GPT-4级别质量成本降低500倍，从每百万token约50美元降至0.10美元，低端模型性能大幅提升而高端模型价格下降。

入选理由：GPT-4级别质量成本从2023年每百万token约50美元降至现在的0.10美元，降幅达500倍

精选推文#Text Arena#AI模型#价格性能比#大语言模型英文

新AI模型让我震惊

Matt Wolfe5月18日61 字 (约 1 分钟)

文章介绍了OpenAI最新发布的AI模型，强调其在自然语言处理和代码生成方面的突破性进展。

入选理由：OpenAI的GPT-4在代码生成任务中准确率提升至92%

精选视频#AI#OpenAI#自然语言处理英文

AI Won’t Automatically Make Legal Services Cheaper

AI Snake Oil5月10日11345 字 (约 46 分钟)

尽管AI可能不会自动降低法律服务的成本，但解决监管障碍、对抗动态和人类参与是实现AI在法律领域的广泛应用的关键。

入选理由：AI不会自动降低法律服务成本。

精选文章#AI#法律#法律服务#监管障碍#对抗动态中文

Chat SDK 新增 Messenger 适配器支持

Vercel News5月9日559 字 (约 3 分钟)

Vercel 的 Chat SDK 新增对 Facebook Messenger 的适配器支持，使开发者能通过统一 API 快速集成聊天功能至 Messenger 平台。

入选理由：Chat SDK 现已支持 Facebook Messenger 适配器，实现跨平台统一接口。

精选文章#Chat SDK#Messenger#AI Gateway#TypeScript#API英文

构建自己的AI代理

freeCodeCamp.org6月2日223 字 (约 1 分钟)

本文介绍了一个关于构建和部署智能AI代理的教程，重点展示了如何利用Node.js、OpenAI GPT-4和PostgreSQL等现代技术栈，在Slack上创建一个能自动处理成员研究和分析的AI机器人。

入选理由：课程涵盖从零开始到部署的完整流程，使用Node.js和Express构建后端服务。

精选文章#AI代理#Slackbot#Node.js#OpenAI#GPT-4英文

Fragments: June 2

Martin Fowler6月2日1848 字 (约 8 分钟)

Martin Fowler在Fragments中分析了AI工具评估指标的缺陷，指出自动化并未导致职业消亡，开源模型追赶闭源模型的速度正在加快，以及AI生成内容中的幻觉引用问题。

入选理由：闭源模型创新速度领先，开源模型追赶周期从GPT-4的13-18个月缩短至GPT-4o的2-7个月。

精选文章#AI评估#模型性能#职业影响#内容生成英文

宝玉 on X: "Gemini 2.5 Pro 之前，Google 模型没有超过 GPT-4 的好么现在 Gemini 又开始掉队了……" / X

宝玉(@dotey)5月27日222 字 (约 1 分钟)

Google 在 2021 年已经开发出比 GPT-3 更强大的 MoE 大模型 GLaM 和 PaLM 2，但在组织和时间安排上存在问题，导致这些模型未能及时应用到 Gemini 中，使其落后于 GPT-4。

入选理由：Google 在 2021 年已开发出比 GPT-3 更强大的 MoE 大模型 GLaM 和 PaLM 2。

精选推文#Google#GPT-4#MoE#GLaM#PaLM 2中文

Codex for Everyday Work: AI Agents Beyond Coding

OpenAI5月15日11133 字 (约 45 分钟)

Codex 不再局限于代码生成，已扩展至知识工作领域，帮助非技术人员完成文档组织、任务规划等日常事务。

入选理由：Codex 最初是为开发者设计的代码生成工具，但逐渐转向支持更广泛的知识工作。

精选视频#AI#Codex#OpenAI#知识工作英文

When is the last time a general purpose LLM (putting aside hybrid systems like Claude Code with spec...

当上一次通用大模型彻底碾压所有前代模型是什么时候？

Gary Marcus(@GaryMarcus)5月12日239 字 (约 1 分钟)

Gary Marcus质疑GPT-4相比GPT-3.5是否真有突破，认为其仅为渐进式改进，行业存在夸大宣传。

入选理由：GPT-4相较GPT-3.5属于增量改进，无实质护城河

精选推文#LLM#AI评估#大模型#Gary Marcus中文

OpenAI's GPT 5.5 Instant: The Good, The Bad And The Insane

OpenAI的GPT 5.5 Instant：好、坏与疯狂

Two Minute Papers5月9日1327 字 (约 6 分钟)

GPT-5.5是虚构模型，标题为吸引眼球的误导性内容；视频实为对AI炒作现象的讽刺分析。

入选理由：GPT-5.5是虚构模型，OpenAI从未宣布此版本存在。

精选视频#AI#OpenAI#GPT#虚假信息#技术炒作中文

Very good advice on self-improving agents.

(bookmark it)

This is something I am seeing in my own e...

关于自改进代理的极佳建议

elvis(@omarsar0)6月2日101 字 (约 1 分钟)

更强的模型并不总是能进化出更好的自改进代理，实验表明模型能力与代理性能之间并非线性关系，需关注训练机制和反馈循环设计。

入选理由：在长周期任务中，编码代理的性能提升不依赖于模型参数规模，而是取决于反馈机制的设计。

精选推文#自改进代理#编码代理#AI 训练#反馈循环#长周期任务英文

Given how much of the original "bottle of water per generated email" water estimate came from guesse...

Simon Willison(@simonw)5月25日180 字 (约 1 分钟)

Simon Willison认为，由于最初的“每封生成邮件消耗一瓶水”的水资源估算很大程度上基于对GPT-4架构的猜测，OpenAI应公开该已退役三年的模型的架构。

入选理由：最初的水资源估算依赖于对GPT-4架构的猜测。

精选推文#OpenAI#GPT-4#能源消耗#透明度中文

Yes and I shouldn’t leave out the $7m+ in credits for compute/software etc!

Andrew Chen 在X上分享AI开发成本信息

andrew chen(@andrewchen)5月18日70 字 (约 1 分钟)

文章强调了在AI开发中获得的700万美元以上计算和软件信用的重要性。

入选理由：Andrew Chen 提到在AI开发中获得了超过700万美元的计算和软件信用。

精选推文#AI#计算信用#GPT-4英文

刷榜AI全挂了！Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分

大模型智能5月9日62 字 (约 1 分钟)

Meta与斯坦福测试显示，GPT-4、Claude 3、Gemini平均得分仅12%，暴露其在逻辑与数学推理中的根本缺陷。

入选理由：Meta与斯坦福测试中，GPT-4、Claude 3、Gemini平均得分仅12%

精选文章#大模型#AI测试#推理能力#Meta#斯坦福中文

跨材料问答 · GPT-4

回答基于：GPT-4 相关 18 条材料