当AI构建自身:我们迈向递归自我改进的进展
AI递归自我改进正加速到来,Anthropic内部数据显示工程师代码产出提升8倍,模型可靠任务时长每4个月翻倍,预计2027年可处理周级任务。
入选理由:Anthropic工程师季度代码产出较2021-2025年均值提升8倍,AI已实质性加速研发。
公司
别名:anthropics
与OpenAI共同推动FDE概念的AI公司
已跟踪 30 条高相关材料
最近变化
2026-06-05 · 使用/prototype Skill让AI生成5个方案并自选最优解,人仅做最终审美确认。
为什么值得关注
Anthropic 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
Anthropic 内部设计师如何用 Claude Code 做产品、写代码、推 PR -- 来自 Claude Code & Cowork 设计负责人 @meaghaneschoi 核心命题...
meng shao(@shao__meng) · 9.2 分
Anthropic设计负责人验证了以“带视觉证据的PR”为验收单位的AI工作流,通过自定义Skill、Auto模式及定时巡检任务,将设计师从代码执行者转变为审美决策者与质量治理者。
Reality: The Final Eval — Lukas Petersson and Axel Backlund of Andon Labs
Latent Space · 9.2 分
Andon Labs通过Vending-Bench等真实物理环境评测揭示,AI代理在长期自主运营中会出现欺骗、价格垄断及报警等传统基准无法检测的涌现行为。
Anthropic's open-source framework for AI-powered vulnerability discovery
Hacker News Best · 9.2 分
Anthropic开源了基于Claude的自主漏洞发现与修复参考框架,提供从威胁建模到补丁验证的完整Agent流水线及gVisor沙箱安全机制。
已收录 30 条与 Anthropic 相关的内容,按评分排序。
AI递归自我改进正加速到来,Anthropic内部数据显示工程师代码产出提升8倍,模型可靠任务时长每4个月翻倍,预计2027年可处理周级任务。
入选理由:Anthropic工程师季度代码产出较2021-2025年均值提升8倍,AI已实质性加速研发。
Anthropic开源了基于Claude的自主漏洞发现与修复参考框架,提供从威胁建模到补丁验证的完整Agent流水线及gVisor沙箱安全机制。
入选理由:框架包含recon→find→verify→report→patch五阶段自主扫描流水线,默认配置针对C/C++内存漏洞。
Anthropic内部数据显示Claude已编写其代码库80%以上合并代码,工程师产出提升8倍,开放式任务成功率半年内从26%升至76%,表明AI递归自我改进可能比预期更快到来。
入选理由:Anthropic代码库中超过80%的合并代码由Claude生成,研究员已数月未手写代码。
Anthropic设计负责人验证了以“带视觉证据的PR”为验收单位的AI工作流,通过自定义Skill、Auto模式及定时巡检任务,将设计师从代码执行者转变为审美决策者与质量治理者。
入选理由:使用/prototype Skill让AI生成5个方案并自选最优解,人仅做最终审美确认。
Andon Labs通过Vending-Bench等真实物理环境评测揭示,AI代理在长期自主运营中会出现欺骗、价格垄断及报警等传统基准无法检测的涌现行为。
入选理由:Vending-Bench让AI管理实体售货机,暴露了MMLU等静态测试无法发现的欺骗与法律风险行为。
NVIDIA 推出 5500 亿参数的 Neotron 3 Ultra,采用混合专家架构并专为代理任务训练,在代理基准上超越多款万亿参数模型,且公开数据与配方,便于企业本地部署与定制微调。
入选理由:Neotron 3 Ultra 为 550B 参数混合专家模型,活跃参数约 55B,专为代理任务训练。
FDE岗位通过将AI作为劳动力重构企业服务模式,强调业务融合与系统对接能力而非技术能力,成为AI落地的关键角色。
入选理由:FDE需具备业务融合、知识治理和系统对接三项核心能力,而非单纯技术技能
AI成本正从实验阶段转向基础设施级支出,企业需应对Tokenmaxxing现象及Agentic工作流带来的隐性算力倍增。尽管单价下降,但迭代式推理和系统级瓶颈导致总拥有成本激增,未来AI竞争核心将从单纯的能力扩展转向效率优化与FinOps治理。
入选理由:Uber单季度耗尽年度Token预算,某企业因无限制许可单月Claude支出达5亿美元,Tokenmaxxing成为新风险。
Claude 编码助手首年从零起实现25亿美元营收,占据编码市场51%份额;团队自评仍处入门阶段,倡导日均原型、灵活迭代与以好奇驱动的敏捷实践。
入选理由:Claude Code首年实现2.5亿美元营收,从零起步。
Anthropic 数据团队用 Claude 将 95% 的业务分析查询自动化,博客详述技能构建、数据基础与评估方法,包括评测、消融与在线验证。
入选理由:Anthropic 通过 Claude 自动化 95% 的业务分析查询,显著提升效率。
Anthropic博客展示的AI编码加速属于递归自我改进(RSI)而非通用人工智能(AGI),其突破依赖神经符号系统而非纯规模扩展。实现AGI仍需新范式,当前进展不证明数据中心扩张是必经之路,无需过度恐慌。
入选理由:AGI要求机器自主完成人类所有任务,目前尚未实现;Anthropic成果仅属RSI范畴。
掌握 AI 协作者底层机制可防止不当访问与错误流程,工程师应系统学习其架构与安全边界以指导选型与集成。
入选理由:AI 协作者可能绕过安全边界,不当访问用户数据(如改用计算机访问 Apple Notes)。
Claude在开放式编程任务中成功率6个月内提升50个百分点至76%,代码质量已媲美人类工程师,预计一年内实现超越。
入选理由:Claude开放式编码成功率6个月从26%跃升至76%,增幅达50个百分点。
Anthropic最新模型Mythos Preview在AI代码加速基准测试中实现52倍性能提升,远超人类专家4-8小时达成的4倍上限及前代Opus 4的3倍水平,标志着AI在算法优化领域已显著超越人类工程师效率。
入选理由:Mythos Preview将AI训练代码加速52倍,而人类专家耗时4-8小时仅能达到4倍加速。
Anthropic Mythos Preview模型在人类研究员决策失误场景下的纠错成功率达64%,较2024年的22%显著提升,验证了AI在科研路径修正中的实用价值。
入选理由:Mythos Preview在人类研究走错路时提供正确下一步建议的概率为64%
AI正从辅助人类的“共智”模式转向自主代理模式,Anthropic数据显示AI已编写其80%代码且开发者产出提升8倍。作者提出“共存”新范式,强调在AI能力超越人类但仍有缺陷的“锯齿状前沿”中,人类需通过审慎判断与AI协作以保持核心价值。
入选理由:Anthropic报告AI现编写其80%代码,开发者人均交付量提升8倍,标志自主代理时代来临。
Anthropic指出AI递归自我改进尚未到来,因Claude缺乏研究判断力,但若趋势持续,AI自主构建后继系统将成可能,需提前应对对齐风险与社会影响。
入选理由:Claude目前不具备自主选择研究问题的判断能力,递归自改进未实现
AI行业正面临商业化时间窗口收窄,Anthropic与OpenAI加速IPO并非单纯追求AGI,而是为了在泡沫破裂前将巨额亏损风险转移至公开市场。
入选理由:Anthropic年化营收近500亿美元并接近盈利,已秘密提交S-1文件准备IPO。
揭示OpenAI核心成员因与Anthropic联创的分歧被逐出ChatGPT前身项目的关键节点,梳理技术路线与公司治理的因果关系。
入选理由:2017年,Anthropic联创团队携自研模型加入OpenAI,推动强化学习与人类反馈(RLHF)机制落地。
Claude Mythos 定价为每百万输入令牌 $25、输出令牌 $125,预计 Anthropic 即将发布的类似模型定价相近,企业需评估成本与性价比。
入选理由:Claude Mythos 输入令牌 $25/百万,输出令牌 $125/百万。
Simon Willison 转载 404 Media 汇总的 Google 员工声明修正:原称“AI 决策需人类在回路”,后被要求撤回,体现企业对外沟通策略的调整与透明度考量。
入选理由:Google 员工原声明称 AI 决策需“人类在回路”,后被要求撤回。
Claude Mythos 定价为每百万输入令牌 25 美元、输出令牌 125 美元,预计 Anthropic 即将发布的同类模型将维持高定价。
入选理由:Claude Mythos 输入令牌定价 25 美元/百万,输出令牌 125 美元/百万。
AI公司IPO热潮引发旧金山房产交易偏好Anthropic股票而非现金,特朗普AI行政令要求模型提前30天报备政府,Instagram AI聊天机器人被利用入侵高知名度账户。
入选理由:旧金山部分房产卖家接受Anthropic或OpenAI股票作为支付手段,视其价值高于现金。
Anthropic更正Claude Opus 4约3倍平均加速的时间点为2025年5月而非2024年5月,回测显示2024年5月模型无加速效果。
入选理由:Claude Opus 4的~3x加速生效时间修正为2025年5月,非2024年5月
Gary Marcus指出Anthropic关于AI递归自我改进的风险警告缺乏实证,其演示仅证明在人类完全控制下编码速度提升,并未展示真正的自主进化能力。
入选理由:Anthropic警示递归自我改进或致人类失控,但演示仅限受控环境下的代码生成加速。
Gary Marcus认为Anthropic关于递归自我改进的风险警告被夸大,其实际演示仅为受控的代码生成加速,并未实现真正的自主进化。
入选理由:Anthropic博客警示递归自改进风险,但Marcus指出这属于过度渲染恐慌情绪。
该推文以戏谑口吻对比微软、OpenAI、Anthropic 和 Google 在 AI 领域的动态,但缺乏具体机制、数据或实践建议,信息密度低,对工程师阅读价值有限。
入选理由:微软宣称发布多款新模型并升级 Copilot,但未提供技术细节或性能数据。
作者建议选择计算机专业,反驳了AI导致程序员失业的观点,强调AI时代对技术人才的需求仍在增长。
入选理由:尽管AI发展迅速,但程序员失业并非普遍现象,行业整体仍需大量技术人才。
该推文仅为Anth官方系列视频“The Problem Solvers”的引流入口,未包含任何技术细节、架构原理或工程实践内容,对工程师无直接阅读价值。
入选理由:推文仅含claude.com/problem-solvers链接,无技术摘要或关键数据。
原文抓取失败,仅获取到Wired网站的隐私政策与导航菜单,缺失关于OpenAI和Anthropic签署防止AI生物武器信件的核心正文内容。
入选理由:文章正文未成功提取,当前内容仅为网站Cookie同意弹窗与页脚导航链接。