Claude 4.8炸场!部分能力超过Mythos,支持数百子智能体并行
Claude Opus 4.8发布,代码缺陷漏报率降至4.7版的1/4,硬编答案概率降为1/10;新增动态工作流支持数百子智能体并行执行任务,Bun项目实测产出75万行Rust代码、99.8%测试通过。
入选理由:Opus 4.8代码缺陷漏报率仅为Opus 4.7的25%,硬编答案行为概率下降至1/10
产品
别名:DevinAI
Cognition开发的自主AI软件工程师Agent,具备端到端编码能力。
已跟踪 30 条高相关材料
最近变化
2026-06-04 · Cognition发布AI生产力保证,若Devin产出价值低于费用,官方补贴使用费直至达标,上限1000万美元。
为什么值得关注
Devin 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
Claude 4.8炸场!部分能力超过Mythos,支持数百子智能体并行
量子位 · 8.7 分
Claude Opus 4.8发布,代码缺陷漏报率降至4.7版的1/4,硬编答案概率降为1/10;新增动态工作流支持数百子智能体并行执行任务,Bun项目实测产出75万行Rust代码、99.8%测试通过。
Run Untrusted Agent Code with LangSmith Sandboxes | Interrupt 26
LangChain · 8.5 分
LangSmith Sandboxes通过隔离执行环境安全运行不受信任的代理代码,有效防止如'sci-holude'供应链攻击等风险,适用于AI代理在软件工程、数据分析等场景。
🆕The Age of Async Agents: Devin’s 7x PR growth, 80% AI commits, background agents, memory, testing,...
Latent.Space(@latentspacepod) · 8.5 分
文章探讨了异步代理技术如何推动工程实践变革,包括80%的AI提交和7倍PR增长的具体案例。
已收录 30 条与 Devin 相关的内容,按评分排序。
Claude Opus 4.8发布,代码缺陷漏报率降至4.7版的1/4,硬编答案概率降为1/10;新增动态工作流支持数百子智能体并行执行任务,Bun项目实测产出75万行Rust代码、99.8%测试通过。
入选理由:Opus 4.8代码缺陷漏报率仅为Opus 4.7的25%,硬编答案行为概率下降至1/10
LangSmith Sandboxes通过隔离执行环境安全运行不受信任的代理代码,有效防止如'sci-holude'供应链攻击等风险,适用于AI代理在软件工程、数据分析等场景。
入选理由:75% of Google code is AI-generated, 41% of GitHub commits from AI, 需LangSmith Sandboxes防止安全风险。
文章探讨了异步代理技术如何推动工程实践变革,包括80%的AI提交和7倍PR增长的具体案例。
入选理由:Devin通过异步代理技术将Cognition仓库的提交比例从16%提升至80%。
Cognition推出AI生产力保障计划,承诺若Devin提供的工程价值低于费用,将资助用户直至达标,上限1000万美元,推动行业从Token消耗转向实际产出。
入选理由:Cognition为Devin提供最高1000万美元的AI生产力保障,覆盖价值不足时的使用成本。
Cognition推出AI生产力保证计划,以Devin任务节省的有效工程工时替代Token消耗量作为价值衡量标准,若交付价值低于付费金额则由官方补贴最高1000万美元,推动行业从活动指标转向产出指标。
入选理由:Cognition发布AI生产力保证,若Devin产出价值低于费用,官方补贴使用费直至达标,上限1000万美元。
文章探讨了在大规模代理开发中验证端到端测试能力的实践经验,强调了虚拟机技术的重要性。
入选理由:文章分享了在Devin虚拟机中构建端到端测试能力的经验。
Cognition Labs宣布Devin现在可以在Windows虚拟机中本地运行,从而能够构建、运行和测试原生Windows应用程序。
入选理由:Devin现在支持在Windows虚拟机中本地运行。
Cognition Labs 宣布 Devin 现在支持 Windows 原生工具链,包括 MSBuild、IIS、PowerShell 和 SQL Server 等,并且在这些系统实际依赖的环境中运行。Devin for Windows 提供了企业级的安全和治理控制,如隔离会话、不使用客户代码进行训练,以及符合 SOC 2 Type II 和 ISO 27001 标准,支持单点登录和基于角色的访问控制。
入选理由:Devin now supports Windows-native toolchains such as MSBuild, IIS, PowerShell, and SQL Server.
Cognition 宣布推出 Devin for Security,将 AI 工程师能力引入安全修复场景,应对 AI 加速漏洞利用与防御工具滞后之间的矛盾。
入选理由:安全修复本质是工程产能问题,而非单纯工具或流程问题。
Cognition分享了Devin虚拟机的端到端测试能力,强调了大规模验证的实施细节。
入选理由:Cognition在Devin虚拟机中实现了端到端测试。
Scott Wu分享了他在77秒内完成Expert级别的Minesweeper游戏,并宣布Devin现在支持Windows虚拟机。这可能意味着Devin平台增加了对Windows环境的支持,使得用户可以在该平台上运行Windows应用程序和游戏。
入选理由:Scott Wu在77秒内完成了Expert级别的Minesweeper游戏。
Cognition Labs raised over $1B at a $26B valuation, with enterprise usage growing over 10x and run-rate revenue reaching $492M. Devin, launched two years ago, has driven the adoption of cloud agents in software development.
入选理由:Cognition Labs secured $1B funding at $26B valuation
Beau Rothrock 在 AngelList 面临 Redshift 到 Snowflake 的迁移困境,仅用 5 周时间完成 14,000 个仪表板和报告的迁移。
入选理由:在 5 周内完成 14,000 个仪表板和报告的迁移任务。
Devin AI在ECDSA电路优化中成功减少量子比特需求,展示了AI代理在密码学硬件研究中的前沿应用能力。
入选理由:Devin AI通过优化ECDSA电路显著降低了所需量子比特数量。
Cognition Labs 发布 Devin Desktop,一款本地运行的开发工具,可无缝衔接云端能力,支持本地规划后切换至云端继续工作。
入选理由:Devin Desktop 提供与云端 Devin 相同的集成、能力和智能。
Cognition has become a trusted partner for major organizations and fast-growing startups, enhancing their software development lifecycle with Devin.
入选理由:Cognition partners with large organizations like Citi and Mercedes-Benz.
Cognition推出Devin Auto-Triage功能,允许用户通过三步点击为任何Slack频道设置AI自动分类系统,并提供200美元的创作优惠。
入选理由:Devin Auto-Triage可为Slack频道设置AI自动分类功能,仅需三次点击。
Cognition 宣称其 AI 工程师 Devin 自动修复了巴西银行 Itaú 在 SonarQube、Fortify 和 Veracode 中 70% 的漏洞积压,但未披露方法、指标细节或第三方验证。
入选理由:Devin 在 Itaú 安全扫描工具积压中实现 70% 自动修复率
Cognition Labs 宣布其产品 Devin 能够运行和测试 Windows 应用程序,或者从头开始重建用户喜爱的应用。这可能意味着 Devin 是一个强大的开发工具或平台,能够处理 Windows 应用的开发和测试工作。
入选理由:Devin 可以运行和测试 Windows 应用程序。
Cognition 宣布使用 Devin 工具完成数据迁移,速度比预期快 5.2 倍。
入选理由:使用 Devin 工具可使数据迁移速度提升至预期的 5.2 倍。
Cognition为AI工程师Devin推出最高1000万美元工程价值保底承诺,若交付价值未达投入成本则退款,具体资格标准需查阅官方文档。
入选理由:Cognition提供最高$10M工程价值保底,未达盈亏平衡点可获赔付。
Cognition通过Carahsoft将AI编程平台Devin引入公共部门,旨在加速政府机构安全采用AI并实现软件开发现代化。
入选理由:Cognition与Carahsoft达成合作,使Devin AI编程平台正式进入公共部门市场。
Claude官方推文仅宣传Devin AI工程师由Scott Wu团队开发,未提供技术细节、性能数据或工程实践,属于营销型短讯,信息密度极低。
入选理由:Claude官方推文仅宣传Devin AI工程师由Scott Wu团队开发,未提供技术细节、性能数据或工程实践,属于营销型短讯,信息密度极低
Cognition 发布推文称 Modal 团队已在推理团队使用 Devin Auto-Triage 进行事件自动分类,Modal 工程师评价其比过往工具更进一步,能自动监控频道、对接代码库与可观测性栈并主动返回有用调查结果。
入选理由:Modal 推理团队已将 Devin Auto-Triage 投入生产用于事件自动分类
Cognition 宣布推出 Devin for Security,声称可提升安全团队修复漏洞与响应事件的能力,但未提供技术细节、架构说明或实证数据。
入选理由:Devin for Security 是 Cognition 推出的面向安全运营的 AI 工具
Cognition Labs 宣布 Devin 可集成至本地 shell,通过 Ctrl+G 快捷键触发,实时感知终端上下文并提供辅助,但正文无技术细节、架构说明或实测验证。
入选理由:Devin 已支持 shell 内嵌模式,以 Ctrl+G 触发交互
推文引用另一条推文称,Greptile发布的一份报告比较了不同编程代理的失败模式,提及Devin在多数类别中表现优于人类,但缺乏具体内容和数据支持。
入选理由:该内容为社交平台上的转引,未提供原始报告细节。
推文引用另一篇推文称 Greptile 发布报告,比较不同编程代理的失败模式,提及 Devin 在多数类别中优于人类,但无原始数据或分析。
入选理由:内容仅为社交转发,未提供原创技术细节或报告链接。
这是一条社交媒体推文,Scott Wu 表达了对与 Anthropic 团队深度合作的感激,并自嘲无法摆脱其中学数学教学视频的往事。
入选理由:Cognition 公司与 Anthropic 建立了深度合作伙伴关系。
Cognition发布Devin Auto-Triage功能,使AI助手能自动监控并初步处理软件bug、警报和事件,提供上下文分析与修复建议。该功能定位为具备长期记忆的AI第一响应者,但技术实现细节未公开。
入选理由:Devin Auto-Triage可自动监控软件bug、警报和事件