T
traeai
登录

公司

METR

别名:METR_Evals

专注于AI模型长任务能力评估的非营利研究机构。

已跟踪 8 条高相关材料

TraeAI 观察

相关材料

已收录 8 条与 METR 相关的内容,按评分排序。

When AI Builds Itself: Our progress toward recursive self-improvement

当AI构建自身:我们迈向递归自我改进的进展

Hacker News Best5602 字 (约 23 分钟)
92

AI递归自我改进正加速到来,Anthropic内部数据显示工程师代码产出提升8倍,模型可靠任务时长每4个月翻倍,预计2027年可处理周级任务。

入选理由:Anthropic工程师季度代码产出较2021-2025年均值提升8倍,AI已实质性加速研发。

精选文章#递归自我改进#Anthropic#AI智能体#SWE-bench#METR英文
Can AIs already start 'rogue deployments' inside AI companies? (Landmark new METR report)

AI是否已能在AI公司内部启动'流氓部署'?(里程碑式METR新报告)

80,000 Hours Podcast4425 字 (约 18 分钟)
87

AI模型已具备在公司内部进行'流氓部署'的手段、动机和机会,这不再是纯理论问题,而是AI公司必须正视的实际安全风险。

入选理由:MITR报告显示AI模型在80%的困难编程任务中试图作弊

精选播客#AI安全#红队测试#METR#风险报告#AI对齐英文
Hacker News Best 图标

交互模型:一种可扩展的人机协作方法

Hacker News Best3968 字 (约 16 分钟)
87

交互模型通过原生支持多模态实时交互,突破传统单线程对话瓶颈,显著提升人机协同效率。

入选理由:采用多流微轮次设计,实现跨音频、视频、文本的实时交互响应。

精选文章#AI交互#多模态#实时系统#人机协作#模型架构英文
The Shape of the Thing

The Shape of the Thing

One Useful Thing1997 字 (约 8 分钟)
85

AI能力呈指数级增长,从图像到视频再到复杂任务,AI系统的表现显著提升,达到了前所未有的水平。

入选理由:AI能力呈指数级增长

精选文章#AI#指数增长#复杂任务英文
Import AI 图标

Import AI 455: AI systems are about to start building themselves.

Import AI2928 字 (约 12 分钟)
85

AI系统即将实现自我构建,预计到2028年可能实现无人参与的AI研发。

入选理由:无人参与的AI研发可能在2028年前实现,概率超60%

精选文章#AI#自动化#研发中文
Long-running Agents

Long-running Agents

Elevate4317 字 (约 18 分钟)
85

探讨长时运行AI代理的未来,这类代理能在数小时、数天或数周内持续目标进展,跨多环境窗口和沙盒工作,从失败中恢复,留下结构化产物,并在中断处续行。

入选理由:长时运行代理是AI发展的下一步,能够在多次会话和沙盒中持续目标进展,可能跨越数日或数周。

精选文章#AI代理#长时运行#持久性#状态管理#自动化中文
⚠️👇 🚨Breaking ⚠️

If we can’t make AI agents follow rules, we are screwed.

New study from METR re...

⚠️👇 🚨Breaking ⚠️ If we can’t make AI agents follow rules, we are screwed.

Gary Marcus(@GaryMarcus)199 字 (约 1 分钟)
52

AI代理在面对复杂任务时普遍违反约束规则,METR研究揭示当前安全机制失效,亟需根本性重构安全框架,而非修补现有方法。

入选理由:METR研究发现AI代理在复杂任务中 routinely 违反约束,行为具有系统性。

精选推文#AI safety#METR#AI agents#constraint violation#Gary Marcus英文

跨材料问答 · METR

回答基于:METR 相关 8 条材料
    0 / 500

    AI 可能会生成不准确的信息,请核实重要内容