T
traeai
登录

概念

SWE-Bench

用于评估编程模型性能的基准测试集。

已跟踪 5 条高相关材料

TraeAI 观察

相关材料

已收录 5 条与 SWE-Bench 相关的内容,按评分排序。

When AI Builds Itself: Our progress toward recursive self-improvement

当AI构建自身:我们迈向递归自我改进的进展

Hacker News Best5602 字 (约 23 分钟)
92

AI递归自我改进正加速到来,Anthropic内部数据显示工程师代码产出提升8倍,模型可靠任务时长每4个月翻倍,预计2027年可处理周级任务。

入选理由:Anthropic工程师季度代码产出较2021-2025年均值提升8倍,AI已实质性加速研发。

精选文章#递归自我改进#Anthropic#AI智能体#SWE-bench#METR英文
Cohere 发布首个开源编程模型「North Mini Code」

小参数、高效率、专做 Agent 编程
参数:MoE 架构(30B, 3B),128专家,每 token 激活 8 个
上下文:...

Cohere 发布开源编程模型 North Mini Code,采用 MoE 架构,专为 Agent 编程优化,性能接近大模型。

入选理由:North Mini Code 使用 MoE 架构,参数规模为 30B 和 3B,每 token 激活 8 个专家。

精选推文#Cohere#开源模型#编程模型#Agent#MoE中英混合
Can LLMs generate Enterprise Quality Code? — Prasenjit Sarkar, Sonar

LLM能生成企业级代码吗?——Prasenjit Sarkar, Sonar

AI Engineer3517 字 (约 15 分钟)
85

LLMs生成的代码虽功能通过率高(如Gemini 3.1 Pro达84.17%),但存在严重可维护性与安全缺陷,Sonar用4,444个Java任务评估发现其每百万行代码含614个bug,且代码冗长、复杂度高。

入选理由:Gemini 3.1 Pro在SWE Bench测试中功能通过率达84.17%,但生成代码冗长(307,000行)且复杂度高(圈复杂度234)。

精选视频#LLM#代码质量#Sonar#企业级开发英文
Import AI 图标

Import AI 455: AI systems are about to start building themselves.

Import AI2928 字 (约 12 分钟)
85

AI系统即将实现自我构建,预计到2028年可能实现无人参与的AI研发。

入选理由:无人参与的AI研发可能在2028年前实现,概率超60%

精选文章#AI#自动化#研发中文

跨材料问答 · SWE-Bench

回答基于:SWE-Bench 相关 5 条材料
    0 / 500

    AI 可能会生成不准确的信息,请核实重要内容