T
traeai
登录

公司

Epoch AI

别名:epochai

发布 FrontierCode 的研究团队。

已跟踪 7 条高相关材料

TraeAI 观察

相关材料

已收录 7 条与 Epoch AI 相关的内容,按评分排序。

[AINews] FrontierCode: Benchmarking for Code Quality over Slop

[AINews] FrontierCode: Benchmarking for Code Quality over Slop

Latent Space1922 字 (约 8 分钟)
85

FrontierCode 是一项新的代码质量评估基准,专注于衡量代码是否可合并,而非仅通过单元测试。

入选理由:FrontierCode 由开源维护者耗时 40 多小时构建,旨在评估代码是否可合并。

精选文章#FrontierCode#代码质量#AI 工程#基准测试英文
How open model ecosystems compound

开放模型生态系统的复合效应

Interconnects AI1141 字 (约 5 分钟)
85

中国开放的AI生态系统通过减少重复研发计算成本,提高了模型开发的效率和可持续性。

入选理由:中国AI生态系统的开放性减少了重复的研发计算成本,使实验室能够持续更长时间。

精选文章#AI#机器学习#开源#中国中文
AI Dev 26 x SF | Ara Khan: Evals Are Broken Use Them Anyway

AI Dev 26 x SF | Ara Khan:评估已失效,但仍必须用

DeepLearning.AI6775 字 (约 28 分钟)
78

当前 AI 评估(evals)存在严重缺陷,过度依赖客观指标易误导判断,但合理构建、解读并嵌入 agent 流程仍具关键价值。

入选理由:当前主流 eval(如 Epoch AI、OpenAI 的 benchmark)存在‘虚假精确性’,模型分数相近时实际能力差异显著。

精选视频#AI 评估#Agent 系统#基准测试#大模型#工程实践英文
Some ideas for what comes next, May 2026

Some ideas for what comes next, May 2026

Interconnects AI1700 字 (约 7 分钟)
75

作者预测2026年将是AI发展的关键一年,开放模型将面临更多挑战和机遇。

入选理由:2026年将是AI发展的关键一年,开放模型将面临更多挑战和机遇。

精选文章#AI#OpenAI#Claude Code#Codex中文
Memory has grown to nearly two-thirds of AI chip component costs

AI芯片组件成本:内存占比达63%

Hacker News Best1217 字 (约 5 分钟)
75

AI芯片中内存成本已占近三分之二,凸显存储性能瓶颈对整体算力效率的影响。

入选理由:AI芯片内存成本达63%,远超其他组件。

精选文章#AI芯片#内存成本#算力效率#硬件架构#数据中心英文
FrontierMath评测发现致命错误,将更新修正后分数

FrontierMath评测发现致命错误,将更新修正后分数

AI HOT 精选118 字 (约 1 分钟)
55

FrontierMath评测发现约三分之一题目存在致命错误,Epoch AI将发布修正后的数据集。

入选理由:FrontierMath Tiers 1-4中约33%的题目被标记为致命错误

精选文章#AI评测#数学基准测试#数据修正#Epoch AI#模型评估英文

跨材料问答 · Epoch AI

回答基于:Epoch AI 相关 7 条材料
    0 / 500

    AI 可能会生成不准确的信息,请核实重要内容