Epoch AI 最近有什么新动态？

traeai 已收录 7 篇与 Epoch AI 相关的内容。最新一篇是「[AINews] FrontierCode: Benchmarking for Code Quality over Slop」，由 Latent Space 发布。

公司

Epoch AI

别名：epochai

发布 FrontierCode 的研究团队。

已跟踪 7 条高相关材料

TraeAI 观察

如果只读 3 篇

[AINews] FrontierCode: Benchmarking for Code Quality over Slop

Latent Space · 8.5 分

FrontierCode 是一项新的代码质量评估基准，专注于衡量代码是否可合并，而非仅通过单元测试。

Latest open artifacts (#21): Open model bonanza! Gemma 4, DeepSeek V4, Kimi K2.6, MiMo 2.5, GLM-5.1 & others. On CAISI's V4 assessment.

Interconnects AI · 8.5 分

中国开源模型与美国前沿模型能力差距持续扩大，CAISI评估显示差距达3-7个月。

How open model ecosystems compound

Interconnects AI · 8.5 分

中国开放的AI生态系统通过减少重复研发计算成本，提高了模型开发的效率和可持续性。

[AINews] FrontierCode: Benchmarking for Code Quality over Slop

Latent Space6月10日1922 字 (约 8 分钟)

FrontierCode 是一项新的代码质量评估基准，专注于衡量代码是否可合并，而非仅通过单元测试。

入选理由：FrontierCode 由开源维护者耗时 40 多小时构建，旨在评估代码是否可合并。

精选文章#FrontierCode#代码质量#AI 工程#基准测试英文

Latest open artifacts (#21): Open model bonanza! Gemma 4, DeepSeek V4, Kimi K2.6, MiMo 2.5, GLM-5.1 & others. On CAISI's V4 assessment.

最新开源成果（#21）：开源模型大爆发！Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等

Interconnects AI5月18日881 字 (约 4 分钟)

中国开源模型与美国前沿模型能力差距持续扩大，CAISI评估显示差距达3-7个月。

入选理由：CAISI评估显示中国开源模型在多个基准测试中落后于美国模型，差距达3-7个月。

精选文章#AI模型#开源#性能评估英文

开放模型生态系统的复合效应

Interconnects AI5月13日1141 字 (约 5 分钟)

中国开放的AI生态系统通过减少重复研发计算成本，提高了模型开发的效率和可持续性。

入选理由：中国AI生态系统的开放性减少了重复的研发计算成本，使实验室能够持续更长时间。

精选文章#AI#机器学习#开源#中国中文

AI Dev 26 x SF | Ara Khan: Evals Are Broken Use Them Anyway

AI Dev 26 x SF | Ara Khan：评估已失效，但仍必须用

DeepLearning.AI5月23日6775 字 (约 28 分钟)

当前 AI 评估（evals）存在严重缺陷，过度依赖客观指标易误导判断，但合理构建、解读并嵌入 agent 流程仍具关键价值。

入选理由：当前主流 eval（如 Epoch AI、OpenAI 的 benchmark）存在‘虚假精确性’，模型分数相近时实际能力差异显著。

精选视频#AI 评估#Agent 系统#基准测试#大模型#工程实践英文

Some ideas for what comes next, May 2026

Interconnects AI5月27日1700 字 (约 7 分钟)

作者预测2026年将是AI发展的关键一年，开放模型将面临更多挑战和机遇。

入选理由：2026年将是AI发展的关键一年，开放模型将面临更多挑战和机遇。

精选文章#AI#OpenAI#Claude Code#Codex中文

AI芯片组件成本：内存占比达63%

Hacker News Best5月24日1217 字 (约 5 分钟)

AI芯片中内存成本已占近三分之二，凸显存储性能瓶颈对整体算力效率的影响。

入选理由：AI芯片内存成本达63%，远超其他组件。

精选文章#AI芯片#内存成本#算力效率#硬件架构#数据中心英文

FrontierMath评测发现致命错误，将更新修正后分数

AI HOT 精选5月12日118 字 (约 1 分钟)

FrontierMath评测发现约三分之一题目存在致命错误，Epoch AI将发布修正后的数据集。

入选理由：FrontierMath Tiers 1-4中约33%的题目被标记为致命错误

精选文章#AI评测#数学基准测试#数据修正#Epoch AI#模型评估英文

跨材料问答 · Epoch AI

回答基于：Epoch AI 相关 7 条材料