Jeff Dean 发布 Gemini 3.5
Google 发布 Gemini 3.5 模型家族,首发 3.5 Flash 专注于复杂智能体工作流,在编码和代理基准测试中超越 3.1 Pro,速度比前沿模型快 4 倍,在 Antigravity 中优化后可达 12 倍。
入选理由:Gemini 3.5 Flash 专为执行复杂、长周期的智能体工作流而设计。
概念
用于评估 Agent 在终端环境操作能力的基准测试。
已跟踪 3 条高相关材料
最近变化
2026-06-05 · Harness 定义为模型访问的工具、执行环境、系统提示词和文件系统的集合。
为什么值得关注
Terminal Bench 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
1/ Today at #GoogleIO, we’re releasing Gemini 3.5, our latest family of models combining frontier in...
Jeff Dean(@JeffDean) · 8.5 分
Google 发布 Gemini 3.5 模型家族,首发 3.5 Flash 专注于复杂智能体工作流,在编码和代理基准测试中超越 3.1 Pro,速度比前沿模型快 4 倍,在 Antigravity 中优化后可达 12 倍。
I'm very excited about this extension to the celebrated Terminal-Bench to science. If you're a scie...
Thomas Wolf(@Thom_Wolf) · 7.5 分
Thomas Wolf is excited about the extension of Terminal-Bench to scientific fields, known as Terminal-Bench Science. This benchmark evaluate...
What's the tea on harnesses?
LangChain · 7.2 分
Harness 是构建 AI Agent 的核心基础设施,由工具、执行环境、系统提示词和文件系统组成。通过优化 Harness 工程(如调整上下文和提示词),开发者可以在不更换底层模型的情况下显著提升 Agent 在特定基准测试(如 Terminal Bench)中的性能。
已收录 3 条与 Terminal Bench 相关的内容,按评分排序。
Google 发布 Gemini 3.5 模型家族,首发 3.5 Flash 专注于复杂智能体工作流,在编码和代理基准测试中超越 3.1 Pro,速度比前沿模型快 4 倍,在 Antigravity 中优化后可达 12 倍。
入选理由:Gemini 3.5 Flash 专为执行复杂、长周期的智能体工作流而设计。
Thomas Wolf is excited about the extension of Terminal-Bench to scientific fields, known as Terminal-Bench Science. This benchmark evaluates AI models' ability to control tools via the command line to achieve scientific goals. It's open for contributions of real scientific workflows until August 2026, aiming to improve AI models' assistance in research work.
入选理由:Terminal-Bench Science evaluates AI models' performance in handling scientific workflows through command-line tools.
Harness 是构建 AI Agent 的核心基础设施,由工具、执行环境、系统提示词和文件系统组成。通过优化 Harness 工程(如调整上下文和提示词),开发者可以在不更换底层模型的情况下显著提升 Agent 在特定基准测试(如 Terminal Bench)中的性能。
入选理由:Harness 定义为模型访问的工具、执行环境、系统提示词和文件系统的集合。