Claude Opus 4.8已发布:真如宣传般强大吗?

TL;DR · AI 摘要
Opus 4.8在Sweet Bench Pro测试中达69.2%,超Opus 4.7约5点、GPT-4.5约10点;但实测中仍难解决‘最后10%’问题与幻觉,定价高昂($5/k输入token)。
核心要点
- Sweet Bench Pro得分69.2%,领先Opus 4.7(+5pt)、GPT-4.5(+10pt)与Gemini 3.1(+15pt)
- 定价为$5/千输入token、$25/百万输出token,成本显著高于主流模型
- 擅长新建项目原型与单次功能开发,但在存量代码边缘case与最终完善阶段易出错
结构提纲
按章节快速跳转。
Anthropic推出Opus 4.8作为面向Agent场景的跃升模型,强调诚实性、长周期自主性与企业就绪性。
在Sweet Bench Pro上得分为69.2%,较Opus 4.7提升近5个百分点,输入token定价为5美元/千,输出为25美元/百万。
在绿field原型和单次功能开发中表现出色,但在现有代码库的边缘case处理、最后10%完善及幻觉控制方面仍存明显不足。
在商业策略任务中Opus 4.8未全面超越4.7,尤其在数据密集型路线图规划中作者仍倾向使用4.7版本。
新增动态工作流(并行子Agent)与努力控制机制,作者推荐结合结构化提示与分阶段验证以最大化模型效能。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Claude Opus 4.8 实测评估
- 技术指标
- Sweet Bench Pro: 69.2%
- 定价: $5/k input, $25/M output
- 目标场景: Agent、长周期任务
- 实测表现
- 优势: 绿field原型、单次功能、执行速度
- 短板: 最后10%问题、边缘case、幻觉
- 存量代码适配差于Opus 4.7
- 配套能力
- 动态工作流(并行子Agent)
- Claude.ai/Cowork中的努力控制
- 推荐提示策略:分阶段验证+结构化指令
金句 / Highlights
值得收藏与分享的关键句。
Sweet Bench Pro得分69.2%,比Opus 4.7高近5点、GPT-4.5高近10点、Gemini 3.1高15点,是当前公开基准中最高分之一。
模型定价为$5/千输入token与$25/百万输出token,显著高于主流模型,对高频调用场景构成成本压力。
在真实编码测试中,Opus 4.8能快速完成原型搭建,但常在‘最后10%’——如错误处理、边界条件、文档一致性上失败。
作者明确指出:对于数据驱动型战略与路线图工作,Opus 4.7仍优于4.8,因其更稳定且幻觉率更低。
Claude Opus 4.8 已发布。它真如传闻中那般出色吗?
播放速度
1×
字幕
分享文章
从当前时间分享文章
从 0:00 分享
0:00
/
字幕
0:04
欢迎回到《How I AI》。我是Claire Vo,一名产品负责人兼AI狂热爱好者,致力于帮助您利用这些新工具更好地构建产品。今天我们有一期特别的迷你节目,因为Anthropic刚刚发布了Opus 4.8——他们最新的尖端编码模型。
0:20
我获得了几个小时的早期访问权限,现在要与大家分享我对该模型的初步印象:它在哪些场景下表现优异,在哪些方面令人印象深刻,以及哪些方面仍有提升空间。让我们开始吧。正如你们所见,
0:34
我不在平时录制《How I AI》的演播室里,因为我迫不及待想与你们分享对Opus 4.8的初步看法,甚至没等到会议间隙就赶来了。首先,我想介绍这个模型是什么,Anthropic公布的基准测试结果、性能表现,
0:50
以及它的优势所在。Anthropic推出的Opus 4.8被定位为面向代理(agents)的重大升级模型。他们强调了该模型的几个关键优势:更诚实可靠、减少设计缺陷、支持长期任务的自主性,以及企业级可用性(即严格遵循指令执行)。他们在Sweet Bench Pro基准测试中达到了69.2%的准确率,比Opus 4.7高出近5个百分点,比GPT 5.5高出近10个百分点,比Gemini 3.1高出15个百分点。不过这款模型并不便宜,输入标记每百万计价5美元,输出标记每百万计价25美元。
Claude Opus 4.8 已发布。它真如传闻中那般出色吗?
🎙️我对Opus 4.8的初步印象——它的优势与不足
2026年5月28日
字幕
我获得了数小时的早期访问权限,测试了Anthropic最新发布的Opus 4.8模型。通过Claude Code和Claude Cowork平台,我实际操作了真实的编码、设计和战略任务,并向你们呈现未经修饰的真实体验:哪些地方令我印象深刻,哪些地方尚有不足。
请在[YouTube](https://youtu.be/h0gZf1hL4D4)、[Spotify](https://open.spotify.com/show/4aRP2XSavdtrLG5FZoonOK)或[Apple Podcasts](https://podcasts.apple.com/us/podcast/how-i-ai/id1809663079)收听或观看
您将了解:
- Opus 4.8的优势领域:绿地原型开发、一次性功能实现和快速执行
- 它的短板:最后10%的完善工作、现有代码库中的边缘案例处理及幻觉问题
- Opus 4.8与4.7在商业战略任务中的对比表现
- 为何我在数据密集型战略和路线图工作中仍选择使用Opus 4.7
- 与模型同步推出的新功能:Claude.ai和Cowork平台的动态工作流(含并行子代理)及努力程度控制
- 如何通过提示词策略最大化发挥其潜力
- * *
本期内容概览:
(00:00) Opus 4.8简介
(00:44) 基准测试表现与定价
(01:53) 首个编码测试:构建原型工具
(03:00) 短板分析:最后10%的问题
(03:27) 幻觉问题解析
(04:23) 现有代码库测试
(05:24) 雄心测试:为9岁儿童开发游戏
(07:03) 商业战略测试:4.7 vs 4.8
(08:23) 路线图测试
(09:17) 最终结论
参考资料:
• 系统卡片:Claude Opus 4.8:https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf
• X平台上的Claude Opus 4.8发布介绍:
如何联系Claire Vo:
ChatPRD:https://www.chatprd.ai/
LinkedIn:https://www.linkedin.com/in/clairevo/
制作与营销由https://penname.co/提供。如需赞助本播客,请发送邮件至jordan@penname.co。
#### 关于此视频的讨论
评论 Restacks

How I AI
《How I AI》由Claire Vo主持,旨在帮助所有希望利用这些神奇新工具提升工作质量和效率的人。每期节目中,嘉宾将分享他们在工作或生活中运用AI的具体、实用且具影响力的实践方法。期待30分钟的节目、实时屏幕共享以及可立即复制的技巧/策略/工作流。如果您想揭开AI的神秘面纱,并掌握在这个新时代取得成功所需的技能,那么这档播客正适合您。
我是如何使用AI的,由Claire Vo主持,适合所有想知道如何真正利用这些神奇的新工具来提高工作质量和效率的人。每一集,嘉宾都会分享他们在工作或生活中学到的具体、实用且有影响力的方式来使用AI。期待30分钟的节目、实时屏幕共享,以及你可以立即复制的小贴士/技巧/工作流程。如果你想揭开AI的神秘面纱,并学习在这个新世界中茁壮成长所需的技能,这个播客就是为你准备的。
在以下平台收听:
Substack App
Apple Podcasts
Spotify
YouTube
Overcast
Pocket Casts
RSS Feed
出现在以下剧集中
近期剧集

5月27日•Claire Vo

开发Claude Cowork背后的工程师是如何实际使用Claude的 | Felix Rieseberg(Anthropic)
5月25日•Claire Vo

5月20日•Claire Vo

HTML是新的Markdown:Anthropic工程师如何使用Claude Code进行构建 | Thariq Shihipar
5月18日•Claire Vo

基于规范的开发:Notion的AI工程工作流 | Ryan Nystrom
5月11日•Claire Vo

5月7日•Claire Vo

任务、代币排行榜和技能市场:精英AI采用路线图 | John Kim(Sendbird)
5月6日•Claire Vo