DeepSWE 关于 Opus 4.8 的评分来了，强于 4.7 ，而且成本更低，效率更高，但是仍然落后 GPT5.5 很多，我还没有深度使用。甚至我还在用 4.6，没别的原因，就是便宜。

Viking(@vikingmute)

Viking(@vikingmute)2026年5月31日

DeepSWE 关于 Opus 4.8 的评分来了，强于 4.7 ，而且成本更低，效率更高，但是仍然落后 GPT5.5 很多，我还没有深度使用。甚至我还在用 4.6，没别的原因，就是便宜。

5.0Score

TL;DR · AI 摘要

DeepSWE 评测显示 Opus 4.8 性能优于 4.7，成本更低、效率更高，但远逊于 GPT-5.5；作者仍用更便宜的 4.6，因价格优势；并质疑 Benchmark 可信度，更信真实用户反馈。

核心要点

Opus 4.8 性能强于 4.7，成本更低、效率更高，但与 GPT-5.5 相比仍有明显差距。
作者当前仍使用 Opus 4.6，仅因价格更低，尚未深度体验 4.8 或 5.5。
作者对公开 Benchmark 存在‘祛魅’态度，更信任社交媒体中真实用户的主观反馈。

结构提纲

按章节快速跳转。

§核心评测结论
DeepSWE 评估 Opus 4.8 在性能、成本与效率上均优于 4.7，但与 GPT-5.5 相比仍有明显差距。
§用户实际选择行为
作者虽知晓 4.8 更优，仍坚持使用 4.6，唯一原因是价格更低，体现成本敏感型决策逻辑。
§对评测体系的反思
作者表示已对主流 Benchmark 产生怀疑，更信任社交媒体中真实用户的主观反馈而非标准化测试结果。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Opus 大模型版本对比与选型实践
- 性能比较
  - Opus 4.8 > 4.7（DeepSWE 评测）
  - Opus 4.8 << GPT-5.5（显著差距）
- 经济性考量
  - Opus 4.6 成本最低，被持续使用
  - 4.8 虽性价比提升，仍未替代 4.6
- 评估方式演变
  - Benchmark 祛魅：可信度下降
  - 真实用户反馈：优先级上升

金句 / Highlights

值得收藏与分享的关键句。

Opus 4.8 强于 4.7，且成本更低、效率更高，但距离 GPT-5.5 还有很大差距。
— 第一段
⬇︎ 下载 PNG 𝕏 分享到 X
我还在用 4.6，没别的原因，就是便宜——说明在同等性能下，价格仍是关键决策因素。
— 第一段
⬇︎ 下载 PNG 𝕏 分享到 X
我现在对 Benchmark 已经有点祛魅了，看它还不如看推上的真实评价——揭示当前模型选型中主观经验的价值上升趋势。
— 第一段
⬇︎ 下载 PNG 𝕏 分享到 X

#大模型#评测#Opus#GPT-5.5#成本效益

打开原文

而且我现在对 Benchmark 已经有点祛魅了，看它还不如看推上的真实评价，反正我觉得 5.5 肯定是大多数人的最强模型。 https://t.co/7qtafwUnmf" / X

Viking on X: "DeepSWE 关于 Opus 4.8 的评分来了，强于 4.7 ，而且成本更低，效率更高，但是仍然落后 GPT5.5 很多，我还没有深度使用。甚至我还在用 4.6，没别的原因，就是便宜。而且我现在对 Benchmark 已经有点祛魅了，看它还不如看推上的真实评价，反正我觉得 5.5 肯定是大多数人的最强模型。 https://t.co/7qtafwUnmf" / X

Don’t miss what’s happening

Viking

@vikingmute

Show translation

DeepSWE 关于 Opus 4.8 的评分来了，强于 4.7 ，而且成本更低，效率更高，但是仍然落后 GPT5.5 很多，我还没有深度使用。甚至我还在用 4.6，没别的原因，就是便宜。而且我现在对 Benchmark 已经有点祛魅了，看它还不如看推上的真实评价，反正我觉得 5.5 肯定是大多数人的最强模型。

1:11 PM · May 31, 2026

·

4,799 Views

32

8

2

Read 32 replies