Viking(@vikingmute)
DeepSWE 关于 Opus 4.8 的评分来了,强于 4.7 ,而且成本更低,效率更高,但是仍然落后 GPT5.5 很多,我还没有深度使用。甚至我还在用 4.6,没别的原因,就是便宜。
5.0Score

TL;DR · AI 摘要
DeepSWE 评测显示 Opus 4.8 性能优于 4.7,成本更低、效率更高,但远逊于 GPT-5.5;作者仍用更便宜的 4.6,因价格优势;并质疑 Benchmark 可信度,更信真实用户反馈。
核心要点
- Opus 4.8 性能强于 4.7,成本更低、效率更高,但与 GPT-5.5 相比仍有明显差距。
- 作者当前仍使用 Opus 4.6,仅因价格更低,尚未深度体验 4.8 或 5.5。
- 作者对公开 Benchmark 存在‘祛魅’态度,更信任社交媒体中真实用户的主观反馈。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Opus 大模型版本对比与选型实践
- 性能比较
- Opus 4.8 > 4.7(DeepSWE 评测)
- Opus 4.8 << GPT-5.5(显著差距)
- 经济性考量
- Opus 4.6 成本最低,被持续使用
- 4.8 虽性价比提升,仍未替代 4.6
- 评估方式演变
- Benchmark 祛魅:可信度下降
- 真实用户反馈:优先级上升
金句 / Highlights
值得收藏与分享的关键句。
Opus 4.8 强于 4.7,且成本更低、效率更高,但距离 GPT-5.5 还有很大差距。
我还在用 4.6,没别的原因,就是便宜——说明在同等性能下,价格仍是关键决策因素。
我现在对 Benchmark 已经有点祛魅了,看它还不如看推上的真实评价——揭示当前模型选型中主观经验的价值上升趋势。
#大模型#评测#Opus#GPT-5.5#成本效益
打开原文而且我现在对 Benchmark 已经有点祛魅了,看它还不如看推上的真实评价,反正我觉得 5.5 肯定是大多数人的最强模型。 https://t.co/7qtafwUnmf" / X
Viking on X: "DeepSWE 关于 Opus 4.8 的评分来了,强于 4.7 ,而且成本更低,效率更高,但是仍然落后 GPT5.5 很多,我还没有深度使用。甚至我还在用 4.6,没别的原因,就是便宜。 而且我现在对 Benchmark 已经有点祛魅了,看它还不如看推上的真实评价,反正我觉得 5.5 肯定是大多数人的最强模型。 https://t.co/7qtafwUnmf" / X
Don’t miss what’s happening

Show translation
DeepSWE 关于 Opus 4.8 的评分来了,强于 4.7 ,而且成本更低,效率更高,但是仍然落后 GPT5.5 很多,我还没有深度使用。甚至我还在用 4.6,没别的原因,就是便宜。 而且我现在对 Benchmark 已经有点祛魅了,看它还不如看推上的真实评价,反正我觉得 5.5 肯定是大多数人的最强模型。
·
32
8
2
Read 32 replies