T
traeai
登录
返回首页
Viking(@vikingmute)

DeepSWE 关于 Opus 4.8 的评分来了,强于 4.7 ,而且成本更低,效率更高,但是仍然落后 GPT5.5 很多,我还没有深度使用。甚至我还在用 4.6,没别的原因,就是便宜。

5.0Score
DeepSWE 关于 Opus 4.8 的评分来了,强于 4.7 ,而且成本更低,效率更高,但是仍然落后 GPT5.5 很多,我还没有深度使用。甚至我还在用 4.6,没别的原因,就是便宜。

TL;DR · AI 摘要

DeepSWE 评测显示 Opus 4.8 性能优于 4.7,成本更低、效率更高,但远逊于 GPT-5.5;作者仍用更便宜的 4.6,因价格优势;并质疑 Benchmark 可信度,更信真实用户反馈。

核心要点

  • Opus 4.8 性能强于 4.7,成本更低、效率更高,但与 GPT-5.5 相比仍有明显差距。
  • 作者当前仍使用 Opus 4.6,仅因价格更低,尚未深度体验 4.8 或 5.5。
  • 作者对公开 Benchmark 存在‘祛魅’态度,更信任社交媒体中真实用户的主观反馈。

结构提纲

按章节快速跳转。

  1. DeepSWE 评估 Opus 4.8 在性能、成本与效率上均优于 4.7,但与 GPT-5.5 相比仍有明显差距。

  2. 作者虽知晓 4.8 更优,仍坚持使用 4.6,唯一原因是价格更低,体现成本敏感型决策逻辑。

  3. 作者表示已对主流 Benchmark 产生怀疑,更信任社交媒体中真实用户的主观反馈而非标准化测试结果。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Opus 大模型版本对比与选型实践
    • 性能比较
      • Opus 4.8 > 4.7(DeepSWE 评测)
      • Opus 4.8 << GPT-5.5(显著差距)
    • 经济性考量
      • Opus 4.6 成本最低,被持续使用
      • 4.8 虽性价比提升,仍未替代 4.6
    • 评估方式演变
      • Benchmark 祛魅:可信度下降
      • 真实用户反馈:优先级上升

金句 / Highlights

值得收藏与分享的关键句。

  • Opus 4.8 强于 4.7,且成本更低、效率更高,但距离 GPT-5.5 还有很大差距。

    第一段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 我还在用 4.6,没别的原因,就是便宜——说明在同等性能下,价格仍是关键决策因素。

    第一段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 我现在对 Benchmark 已经有点祛魅了,看它还不如看推上的真实评价——揭示当前模型选型中主观经验的价值上升趋势。

    第一段

    ⬇︎ 下载 PNG𝕏 分享到 X
#大模型#评测#Opus#GPT-5.5#成本效益
打开原文

而且我现在对 Benchmark 已经有点祛魅了,看它还不如看推上的真实评价,反正我觉得 5.5 肯定是大多数人的最强模型。 https://t.co/7qtafwUnmf" / X

Viking on X: "DeepSWE 关于 Opus 4.8 的评分来了,强于 4.7 ,而且成本更低,效率更高,但是仍然落后 GPT5.5 很多,我还没有深度使用。甚至我还在用 4.6,没别的原因,就是便宜。 而且我现在对 Benchmark 已经有点祛魅了,看它还不如看推上的真实评价,反正我觉得 5.5 肯定是大多数人的最强模型。 https://t.co/7qtafwUnmf" / X

Don’t miss what’s happening

Image 1

Viking

@vikingmute

Show translation

DeepSWE 关于 Opus 4.8 的评分来了,强于 4.7 ,而且成本更低,效率更高,但是仍然落后 GPT5.5 很多,我还没有深度使用。甚至我还在用 4.6,没别的原因,就是便宜。 而且我现在对 Benchmark 已经有点祛魅了,看它还不如看推上的真实评价,反正我觉得 5.5 肯定是大多数人的最强模型。

Image 2: Image

1:11 PM · May 31, 2026

·

4,799 Views

32

8

2

Read 32 replies

AI 可能会生成不准确的信息,请核实重要内容