人物

DeepSWE

别名：deep swe

技术博主/评测者，以大模型横向对比著称。

已跟踪 3 条高相关材料

TraeAI 观察

最近变化

2026-05-31 · Opus 4.8 性能强于 4.7，同时具备更低推理成本与更高效率，但未达 GPT-5.5 水平。

为什么值得关注

DeepSWE 被反复提及时，通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。

DeepSWEGPT-5.5Agentic AIAnthropicClaude

如果只读 3 篇

昨天又有一个新的 coding benchmark DeepSWE：https://t.co/3V65OaHScM 创新是无污染的任务，就是所有任务全新原创，从零编写，未基于现有 PR/Commi...

Viking(@vikingmute) · 8.5 分

DeepSWE 是一个全新的编程基准测试，涵盖多种语言和真实世界复杂度，参考解决方案平均需要修改 668 行代码。

Claude Opus 4.8 Full Breakdown & Testing (AI News You Can Use)

The AI Advantage · 7.2 分

Claude Opus 4.8是Anthropic对4.7版的快速修正，重点提升对模糊指令的理解能力以回归4.6的“用户友好”风格；虽在官方基准测试中表现优于GPT-4.5，但真实世界工程基准DeepSWE显示GPT-4.5当前更胜一筹，且4.8尚未参与该测试。

DeepSWE 关于 Opus 4.8 的评分来了，强于 4.7 ，而且成本更低，效率更高，但是仍然落后 GPT5.5 很多，我还没有深度使用。甚至我还在用 4.6，没别的原因，就是便宜。而且我现...

Viking(@vikingmute) · 5 分

DeepSWE 对 Opus 4.8 的评测显示其性能优于 4.7、成本更低、推理效率更高，但仍显著落后于 GPT-5.5；作者自述仍在使用更便宜的 4.6 版本，且对主流 Benchmark 存在怀疑，更倾向依赖真实用户反馈判断模型强弱。

相关材料

已收录 3 条与 DeepSWE 相关的内容，按评分排序。

昨天又有一个新的 coding benchmark DeepSWE：https://t.co/3V65OaHScM

创新是无污染的任务，就是所有任务全新原创，从零编写，未基于现有 PR/Commi...

昨天又有一个新的 coding benchmark DeepSWE：https://t.co/3V65OaHScM 创新是无污染的任务，就是所有任务全新原创，从零编写，未基于现有 PR/Commi...

Viking(@vikingmute)5月28日409 字 (约 2 分钟)

85

DeepSWE 是一个全新的编程基准测试，涵盖多种语言和真实世界复杂度，参考解决方案平均需要修改 668 行代码。

入选理由：DeepSWE 是一个全新的编程基准测试，涵盖多种语言和真实世界复杂度。

精选推文#DeepSWE#编程基准测试#GPT-5.5#多语言#真实世界复杂度中文

Claude Opus 4.8 Full Breakdown & Testing (AI News You Can Use)

Claude Opus 4.8 全面解析与实测（实用AI资讯）

The AI Advantage5月31日3130 字 (约 13 分钟)

72

Claude Opus 4.8是Anthropic对4.7版的快速修正，重点提升对模糊指令的理解能力以回归4.6的“用户友好”风格；虽在官方基准测试中表现优于GPT-4.5，但真实世界工程基准DeepSWE显示GPT-4.5当前更胜一筹，且4.8尚未参与该测试。

入选理由：Opus 4.8通过增强歧义理解能力修正了4.7过度字面化的问题，目标是恢复4.6版本广受好评的‘vibes’体验。

精选视频#Claude#Anthropic#大模型评测#DeepSWE#Agentic AI英文

DeepSWE 关于 Opus 4.8 的评分来了，强于 4.7 ，而且成本更低，效率更高，但是仍然落后 GPT5.5 很多，我还没有深度使用。甚至我还在用 4.6，没别的原因，就是便宜。

而且我现...

DeepSWE 关于 Opus 4.8 的评分来了，强于 4.7 ，而且成本更低，效率更高，但是仍然落后 GPT5.5 很多，我还没有深度使用。甚至我还在用 4.6，没别的原因，就是便宜。

Viking(@vikingmute)6月1日366 字 (约 2 分钟)

50

DeepSWE 评测显示 Opus 4.8 性能优于 4.7，成本更低、效率更高，但远逊于 GPT-5.5；作者仍用更便宜的 4.6，因价格优势；并质疑 Benchmark 可信度，更信真实用户反馈。

入选理由：Opus 4.8 性能强于 4.7，同时具备更低推理成本与更高效率，但未达 GPT-5.5 水平。

精选推文#大模型#评测#Opus#GPT-5.5#成本效益中文

跨材料问答 · DeepSWE

回答基于：DeepSWE 相关 3 条材料