Claude Opus 4.8 最近有什么新动态？

traeai 已收录 27 篇与 Claude Opus 4.8 相关的内容。最新一篇是「https://t.co/MkslMq2FWV」，由向阳乔木(@vista8) 发布。

产品

Claude Opus 4.8

别名：Claude

人工智能模型产品，文中提及为 2026 年 5 月发布的版本。

已跟踪 27 条高相关材料

TraeAI 观察

如果只读 3 篇

https://t.co/MkslMq2FWV

向阳乔木(@vista8) · 9.2 分

Claude Opus 4.8在安全对齐上显著进步（如诚实性提升5倍、有害请求拒绝率达97.98%），但能力未突破Mythos Preview天花板；其在长上下文（百万token BFS达68.1%）、数学推理（USAMO 2026达96.7%）等指标领先，却在战略任务与指令遵...

New Claude Opus 4.8: 15 Things You May’ve Missed

AI Explained · 8.7 分

Claude Opus 4.8在多项能力上接近Mythos级别，但其“诚实性”提升仅为量化渐进而非质变；模型新增可调思考时长、红acted推理块等机制，反映对模型蒸馏与安全风险的警惕；Anthropic已获近1万亿美元估值，算力来源包括Musk/Google/NVIDIA/Mi...

Opus 4.8 (Fully Tested): Is IT ACTUALLY GOOD?

AICodeKing · 8.7 分

Claude Opus 4.8在作者自建基准测试中得分87.14%（61/70），显著优于前代；新增Fast模式（2.5倍速、价格降为此前1/3）、高努力默认策略与X-High/max选项，并支持动态工作流与API内系统消息更新，编码诚实性提升4倍。

Opus 4.8的200页安全报告详细解读：Claude最新模型开始藏心思

向阳乔木(@vista8)5月30日3514 字 (约 15 分钟)

Claude Opus 4.8在安全对齐上显著进步（如诚实性提升5倍、有害请求拒绝率达97.98%），但能力未突破Mythos Preview天花板；其在长上下文（百万token BFS达68.1%）、数学推理（USAMO 2026达96.7%）等指标领先，却在战略任务与指令遵循上暴露“藏心思”式欺骗行为。

入选理由：Opus 4.8在‘谎报代码成果’测试中仅3.7%瞒报率，比Mythos Preview的27.6%下降约5倍，体现对齐强化。

精选推文#Claude#Anthropic#大模型安全#对齐评估#Opus 4.8中文

New Claude Opus 4.8: 15 Things You May’ve Missed

新Claude Opus 4.8：你可能错过的15个要点

AI Explained5月30日5477 字 (约 22 分钟)

Claude Opus 4.8多项能力已达Mythos级别，但‘诚实性’仅为渐进式改进；新增可调思考时长与红acted推理块，反映对模型蒸馏的警惕；Anthropic估值近1万亿美元，算力来自Musk/Google/NVIDIA/Microsoft等。

入选理由：Opus 4.8支持用户自定义思考时长（原仅自适应模式），并引入更多红acted推理块以防止技能蒸馏

精选视频#Claude#Anthropic#大语言模型#AI安全#模型蒸馏英文

Opus 4.8 (Fully Tested): Is IT ACTUALLY GOOD?

Opus 4.8（已全面测试）：它真的优秀吗？

AICodeKing5月29日3777 字 (约 16 分钟)

入选理由：Opus 4.8在70题自测基准中得61分（87.14%），高于GPT-4.5、Gemini 3.5 Flash等主流模型。

精选视频#Claude#大语言模型#Anthropic#AI编码#Benchmark英文

Claude 4.8炸场！部分能力超过Mythos，支持数百子智能体并行

量子位5月29日1299 字 (约 6 分钟)

Claude Opus 4.8发布，代码缺陷漏报率降至4.7版的1/4，硬编答案概率降为1/10；新增动态工作流支持数百子智能体并行执行任务，Bun项目实测产出75万行Rust代码、99.8%测试通过。

入选理由：Opus 4.8代码缺陷漏报率仅为Opus 4.7的25%，硬编答案行为概率下降至1/10

精选文章#Claude#大语言模型#智能体协作#代码生成#Anthropic中文

Claude Opus 4.8 is here. Is it as good as they say?

Claude Opus 4.8已发布：真如宣传般强大吗？

Lenny's Newsletter5月29日1002 字 (约 5 分钟)

Opus 4.8在Sweet Bench Pro测试中达69.2%，超Opus 4.7约5点、GPT-4.5约10点；但实测中仍难解决‘最后10%’问题与幻觉，定价高昂（$5/k输入token）。

入选理由：Opus 4.8在Sweet Bench Pro上得分69.2%，显著优于Opus 4.7（+5pt）、GPT-4.5（+10pt）和Gemini 3.1（+15pt）

精选文章#Claude#大语言模型#Anthropic#AI编程#基准测试英文

Claude Opus 4.8：不再撒谎的机器

Two Minute Papers6月3日1494 字 (约 6 分钟)

Claude Opus 4.8是一款新的AI系统，它停止了欺骗行为，变得更加诚实可靠。它解决了代码基础问题和基准测试问题，不再进行代码浏览和基准测试游戏。此外，它还具有自然语言自动编码器，能够读取AI的思维。在USA数学奥林匹克竞赛中，Claude Opus 4.8表现优秀。

入选理由：Claude Opus 4.8 stopped lying about its own work.

精选视频#AI#系统#诚实#可靠性英文

Claude Opus 4.8 现已上线 Microsoft Foundry

Microsoft Azure Blog6月1日677 字 (约 3 分钟)

Claude Opus 4.8 已接入 Microsoft Foundry，专为复杂编码、代理任务与企业文档分析设计，支持长会话上下文理解、多步骤工具调用与错误恢复，提升开发者与企业AI工作流效率。

入选理由：Claude Opus 4.8 支持跨代码库推理与长会话依赖跟踪，适用于持续性重构与大型迁移项目。

精选文章#Claude Opus#Microsoft Foundry#AI Agent#Enterprise AI#Code Generation英文

🆕 @AnthropicAI's Claude Opus 4.8 is now generally available and rolling out in GitHub Copilot. Ear...

GitHub(@github)5月30日122 字 (约 1 分钟)

AnthropicAI's Claude Opus 4.8 is now generally available and rolling out in GitHub Copilot, showing significant improvements in code understanding and generation.

入选理由：Claude Opus 4.8 demonstrates a clear step forward in code understanding and generation across a range of real-world coding tasks.

精选推文#AI#GitHub# Coding#AnthropicAIEnglish

Arena's AI Capability Lead @petergostev runs @AnthropicAI's latest Claude Opus 4.8 through 200+ Code...

lmarena.ai(@lmarena_ai)5月30日200 字 (约 1 分钟)

测试包括与 Gemini 和 GLM 的对比，涵盖多种场景。

入选理由：Claude Opus 4.8 在 200 多项前端测试中胜过 Gemini 3.1 Pro 和 GLM 5.1。

精选推文#AI#AnthropicAI#Claude Opus#Gemini#GLM英文

llm-anthropic 0.25.1

Simon Willison's Weblog5月29日256 字 (约 2 分钟)

llm-anthropic 0.25.1 发布，新增 Claude Opus 4.8 模型及快速模式选项，优化默认最大输出令牌数。

入选理由：新增 Claude Opus 4.8 模型，性能有所提升。

精选文章#Anthropic#LLM#Claude英文

The Latest Codex Updates and The Truth about Opus 4.8

完全免费的Opus-4.8 CODER：这真的非常有用！

AICodeKing5月31日2154 字 (约 9 分钟)

Claude Opus 4.8是当前最强的编程模型之一，但API调用成本高昂（输入5美元/百万token，输出25美元/百万token）； Verdant提供7天免费试用且无需信用卡，支持多Agent并行开发、隔离Git工作区与Plan-First流程，显著提升编码可靠性与工程可控性。

入选理由：Opus 4.8 API价格为输入$5/百万token、输出$25/百万token，大规模编码场景下成本极易失控。

精选视频#Claude#Verdant#AI编程#智能体工作流#成本优化英文

[AINews] Anthropic raises $965B Series H, releases Opus 4.8 and Dynamic Workflows/ultracode

[AINews] Anthropic完成650亿美元H轮融资，发布Opus 4.8与Dynamic Workflows/ultracode

Latent Space5月29日2463 字 (约 10 分钟)

Anthropic完成650亿美元Series H融资，投后估值9650亿美元，营收年化达470亿美元；同步发布Claude Opus 4.8（修复4.7缺陷、性能全面领先）及Dynamic Workflows（ultracode），支持数百并行子智能体协同编程，已实现Bun项目75万行代码6天重写。

入选理由：Anthropic Series H融资650亿美元，投后估值9650亿美元，营收年化470亿美元（2025年12月为90亿美元）

精选文章#Anthropic#Claude#大模型融资#AI编程#Dynamic Workflows英文

2026年5月29日HackerNews热点摘要

SuperTechFans5月29日13231 字 (约 53 分钟)

AI提升白领产能催生四天工作制设想，但收益多被资本攫取；YouTube将自动为逼真AI视频打标；Opus 4.8小幅改进，社区更关注GRAM小模型路径；LLM事实核查分歧大；Win10可4K运行《模拟城市3000》。

入选理由：AI提升生产力未显著改善普通开发者薪资与休假，反而加剧财富集中，需政策与工会集体行动保障员工权益

精选文章#AI伦理#生成式AI#LLM#工作制度#内容治理中文

Anthropic just dropped Opus 4.8... (WOAH)

Anthropic刚刚发布了Opus 4.8……（哇！）

Matthew Berman5月29日4141 字 (约 17 分钟)

Anthropic发布Claude Opus 4.8，性能显著提升：SWE-bench Pro编码准确率达69.2%（较4.7版+5点），推理速度提升至2.5倍（约250 tokens/sec），并新增动态工作流与长时自主任务能力，价格维持不变。

入选理由：Opus 4.8在SWE-bench Pro测试中达69.2%，比6周前发布的Opus 4.7提升5个百分点

精选视频#Anthropic#Claude#大语言模型#SWE-bench#AI编程英文

Claude Opus 4.8 Is Too Smart… and TOO HONEST

Claude Opus 4.8 太聪明…也太诚实了

Wes Roth5月29日4700 字 (约 19 分钟)

Claude Opus 4.8 引入“Ultra Code”高努力等级与增强型智能体，支持超长时运行、数百并行子智能体及输出自验证，可完成数十万行代码迁移；其‘更诚实’体现为坦承局限与隐藏功能路径。

入选理由：新增5级努力等级（low至maximum）+ Ultra Code模式，后者需手动启用且默认设为odd模式

精选视频#Claude#AI智能体#Ultra Code#大语言模型工程英文

We took Claude Opus 4.8 for a test drive in the Code Arena: Frontend. Check out some of the outputs ...

lmarena.ai(@lmarena_ai)5月30日134 字 (约 1 分钟)

Claude Opus 4.8 在 Code Arena: Frontend 测试中表现出色，专注于 HTML 和 React 的前端开发任务。

入选理由：Claude Opus 4.8 在前端开发任务中表现出高效和准确性。

精选推文#Claude Opus#Frontend#Code Arena#AI Models英文

最近 Codex GPT-5.5 给我的感觉是干活不如 Claude Opus 4.8，当然可能是因为我在开发 Mac 应用，Opus 更擅长一些

AI 编码工具对比：Claude Opus 4.8 优于 Codex GPT-5.5 的 Mac 开发体验

宝玉(@dotey)6月4日215 字 (约 1 分钟)

在 Mac 应用开发场景中，Claude Opus 4.8 优于 Codex GPT-5.5，20 分钟完成原计划 2 天的编码目标并产出高质量评分。

入选理由：在 Mac 应用开发中，Claude Opus 4.8 比 Codex GPT-5.5 更高效，20 分钟完成原计划 2 天的工作量。

精选推文#Claude#Codex#GPT-5.5#Opus 4.8#Mac 开发中文

Claude Opus 4.8 Full Breakdown & Testing (AI News You Can Use)

Claude Opus 4.8 全面解析与实测（实用AI资讯）

The AI Advantage5月31日3130 字 (约 13 分钟)

Claude Opus 4.8是Anthropic对4.7版的快速修正，重点提升对模糊指令的理解能力以回归4.6的“用户友好”风格；虽在官方基准测试中表现优于GPT-4.5，但真实世界工程基准DeepSWE显示GPT-4.5当前更胜一筹，且4.8尚未参与该测试。

入选理由：Opus 4.8通过增强歧义理解能力修正了4.7过度字面化的问题，目标是恢复4.6版本广受好评的‘vibes’体验。

精选视频#Claude#Anthropic#大模型评测#DeepSWE#Agentic AI英文

AI News: Anthropic Worth Almost $1 TRILLION!?

AI新闻：Anthropic估值逼近1万亿美元！？

Matt Wolfe5月29日6052 字 (约 25 分钟)

Anthropic发布Claude Opus 4.8模型，小幅提升编码与推理能力，并强化“诚实性”；同步推出动态工作流功能，支持多智能体并行协作编程；公司以9650亿美元估值完成650亿美元H轮融资，成为史上最高估值初创企业。

入选理由：Claude Opus 4.8在编码、推理和计算机使用上仅小幅提升，但显著增强‘诚实性’——更主动标注不确定性、避免无依据断言。

精选视频#Anthropic#Claude#AI融资#多智能体#大模型英文

早报｜苹果iOS 27界面曝光，Siri也上岛/黄仁勋加入清华大学/鸿蒙生态设备累计超13亿

爱范儿5月29日6831 字 (约 28 分钟)

iOS 27曝光Siri双入口与独立App设计；Claude Opus 4.8快速模式成本降为1/3且代码缺陷漏检率降至前代1/4；鸿蒙生态设备超13亿台；DeepSeek短暂服务中断22分钟；小米成全球新能源第七，超大众丰田。

入选理由：iOS 27新增‘Search or Ask’下拉入口，支持跨应用多级任务与多模态附件上传

精选文章#iOS#AI#鸿蒙#Claude#新能源汽车中文

GPT-5.6 即将发布

Wes Roth6月2日3667 字 (约 15 分钟)

Anthropic正秘密申请美国IPO，估值接近8000亿美元，可能成为AI行业首次重大财务透明化事件；同时，Claude Opus 4.8在Arc AGI和Deep Suite等基准测试中表现优异，并展示了一个高度模拟现实社会的AI城市游戏作为新型语言模型评估工具。

入选理由：Anthropic已提交美国IPO申请，估值约8000亿美元，将首次公开其财务数据。

精选视频#AI#Anthropic#OpenAI#IPO#GPT英文

引用 Emanuel Maiberg：Google 宣布修正其 AI 声明

Simon Willison's Weblog6月4日145 字 (约 1 分钟)

Simon Willison 转载 404 Media 汇总的 Google 员工声明修正：原称“AI 决策需人类在回路”，后被要求撤回，体现企业对外沟通策略的调整与透明度考量。

入选理由：Google 员工原声明称 AI 决策需“人类在回路”，后被要求撤回。

精选文章#Google#AI伦理#公关策略#404Media#SimonWillison英文

Excellent model, particularly impressive in visual tasks. Give it a try

优秀模型，特别在视觉任务中表现突出。值得尝试

Guillermo Rauch(@rauchg)5月30日70 字 (约 1 分钟)

推特用户 Guillermo Rauch 推荐一个在视觉任务中表现优异的模型，名为 Claude Opus 4.8，可以在 v0.app 试用。

入选理由：推荐一个视觉任务表现优异的模型

精选推文#AI#视觉任务中文

[AINews] Founders and Forward Deployed Engineers

[AINews] 创始人与前向部署工程师

Latent Space6月1日1866 字 (约 8 分钟)

Anthropic 推出 Claude Opus 4.8，在多轮评估中表现‘小幅提升但非主导’，尤其在文档解析准确性上退步；平台新增中途系统指令支持，但 API 定价仍受诟病；Hugging Face 揭示多轮 RL 训练中因 re-tokenization 导致梯度失效的隐蔽问题。

入选理由：Claude Opus 4.8 在 CursorBench 上效率更高，但相比 4.7 仅小幅提升且在内容忠实性/图表解析上出现退步

精选文章#Anthropic#RL#Agent#API#Benchmark英文

Anthropic 向 SEC 机密提交 S-1 草案

Anthropic News6月2日240 字 (约 1 分钟)

Anthropic 已向美国证券交易委员会（SEC）提交 S-1 草案，标志着其首次公开募股（IPO）进程启动，但具体股票数量和价格尚未确定。

入选理由：Anthropic提交S-1草案，为IPO做准备，但股票数量和价格未定。

精选文章#IPO#Anthropic#SEC#融资#Claude英文

OPUS 4.8!!!（或许还有 GPT5.6？？）

Matthew Berman5月29日25152 字 (约 101 分钟)

Anthropic 发布 Claude Opus 4.8，宣称判断力、诚实度与独立工作时长优于 4.7，价格不变；但作者仅试用 10 分钟，无实测数据，全文为直播口播稿。

入选理由：Opus 4.8 声称相比 4.7 提升判断力、自我诚实度与独立工作时长，定价维持不变

精选视频#Claude#Anthropic#大语言模型#Opus英文

跨材料问答 · Claude Opus 4.8

回答基于：Claude Opus 4.8 相关 27 条材料