Claude Opus 4.8已发布:真如宣传般强大吗?
Opus 4.8在Sweet Bench Pro测试中达69.2%,超Opus 4.7约5点、GPT-4.5约10点;但实测中仍难解决‘最后10%’问题与幻觉,定价高昂($5/k输入token)。
入选理由:Opus 4.8在Sweet Bench Pro上得分69.2%,显著优于Opus 4.7(+5pt)、GPT-4.5(+10pt)和Gemini 3.1(+15pt)
人物
别名:Vo
Lenny's Newsletter 的作者,对 Claude Fable 5 进行了评测。
已跟踪 4 条高相关材料
最近变化
2026-06-09 · Claude Fable 5 是首个公开可用的 Mythos 级模型,但实际体验未达预期。
为什么值得关注
Claire Vo 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
Claude Opus 4.8 is here. Is it as good as they say?
Lenny's Newsletter · 8.7 分
Claude Opus 4.8在基准测试中达69.2%(Sweet Bench Pro),比Opus 4.7高5点、GPT-4.5高10点,但实际编码中仍存在“最后10%问题”与幻觉;定价为$5/千输入token、$25/百万输出token,适合绿field原型开发而非存量代码...
The Codex feature that works while you sleep
Lenny's Newsletter · 8.5 分
Claire Vo 在 Lenny's Newsletter 中介绍了一个名为 Codex 的 AI 工具中的 /goal 功能,该功能允许用户设置长期任务并在后台自动运行,无需持续干预。
Gemini Omni: Clone yourself with AI in under 15 minutes
Lenny's Newsletter · 7.2 分
使用Google Flow结合Gemini Omni模型,可在15分钟内完成从人脸扫描到生成1分钟AI数字人视频的全流程。该工具通过角色一致性功能解决多镜头连贯问题,并利用AI辅助生成分镜脚本,显著降低无视频制作经验者的创作门槛,但目前在微表情和物理规律模拟上仍存在恐怖谷效应。
已收录 4 条与 Claire Vo 相关的内容,按评分排序。
Opus 4.8在Sweet Bench Pro测试中达69.2%,超Opus 4.7约5点、GPT-4.5约10点;但实测中仍难解决‘最后10%’问题与幻觉,定价高昂($5/k输入token)。
入选理由:Opus 4.8在Sweet Bench Pro上得分69.2%,显著优于Opus 4.7(+5pt)、GPT-4.5(+10pt)和Gemini 3.1(+15pt)
Claire Vo 在 Lenny's Newsletter 中介绍了一个名为 Codex 的 AI 工具中的 /goal 功能,该功能允许用户设置长期任务并在后台自动运行,无需持续干预。
入选理由:/goal 功能可以让用户将长时间复杂任务自动化,无需持续干预。
使用Google Flow结合Gemini Omni模型,可在15分钟内完成从人脸扫描到生成1分钟AI数字人视频的全流程。该工具通过角色一致性功能解决多镜头连贯问题,并利用AI辅助生成分镜脚本,显著降低无视频制作经验者的创作门槛,但目前在微表情和物理规律模拟上仍存在恐怖谷效应。
入选理由:Google Flow配合Gemini Omni模型,支持5分钟内完成人脸扫描与AI分身创建。
Claude Fable 5 的发布存在宣传与实际体验的差距,其性能和适用性需进一步验证。
入选理由:Claude Fable 5 是首个公开可用的 Mythos 级模型,但实际体验未达预期。