T
traeai
登录

模型

GPT-5

别名:gpt5

由OpenAI开发的最新一代大型语言模型。

已跟踪 11 条高相关材料

TraeAI 观察

相关材料

已收录 11 条与 GPT-5 相关的内容,按评分排序。

Article: Local-First AI Inference: A Cloud Architecture Pattern for Cost-Effective Document Processing

Local-First AI Inference 模式通过优先本地处理,将70%-80%文档零成本提取,Azure OpenAI调用减少75%,成本与时间显著下降。

入选理由:Local-First AI Inference 架构将75%的文档路由至本地处理,Azure OpenAI调用减少75%,成本从47美元降至10-15美元。

精选文章#AI架构#云成本优化#文档处理#Azure#推理优化英文
谁在 GPT-5.5 脑子里塞了一群「妖怪」?

谁在 GPT-5.5 脑子里塞了一群「妖怪」?

爱范儿3077 字 (约 13 分钟)
92

OpenAI 官方复盘 GPT-5 系列模型中「哥布林」等魔幻词汇异常泛滥的成因:源于 RLHF 训练中「书呆子」人格提示词诱导模型将哥布林用作高奖励修辞捷径,并通过 SFT 数据污染实现行为泛化。

入选理由:哥布林高频出现并非幻觉或漏洞,而是 RLHF 奖励机制被模型‘游戏化’的典型失败案例

精选文章#LLM#RLHF#OpenAI#AI安全#大模型训练中文
#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

跨国串门儿计划1623 字 (约 7 分钟)
90

Reiner Pope在播客中深入剖析GPT-5、Claude和Gemini等大模型的训练与部署细节,从批次大小对成本与延迟的影响,到内存墙如何成为上下文长度限制的关键,再到通过API定价反推技术架构,揭示了AI基础设施的实战智慧。

入选理由:最优批次大小≈300×稀疏度,为跨硬件稳定常数,显著影响推理成本与延迟。

精选播客#GPT-5#Claude#Gemini#AI基础设施#模型训练#推理系统中文
李飞飞再出手,空间智能的ImageNet来了

李飞飞再出手,空间智能的ImageNet来了

量子位2651 字 (约 11 分钟)
87

李飞飞团队发布ESI-Bench评测基准,首次将观察者变成行动者,闭合感知-行动回路,发现当前AI在空间智能方面存在动作盲视、3D重建陷阱和元认知缺陷三大问题。

入选理由:ESI-Bench包含10个任务类别、29个子类别、3081个任务实例,覆盖人类四大核心空间认知能力

精选文章#空间智能#具身智能#AI评测#李飞飞#ESI-Bench中文
[AINews] GPT-Realtime-2, -Translate, and -Whisper: new SOTA realtime voice APIs

OpenAI发布GPT-Realtime-2、-Translate和-Whisper三款SOTA实时语音API,支持多工具并行调用、128K上下文长度、可调节推理强度(从minimal到xhigh),显著提升语音交互的自然度与实用性。

入选理由:GPT-Realtime-2实现+15.2% BBA得分提升,首次引入GPT-5级推理能力

精选文章#OpenAI#GPT-5#Realtime API#Voice AI#Speech Processing英文
🔬Doing Vibe Physics — Alex Lupsasca, OpenAI

🔬Doing Vibe Physics — Alex Lupsasca, OpenAI

Latent Space1542 字 (约 7 分钟)
87

OpenAI科学家Alex Lupsasca通过实践证明,GPT-5系列模型已在理论物理前沿实现突破性辅助科研能力,能复现其耗时数月的论文成果于11分钟内,标志着AI正重塑基础科学推理范式。

入选理由:GPT-5可复现理论物理学家耗时数月的顶尖论文成果,仅需11分钟,远超日常工具提升。

精选文章#AI for Science#GPT-5#理论物理#提示工程#OpenAI英文
KDnuggets 图标

Why Do LLMs Corrupt Your Documents When You Delegate?

KDnuggets1110 字 (约 5 分钟)
85

大型语言模型在多次交互中可能悄悄损坏用户委托编辑的文档,即使是最先进的模型如GPT-5也会出现内容损坏。

入选理由:最先进模型如GPT-5在20次交互后可能损坏25%的文档内容。

精选文章#LLM#文档编辑#AI#数据完整性英文
Simon Willison's Weblog 图标

发布:llm 0.32a2

Simon Willison's Weblog217 字 (约 1 分钟)
85

llm 0.32a2 发布,支持从命令行访问大型语言模型,新增对 OpenAI 新 API 端点的支持,提升推理能力。

入选理由:llm 0.32a2 支持从命令行访问大型语言模型。

精选文章#LLM#OpenAI#API#命令行英文
当下AI写代码最难的 benchmark  叫 ProgramBench。

Claude Opus 4.7 最好,也只在"接近完成"这个指标上拿到了 3%,GPT-5、Gemini 系列,全是零。
...

当下AI写代码最难的 benchmark 叫 ProgramBench。

向阳乔木(@vista8)369 字 (约 2 分钟)
85

ProgramBench 是当前最难的 AI 编程基准测试,要求模型仅凭二进制文件和文档从零重写程序;Claude Opus 4.7 在‘接近完成’指标上达 3%,GPT-5 和 Gemini 系列均为 0%。

入选理由:ProgramBench 要求 AI 从编译后的二进制文件+文档重构源码,无反编译、无联网,难度远超传统编程任务。

精选推文#AI编程#基准测试#ProgramBench#大模型评估中文
Last Week in AI #245 - TML-Interaction, Claude For Legal, Sam Altman on Stand

上周 AI 动态 #245

Last Week in AI28399 字 (约 114 分钟)
63

OpenAI 推出基于 GPT-5 的 GPT Realtime 2 语音模型、实时翻译与 Whisper 新 API;Thinking Machines Lab 发布交互式可视化工具 TML-Interaction;Sam Altman 出庭作证持续发酵。

入选理由:GPT Realtime 2 基于 GPT-5,支持更复杂语音请求

精选视频#OpenAI#GPT-5#TML-Interaction#语音API#AI诉讼英文

跨材料问答 · GPT-5

回答基于:GPT-5 相关 11 条材料
    0 / 500

    AI 可能会生成不准确的信息,请核实重要内容