T
traeai
登录

模型

GPT-5.5

别名:GPT-5.5

OpenAI新一代基础模型,具备增强的智能体编码与工具使用能力。

已跟踪 30 条高相关材料

TraeAI 观察

相关材料

已收录 30 条与 GPT-5.5 相关的内容,按评分排序。

#552. AI进展为何突然变得真实:详解 GPT 5.5、强化学习与模型最后一公里

GPT 5.5 等模型能力提升并非突变,而是模型可靠性跨过关键阈值的结果。强化学习、后训练优化及评估体系演进推动了 AI 实用化进程。

入选理由:GPT 5.5 通过增强推理能力和工具使用实现更强实用性

精选播客#AI#GPT#强化学习#模型训练#OpenAI中文
Introducing new capabilities to GPT-Rosalind

GPT-Rosalind的新能力

OpenAI Blog2278 字 (约 10 分钟)
85

OpenAI引入了GPT-Rosalind的新能力,旨在为生命科学研究提供企业级支持。该模型结合了GPT-5.5的生成文本和代码的能力,以及在药物发现核心领域(如药物化学和基因组学)的更强模型智能。GPT-Rosalind在生物学专家、复杂药物化学查询、定量生物学和湿实验流程中表现出色。

入选理由:GPT-Rosalind combines GPT-5.5's agentic coding and tool-use capabilities with stronger model intelligence in core drug-discovery domains.

精选文章#GPT-Rosalind#生命科学#研究#性能提升#模型更新英文
MiniMax M3一手实测:老黄PPT上74个Logo,我以为能难住它

MiniMax M3一手实测:老黄PPT上74个Logo,我以为能难住它

量子位3891 字 (约 16 分钟)
85

MiniMax M3是国内首个同时具备长上下文、多模态与Coding能力的开源模型,实测在SWE-Bench Pro上跑出59%成绩,超越GPT-5.5和Gemini 3.1 Pro,效率达上代1/20。

入选理由:M3在SWE-Bench Pro上得分59%,超越GPT-5.5和Gemini 3.1 Pro

精选文章#MiniMax#开源模型#多模态#编程能力#AI评测中文
OpenAI models and Codex on Amazon Bedrock are now generally available

OpenAI 模型和 Codex 现已在 Amazon Bedrock 上全面可用

AWS Machine Learning Blog965 字 (约 4 分钟)
85

OpenAI 的 GPT-5.5、GPT-5.4 和 Codex 现已在 Amazon Bedrock 全面上线,支持生产环境部署,定价与 OpenAI 官方一致,并继承 AWS 安全与治理框架。

入选理由:GPT-5.5 在 Bedrock 上提供与 OpenAI 直接调用相同的每 token 定价,无额外费用。

精选文章#OpenAI#Amazon Bedrock#GPT-5.5#Codex#AI推理英文
Finally a good benchmark (DeepSWE)

终于有了一个好的基准测试(Deep Suite)

Matthew Berman3734 字 (约 15 分钟)
85

Deep Suite 是一个软件工程基准测试,旨在提供比现有公共基准测试更准确的模型评估。它具有四个主要优势:无污染任务、高多样性、现实世界复杂性和可靠的验证。根据 Deep Suite 的测试,GPT 5.5 在性能上优于 Opus 4.7。

入选理由:Deep Suite 通过手写任务避免了模型在预训练期间看到解决方案的问题。

精选视频#AI#机器学习#深度学习#自然语言处理#软件工程中文
Hacker News Best 图标

I think Anthropic and OpenAI have found product-market fit

Hacker News Best1867 字 (约 8 分钟)
85

文章认为 Anthropic 和 OpenAI 已经找到了产品市场契合点,通过提高 API 价格锁定企业客户。

入选理由:Anthropic 和 OpenAI 都提高了 API 价格,锁定企业客户。

精选文章#Anthropic#OpenAI#API 价格#企业客户#产品市场契合点英文
https://t.co/o6CEQEW0V4

https://t.co/o6CEQEW0V4

向阳乔木(@vista8)2575 字 (约 11 分钟)
85

Every公司的CEO Dan Shipper分享了AI工具在实际工作中的应用,揭示了AI越强反而使人更忙的现象,并预测未来工作方式将向公司级和工作操作系统方向发展。

入选理由:AI工具在实际工作中存在缺陷,无法主动发现问题并重新定义。

精选推文#AI#Every公司#Dan Shipper#工作方式变革#SaaS中文
Underappreciated how capable GPT-5.5 is at cybersecurity:

Underappreciated how capable GPT-5.5 is at cybersecurity:

Greg Brockman(@gdb)94 字 (约 1 分钟)
85

GPT-5.5 被低估了其在网络安全领域的强大能力,成功发现了一个27年的远程代码执行漏洞。

入选理由:GPT-5.5 发现了一个1999年引入的27年-old RCE漏洞。

精选推文#GPT-5.5#网络安全#RCE漏洞#人工智能英文
OpenAI Blog 图标

Warp’s big bet on building open source with GPT-5.5

OpenAI Blog884 字 (约 4 分钟)
85

Warp 使用 GPT-5.5 推动开源软件开发,通过 Open Agentic Development 模型,人类定义目标,AI 代理执行任务,提高开发效率和代码质量。

入选理由:Warp 引入 Open Agentic Development 模型,AI 代理协助编写代码,提高开发效率。

精选文章#Warp#GPT-5.5#Open Agentic Development#Oz#开源软件开发英文
Simon Willison's Weblog 图标

I think Anthropic and OpenAI have found product-market fit

Simon Willison's Weblog1867 字 (约 8 分钟)
85

Anthropic和OpenAI通过调整定价策略,表明它们已经找到了产品市场契合点,企业客户现在按API价格付费,而非之前的折扣价。

入选理由:Anthropic和OpenAI将企业客户的定价从折扣价改为API价格。

精选文章#Anthropic#OpenAI#产品市场契合点#定价策略#企业客户中文
ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

ITBench-AA 是一个针对企业级自动化 IT 任务的新基准测试,首次评估前沿模型在 Site Reliability Engineering 任务中的表现,结果显示所有前沿模型得分低于 50%,其中 Claude Opus 4.7 表现最佳,为 47%。

入选理由:Claude Opus 4.7 在 ITBench-AA 中表现最佳,得分为 47%

精选文章#ITBench-AA#Site Reliability Engineering#前沿模型#IBM#Kubernetes中文
GPT-5.5 is a uniquely good coding model

GPT-5.5 是一个独特的好编程模型

Greg Brockman(@gdb)86 字 (约 1 分钟)
85

GPT-5.5 是一个独特的优秀编程模型,作者 Theo 表示已经对其产生了深厚的喜爱,并认为无法再使用其他模型进行代码编写。

入选理由:GPT-5.5 是一个独特的优秀编程模型。

精选推文#GPT-5.5#编程模型#Theo中文
GPT-5.5 is a very good model

GPT-5.5 是一个非常优秀的模型

Greg Brockman(@gdb)78 字 (约 1 分钟)
85

GPT-5.5 在复杂代理工作方面的表现有了显著提升,优于 Opus 4.7,显示出 OpenAI 的强劲竞争力。

入选理由:GPT-5.5 在复杂代理工作方面表现出色。

精选推文#GPT-5.5#OpenAI#Opus#模型性能#竞争力中文
The Latest Codex Updates and The Truth about Opus 4.8

最新的Codex更新与关于Opus 4.8的真相

Riley Brown6488 字 (约 26 分钟)
78

Anthropic发布Claude Opus 4.8,但多位专家指出其与4.7几乎无差异,已进入类似iPhone的‘渐进式升级’时代;Deep Suite实测显示GPT 5.5在编码任务中以更低成本获得更高得分,OpenAI Codex更新未公开但显著增强。

入选理由:Opus 4.8与4.7对比,作者及多位专家均无法分辨性能差异,体现模型演进进入‘iPhone式’渐进阶段。

精选视频#AI模型#Claude#GPT-5.5#Codex#SWEBench英文
Open source is going to win

We already have an open-weights model competitive with GPT-5.5 and Opus...

开源将赢得胜利

Paul Couvert(@itsPaulAi)203 字 (约 1 分钟)
75

开源模型MiniMax M3已达到与GPT-5.5和Opus 4.7相当的性能,尤其在编码任务上优于Gemini 3.1 Pro,且成本仅为它们的1/10,其权重将于下周在Hugging Face开放。

入选理由:MiniMax M3在SWE Bench Pro上与GPT-5.5性能相当

精选推文#开源#AI模型#MiniMax M3#GPT-5.5#Gemini英文
OpenAI + Amazon Bedrock:

OpenAI + Amazon Bedrock

Greg Brockman(@gdb)74 字 (约 1 分钟)
75

OpenAI 的 GPT-5.5、GPT-5.4 和 Codex 模型现已通过 Amazon Bedrock 正式上线,支持自动扩展和下一代推理引擎,助力企业构建多步骤自主代理系统。

入选理由:GPT-5.5、GPT-5.4 和 Codex 已在 Amazon Bedrock 上正式可用,支持自动扩展。

精选推文#OpenAI#Amazon Bedrock#GPT-5.5#AI 模型#云服务英文
$10K Cursor Credits 到期了,很想念它 😄

5月放开用 Cursor,差不多用了 $2K,大致整理了 Cursor 使用体验:
· 100% 时间都在用 Agent Window...

$10K Cursor Credits 到期了,很想念它 😄

meng shao(@shao__meng)400 字 (约 2 分钟)
75

Cursor 的 $10K 信用额度到期后,用户反馈其 Agent Window 模式几乎完全替代传统 IDE,GPT-5.5 和 Composer 2.5 在不同场景下表现优异,尤其 Fast 模式响应快且擅长生成流程图,但输出默认非 Markdown 且不支持直接复制为 Markdown,影响使用效率。

入选理由:用户 100% 时间使用 Cursor 的 Agent Window,未打开传统 IDE 界面。

精选推文#Cursor#AI 编辑器#Agent Window#GPT-5.5#Composer 2.5中英混合
Lovable on How GPT-5.5 Unlocks Better Planning for Complex Builds

GPT-5.5 在复杂构建任务中显著提升规划能力,用户一次性成功率达31%,遗忘率降低22%,使非技术用户可专注目标而非代码。

入选理由:GPT-5.5 规划阶段意图理解提升31%,减少重复交互需求。

精选视频#GPT-5.5#AI规划#Lovable#无代码开发英文
Paul Couvert(@itsPaulAi) 图标

So Alibaba has released Qwen-3.7-Max… and it’s really good.

Paul Couvert(@itsPaulAi)172 字 (约 1 分钟)
75

阿里推出Qwen-3.7-Max模型,在成本和性能上显著优于GPT-5.5和Opus 4.7,支持与Hermes Agent或OpenCode集成。

入选理由:Qwen-3.7-Max输出价格比Opus 4.7便宜3.3倍,比GPT-5.5便宜4倍。

精选推文#Alibaba#Qwen#LLM#AI Model#Cost Efficiency英文
Major upgrade to GPT-Rosalind, with much better intelligence for drug discovery, analysis, design, a...

GPT-Rosalind重大升级:药物研发智能体能力全面提升

Greg Brockman(@gdb)104 字 (约 1 分钟)
72

GPT-Rosalind重大升级整合GPT-5.5智能体编码与工具调用能力,显著提升药物发现、分析及实验工作流的企业级AI应用效能。

入选理由:GPT-Rosalind集成GPT-5.5的Agentic Coding能力,支持自动化药物研发代码生成与调试。

精选推文#GPT-Rosalind#AI制药#GPT-5.5#Agentic Coding英文
Google Just Changed Forever. Here's Why...

Google Just Changed Forever. Here's Why...

The AI Advantage4296 字 (约 18 分钟)
72

Google 在 I/O 大会上发布了 Gemini 3.5 Flash 模型,主打速度优势并强化免费体验,成为用户从 ChatGPT 或 Claude 转移的潜在理由。

入选理由:Gemini 3.5 Flash 成为 Google Search 和 Gemini 默认模型,推理速度显著优于竞品。

精选视频#Google#Gemini#AI 模型#大模型竞争#免费额度英文
OpenAI挖走中科大少年班校友!12岁上大学,哈佛史上最年轻正教授

尹希以学术休假身份加入OpenAI,推动AI与理论物理交叉研究,称AI可复制人类智力极限,加速科研百倍。

入选理由:尹希12岁入中科大少年班,31岁成哈佛最年轻华人正教授,现以学术休假身份加入OpenAI。

精选文章#OpenAI#AI for Science#理论物理中文
SWEbench is done.

SWEbench 已经失效?

Matthew Berman212 字 (约 1 分钟)
55

文章质疑SWEbench基准测试的可信度,指出GPT-5.5在DeepSuite中表现远超Claude Opus 4.7,但SWEbench结果却显示相反,表明该测试可能已失效。

入选理由:SWEbench测试结果被质疑,GPT-5.5在DeepSuite中得分为70%,显著高于Claude Opus 4.7的54%。

精选视频#SWEbench#DeepSuite#GPT-5.5#Claude Opus#AI评估英文
[AINews] Founders and Forward Deployed Engineers

[AINews] 创始人与前向部署工程师

Latent Space1866 字 (约 8 分钟)
55

Anthropic 推出 Claude Opus 4.8,在多轮评估中表现‘小幅提升但非主导’,尤其在文档解析准确性上退步;平台新增中途系统指令支持,但 API 定价仍受诟病;Hugging Face 揭示多轮 RL 训练中因 re-tokenization 导致梯度失效的隐蔽问题。

入选理由:Claude Opus 4.8 在 CursorBench 上效率更高,但相比 4.7 仅小幅提升且在内容忠实性/图表解析上出现退步

精选文章#Anthropic#RL#Agent#API#Benchmark英文
Viking(@vikingmute) 图标

最近觉得Deepseek v4 pro真的挺好用的 关键是便宜啊

Viking(@vikingmute)174 字 (约 1 分钟)
52

DeepSeek-V4 Pro因高性价比被用于review与写作任务,替代高价Qwen-Max;主力排序为GPT-5.5 > Claude 4.7 > DeepSeek-V4 Pro。

入选理由:DeepSeek-V4 Pro在小任务(如review、写作)中表现良好且价格显著低于Qwen-Max

精选推文#DeepSeek#Qwen#大模型选型#成本优化中英混合
DeepSWE 关于 Opus 4.8 的评分来了,强于 4.7 ,而且成本更低,效率更高,但是仍然落后 GPT5.5 很多,我还没有深度使用。甚至我还在用 4.6,没别的原因,就是便宜。

而且我现...

DeepSWE 评测显示 Opus 4.8 性能优于 4.7,成本更低、效率更高,但远逊于 GPT-5.5;作者仍用更便宜的 4.6,因价格优势;并质疑 Benchmark 可信度,更信真实用户反馈。

入选理由:Opus 4.8 性能强于 4.7,同时具备更低推理成本与更高效率,但未达 GPT-5.5 水平。

精选推文#大模型#评测#Opus#GPT-5.5#成本效益中文
SWEbench is done.

SWEbench 已失效。

Matthew Berman212 字 (约 1 分钟)
45

SWEbench 基准测试已失效,GPT 5.5 在 Deep Suite 上以 70% 准确率领先 Opus 4.7 的 54%,而 SWEbench 显示相反趋势,表明基准不可靠。

入选理由:GPT 5.5 achieves 70% accuracy on Deep Suite, significantly outperforming Opus 4.7 at 54%.

精选视频#SWEbench#Deep Suite#GPT#Opus#Gemini英文
11 is an even row window according to GPT 5.5 thinking.

根据GPT-5.5的推理,11是一个偶数行窗口

Suhail(@Suhail)50 字 (约 1 分钟)
20

GPT-5.5(虚构版本)错误地将数字11归类为‘偶数行窗口’,暴露了模型在基础数学与术语理解上的严重缺陷。

入选理由:GPT-5.5被指称将11误判为‘even row window’,实为对‘even’与‘row/window’等术语的语义混淆。

精选推文#AI幻觉#大语言模型#数学常识英文

跨材料问答 · GPT-5.5

回答基于:GPT-5.5 相关 30 条材料
    0 / 500

    AI 可能会生成不准确的信息,请核实重要内容