Sign of the future: GPT-5.5

TL;DR · AI 摘要
GPT-5.5展示了AI在模型、应用和工具方面的重大进步,尤其在编码和图像生成方面表现出色。
核心要点
- GPT-5.5在编码挑战中优于前代模型,仅GPT-5.5 Pro成功模拟了城镇的演变。
- GPT-5.5 Pro比GPT-5.4 Pro快64%,完成任务时间从33分钟减少到20分钟。
- GPT-5.5的新图像模型能够生成高质量的文本和几乎任何描述的图片。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- GPT-5.5的进展
金句 / Highlights
值得收藏与分享的关键句。
GPT-5.5 Pro是唯一一个能够模拟一个不断发展的城镇的模型,而不是简单地生成新的建筑替换。
GPT-5.5 Pro比GPT-5.4 Pro快64%,完成任务时间从33分钟减少到20分钟。
GPT-5.5的新图像模型能够生成高质量的文本和几乎任何描述的图片。
标题: 未来的信号:GPT-5.5
URL 来源: https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55
发布时间: 2026-04-23T20:00:38+00:00
Markdown 内容: 我有幸提前访问了 GPT-5.51,我认为这是一件大事。它之所以重要是因为它表明我们还没有停止在人工智能领域的快速进步。它也是一件大事,因为它确实很好用。此外,即使有了这一切,人工智能能力的前沿仍然是参差不齐的。
随着人工智能变得越来越强大,越来越难以迅速展示每一代的变化,因为许多旧的问题,比如数学或计算单词中的字母数量,现在对人工智能来说已经变得微不足道。因此,我会给你一些复杂的细节,但首先,一个我认为很好的简单示例。人工智能模型最擅长的是编程,所以我给从 OpenAI 的第一个推理模型 o3(发布于一年零一周前!)到目前最好的开源权重模型(Kimi K2.6)再到新发布的 GPT-5.5 Pro 提出了一个编程挑战:“构建一个程序生成的 3D 模拟,展示一个海港城镇从公元前 3000 年到公元 3000 年的演变,它应该看起来很美观,并允许我对其进行一些控制。”
然后我把每个答案都发布在一个画廊中1,这样你可以尝试它们(实际上,是我让 GPT-5.5 Codex 为我构建了这个画廊页面)。你应该去试试看,感受其中的区别,但你可以先看看下面的一些例子。除了在其他所有方面表现更好之外,只有 GPT-5.5 Pro 实际上模拟了一个不断发展的城镇,而不是随着时间推移生成新的建筑替换。GPT-5.5 Pro 还比其前一个版本快得多:GPT-5.4 Pro 完成任务需要 33 分钟,而 GPT-5.5 Pro 只用了 20 分钟。
我一直鼓励你将人工智能视为一组三个相互关联的概念,而不是单一的事物。你需要考虑模型,比如 Opus 4.7、Gemini 3.1 或(现在)GPT-5.5。你还应该关注应用,这些是你实际用来与模型对话的产品,它们让模型能够为你做真正的工作。最常见的应用是每个模型的网站:chatgpt.com、claude.ai、gemini.google.com。但是,越来越多的桌面应用程序,如 Claude Code、Claude Cowork 和 OpenAI Codex,正成为人工智能最有用的应用。最后,还有工具套件,这是人工智能可以使用的工具以及如何将人工智能模型连接到这些工具。工具可以让人工智能控制你的计算机、编写代码、进行研究并生成图像。
OpenAI 在这三个领域都取得了进展。在模型方面,GPT-5.5 是一个强大的模型家族,其中 GPT-5.5 Pro(仅限网站访问)是最有能力的。在应用方面也有重大进展,OpenAI 的 Codex 越来越遵循优秀的 Claude Code 的路径,正在成为一个易于使用且有用的桌面应用程序。最后,还有工具套件及其可以使用的工具。有许多新的工具套件改进,但其中一个最有趣的是来自 OpenAI 的新图像模型
所有这些都是非常酷的,并且几个月前这是不可能实现的,但它们也非常有用。一个能够生成详细文本和图像的图像生成器可以用来制作 PowerPoint 幻灯片、产品模型或示例网站,或者根据你的需求生成其他任何东西。但这只是一个工具,真正的魔力发生在当你将这些工具、应用程序和模型应用到实际问题上时。我有一个已经拖延了十年的问题。
我是一名学者,我的非人工智能工作,特别是在2010年代初期,主要集中在众筹上。我收集了数百个匿名的数据文件,这些文件来自调查、分析和研究工作,包括STATA、CSV、XLS和Word文件,但我从未写过相关的论文。我想看看GPT-5.5能对这些信息做多远的工作。因此,我使用了由GPT-5.5驱动的Codex,并请求道:“帮我整理数据并生成一个新的可能有趣的假设,并以复杂的方式测试它并撰写一篇学术论文。”我还要求它包含文献综述和格式调整。结果非常令人印象深刻,尤其是在我要求GPT-5.5 Pro对论文进行评论并将这些结果反馈给Codex之后。你可以在这里阅读结果。虽然它并不完美,但不再是因为有明显的错误:文献综述都是真实的,统计数据也是如此。相反,这是因为作为一名专家,我认为这个假设不够有趣,尽管AI使用了非常复杂的统计方法来尝试解决这些问题。简而言之,如果这篇论文是一个二年级博士生的研究成果,我会非常满意。而且我只是给了它四个提示,而没有自己动手修改文本。

我们还可以用另一种方式将工具、应用程序和模型结合起来。我要求Codex创建一个全新的桌面角色扮演游戏,基本上是它自己的《龙与地下城》版本,在一个完全由其创造的幻想世界中,包含了你需要玩这个游戏的所有表格和规则。我还要求它模拟玩家体验游戏并根据发现修订规则。正如你所见,AI遵守了指令,包括排版了一个吸引人的101页PDF,并使用其图像生成器进行了插图。
除了技术上的巧妙之处外,实际内容也有很多值得称赞的地方。背景设定有趣且新颖,规则看起来合乎逻辑,借鉴了现有的游戏模式并添加了独特的元素。然而,仔细检查后也揭示了AI能力的粗糙边缘并未完全消失。每一代AI模型都在构建长篇小说方面遇到了困难。如果你经常阅读AI写作的内容,你会在这里看到同样的问题:对奇异事物的喜爱;过于复杂的想法未能充分实现;奇怪的比喻(“天气和建筑是不同速度下的同一论点”);太多的华丽句子(“当大海忘记它曾是一条路时浮现的神圣事物”很酷一次,但整本书都这样会让人疲惫不堪);对话中每个角色都以相同的简洁语气说话;以及名字“Mara”。因此,即使在所有惊人的技术进步中,仍然存在一些粗糙的边缘。
GPT-5.5向我们展示了模型变得越来越聪明,应用程序变得越来越强大,工具变得越来越好,使它们在解决实际问题上更加有效。我可以从四个提示中获得接近博士学位水平的论文,或者从一个提示中获得一个可玩的角色扮演游戏,附带插图和“试玩测试”。但是,即使是统计学上合理的假设,虚构内容仍然显得平淡无奇。不过,一年前这一切还遥不可及,而在最新的发布中,能力提升似乎正在加速。
GPT-5.5显然不是这一过程的终点,但它无疑是这一过程中一个重要步骤。我已经写了三年的通讯,模式没有改变:每隔几个月就会出现一个新的模型。我运行我的测试,原本不可能的事情变得简单起来,而每次新发布的周期中飞跃的规模也在增加。粗糙的前沿仍然存在,只是比以前更远了。

这就是GPT-5.5选择用来说明这篇文章的方式,我又能说什么呢?
我从 OpenAI 或其他任何 AI 实验室都没有获得资金支持,并且 OpenAI 在此帖子发布前并未查看过。此外,我在撰写本文时并不了解所有发布细节,因此对于可能的错误我表示歉意。