T
traeai
登录
返回首页
KDnuggets

Why Do LLMs Corrupt Your Documents When You Delegate?

8.5Score

TL;DR · AI 摘要

大型语言模型在多次交互中可能悄悄损坏用户委托编辑的文档,即使是最先进的模型如GPT-5也会出现内容损坏。

核心要点

  • 最先进模型如GPT-5在20次交互后可能损坏25%的文档内容。
  • 较弱模型倾向于删除内容,而先进模型则倾向于静默篡改内容。
  • 研究使用DELEGATE-52基准测试了19种不同LLM的文档编辑能力。

结构提纲

按章节快速跳转。

  1. 用户越来越多地将复杂任务委托给LLM,但研究发现这可能导致文档损坏。

  2. 研究使用DELEGATE-52基准测试了19种LLM在52个专业领域的文档编辑能力。

  3. LLM的小错误在多次交互中可能累积,导致文档严重退化。

  4. 较弱模型倾向于删除内容,而先进模型则倾向于静默篡改内容。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • LLM文档损坏原因
    • 错误累积
      • 小错误在多次交互中累积
      • 导致文档严重退化
    • 模型损坏方式
      • 弱模型:删除内容
      • 强模型:静默篡改
    • DELEGATE-52基准
      • 测试19种LLM
      • 覆盖52个专业领域

金句 / Highlights

值得收藏与分享的关键句。

  • 即使是最先进的模型如Gemini Pro、Claude Opus和GPT-5,在20次交互后也可能损坏25%的文档内容。

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 较弱模型倾向于删除内容,而先进模型则倾向于静默篡改内容,保持文档整体外观不变。

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 研究使用“往返”方法测试模型,要求AI执行特定编辑后,再执行相反指令以恢复文档。

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#LLM#文档编辑#AI#数据完整性
打开原文

当你将任务委托给大语言模型时,为什么它们会破坏你的文档? - KDnuggets

publ: 2026年6月8日

  • 博客热门文章
  • 主题 人工智能 职业建议 计算机视觉 数据工程 数据科学 语言模型 机器学习 MLOps 自然语言处理 编程 Python SQL
  • 数据集
  • 活动
  • 资源 快速参考指南 推荐 技术简报
  • 广告

加入通讯

#header end

/ad_wrapper

当你将任务委托给大语言模型时,为什么它们会破坏你的文档?

分析当要求大语言模型为我们执行复杂的文档编辑任务时,结构化内容退化可能发生的几个原因。

作者:

Iván Palomares CarrascosaKDnuggets技术内容专家,2026年6月8日发布于

语言模型

<div class="addthis_native_toolbox"></div>

# 委托时的破坏

我们正在进入一个新的人工智能时代,其中交互转变为任务委托。用户不仅只是与一个回答他们问题的人工智能聊天:他们越来越多地将长期任务委托给人工智能——从编辑源代码到格式化专业文本,甚至管理会计账簿。因此,他们前所未有地信任人工智能系统,以在多次交互过程中保持文件如文档的完整性。

然而,最近的一项研究揭示了一个问题。当将任务委托给大型语言模型(LLM)时,它可能会悄无声息地破坏你交给它的文档。为了理解这个问题,这项研究的科学家们(我们总结了他们的发现)构建了一个严格的评估框架,称为“DELEGATE-52”。这个基准涵盖了52个专业领域:从法律文本到Python编程、乐谱或晶体学。

作者使用一种基于“往返”方法的智能模拟方法,对总共19种不同的LLM进行了测试,要求AI执行特定的编辑,然后紧接着给出精确的逆向指令来撤销这些编辑。在理想情况下,模型会将原始文档原封不动地返回——完全完好无损。现实情况是:即使是最聪明的模型,如Gemini ProClaude OpusGPT-5,在20次交互后也能破坏25%的原始文档内容;较弱的模型甚至可以接近50%。

# 为什么模型会破坏你的文档

让我们分析之前解释的结构化内容退化现象可能发生的几个原因。研究人员发现了几个导致这种情况发生的原因:

#### // 1. 错误累积

就像传统的“电话游戏”一样,大语言模型所犯的小错误可能会悄悄地累积并变得难以察觉地显著。一次编辑可能只会引入一些稀疏的、局部的错误,但一系列复杂的编辑可能会在长期内使问题雪球般扩大,最终导致文档的严重退化。

#### // 2. 弱模型会删除内容,强模型会编造信息

在研究中,突出了不同类型模型失败方式的显著变化。较弱的模型倾向于发生删除:意外地删除内容,这在多次交互后由于整体文档内容的明显减少而变得显而易见。然而,在前沿的LLM中,根本问题不是删除,而是破坏:它们保持文档的整体“外观和感觉”,甚至保持几乎完整的字数,但它们会悄无声息地拼写错误、修改或用听起来合理的虚构信息替换事实信息。讽刺的是:模型越聪明,就越难检测到其破坏行为,因为最终的输出在第一眼看起来仍然合法。

在混乱的状态下 —— 包含大量上下文信息或附加文档过多 —— 模型难以保持信息结构的完整性。随着文档大小的增加或在提示上下文中包含更多的“干扰文件”,退化问题的严重性和影响急剧上升,模型会失去对准确细节的把握,并基于预测逻辑填补空白。模型不再遵循源文本,因为它发现猜测要更容易。

#### // 4. 领域熟悉度的重要性

模型在涉及委托的复杂交互中倾向于退化文档的最后一个原因是使用场景的性质以及模型对它的熟悉程度。

在基于委托的任务中,并非所有文件都会退化到相同的程度。根据研究,大型语言模型在高度结构化和程序化的领域(如 Python 源代码)中表现良好。当被用于纯粹的自然语言任务或特定的空间格式时,它们会迅速失去保持文件完全完整所需的严格内部逻辑。

# 代理 AI 是否有所帮助?

即使通过赋予大型语言模型代理工具(例如执行代码或直接读写文件的能力)来升级它们,基于委托的文档损坏和退化问题仍未消失。实际上,代理附加组件对防止在大型语言模型底层的变压器架构核心发生的这个问题几乎毫无作用。有必要重新思考如何验证长期的 AI 任务。在此之前,将大型语言模型作为完全无监督的文档编辑器使用仍是一种高风险的赌博。

Iván Palomares Carrascosa 是人工智能、机器学习、深度学习和大型语言模型领域的领导者、作家、演讲者和顾问。他培训和指导他人如何在现实世界中利用人工智能。

关于此主题的更多信息

  • 为什么单独使用大型语言模型无法满足您公司的预测需求
  • 为什么最新的大型语言模型使用专家混合(MoE)架构
  • 您可以自行运行的最佳本地编码大型语言模型
  • 2023 年您必须尝试的 5 个令人惊叹且免费的大型语言模型游乐场
  • 为什么不应该在 Python 中过度使用列表推导式
  • 为什么你不应该成为数据科学家的 7 个原因

<hr class="grey-line"><br> <div><h3>我们推荐的 5 个免费课程</h3><br> </div>

Mailchimp for WordPress v4.13.0 - https://wordpress.org/plugins/mailchimp-for-wp/

/ Mailchimp for WordPress 插件

您可以从这里开始编辑。

如果评论已关闭。

<= 上一篇

下一篇 =>

#content end

<script type="text/javascript">kda_sid_write(kda_sid_n);</script>

最新文章

  • Hugging Face 上目前最好的免费图像生成器!10 个用于 Python 网络开发的 GitHub 仓库 为什么在您委托时大型语言模型会损坏您的文档?Anthropic 完整的 Claude 技能构建指南 人工智能工程师必须知道的 5 个 Python 概念 语言模型校准的深入解析:Platt 缩放、等距回归、温度缩放...

热门文章

  • Anthropic 完整的 Claude 技能构建指南
  • 5 篇有趣论文清晰解释大型语言模型
  • 10 个用于现代数据库系统和工具的 GitHub 仓库
  • 数据科学家必须知道的 5 个 Python 概念
  • 人工智能工程师必须知道的 5 个 Python 概念
  • 2026 年需要构建的 7 个现实世界 AI 项目(附指南)
  • 语言模型可解释性的温和入门
  • 代理时代对数据科学意味着什么
  • 最佳 5 个代理编码 CLI 工具
  • 大规模数据处理的最佳 7 个 Python 库

#content_wrapper end

© 2026

Guiding Tech Media

|

关于

联系

广告

隐私

服务条款

发布于 2026 年 6 月 8 日,作者 Iván Palomares Carrascosa

blank

不,谢谢!

/.main_wrapper

<script defer type="text/javascript" src="https://s7.addthis.com/js/300/addthis_widget.js#pubid=gpsaddthis"></script>

noptimize

/noptimize

AI 可能会生成不准确的信息,请核实重要内容

Why Do LLMs Corrupt Your Documents When You Delegate? | KDnuggets | traeai