把工作交给 AI 之后,文档是怎样慢慢坏掉的-夜雨聆风

把工作交给 AI 之后,文档是怎样慢慢坏掉的

大语言模型给人的第一印象，往往是很会干活。

它可以帮你改代码，整理文档，调整表格，写配置文件，修改字幕，甚至处理一些你并不熟悉的专业格式。只要你把文件交给它，再告诉它想要什么结果，它似乎就能像一个助理一样替你完成工作。

这种使用方式和过去的问答不太一样：以前我们问模型一个问题，它回答一段话，现在我们把一整件事交给它。

你不只问它这段代码是什么意思，而是让它重构这几个文件；你不只问它这个配置怎么写，而是让它直接把配置改好；你不只是让它解释一个文档，而是让它按要求把文档改成另一个版本。

这就是论文里说的 delegation，也就是委托。

委托的本质是信任。当你把工作交给一个人，你默认他不会悄悄把你的文件弄坏。当你把工作交给 AI，你也会自然地产生类似期待：它应该只改我要求它改的地方，不该乱删，不该乱编，不该把数字弄错，不该把原本正确的东西改坏。

问题就在这里。

arXiv:2604.15597 [cs.CL] 这篇论文想研究的，正是这个问题：当我们把真实文档交给大语言模型反复修改时，它到底能不能可靠地保住文档原本的信息？

答案并不乐观。

他们发现，现在的模型在短任务里看起来很强，但一旦进入长流程委托工作，就会逐渐损坏文档。更麻烦的是，这种损坏经常不是一眼就能看出来的。文档表面上还完整，格式也还像样，模型也会说自己完成了任务，但里面可能已经有一部分内容丢失、错位、被误改，或者被模型自己“合理化”重写了。

为了测试这件事，作者做了一个 benchmark，叫 DELEGATE-52。

这个名字里的 52，指的是它覆盖了 52 个专业领域。它把很多真实知识工作里的文件格式都放了进来。比如 Python 代码、数据库、配置文件、字幕、菜谱、晶体学文件、3D 对象、交通记录等。因为真实世界里的文档并不都是 Markdown 或 Python。很多工作文件是半结构化的、领域专用的、格式古怪的，而且里面有大量细小但重要的信息。

作者没有简单地问模型能不能改这个文件然后人工判断对错。那样太贵，也不容易规模化。而是设计了一个更巧妙的方法：往返编辑接力。

比如有一个账本文件，第一步让模型把账本按支出类别拆成多个文件，第二步再让模型把这些文件按时间顺序合并回原来的账本。理论上，如果模型真的正确完成了这两个操作，那么最后得到的账本，应该和一开始的账本在语义上完全一致。

这有点像来回翻译，把中文翻译成英文，再从英文翻译回中文。如果信息没有损失，最后的中文意思应该和原来一样。这个方法的好处是，它不需要为每个任务人工写标准答案。原始文档本身就是答案。只要最后能不能恢复原始文档，就能衡量模型在这个过程中有没有破坏信息。

作者还把这种往返操作串起来。一次往返是两次交互：先改过去，再改回来。十次往返，就是二十次交互。这就开始接近真实工作里的情况了。现实中你让 AI 改文件，往往不是只改一次，而是今天改一点、明天再改一点；发现问题再让它修一下，然后再让它重构一下。

很多错误就是在这种连续修改里累积出来的。

为了让测试更真实，作者还给模型加入了干扰上下文。模型拿到的不只是目标文件，还会拿到一些相关但不该使用的材料。现实中的 agent、RAG、代码库工作区也经常是这样：上下文里有很多文件，有些相关，有些只是看起来相关，有些甚至会误导模型。

这时，模型不仅要会改，还要知道哪些信息该用，哪些不该用。

评估也不是简单做字符串比较。如果一个菜谱里写着 200g 黄油，模型改成 0.2kg 黄油，这不应该算错。可是如果它改成 800g 黄油，那就是严重错误。普通的比较无法理解这个差别，所以作者为每个领域都写了专门的解析器和相似度函数。账本有账本的比较方法，菜谱有菜谱的比较方法，字幕有字幕的比较方法，代码有代码的比较方法。它们尽量比较语义是否保住，而不是只比较表面文本像不像。这也是这篇论文最费功夫的地方。

结果：模型会把文档越改越坏

作者测试了 19 个大语言模型，包括 OpenAI、Anthropic、Google、Mistral、xAI、Moonshot 等模型。主实验是 20 次委托交互。到最后，即使是前沿模型，平均也会破坏大约四分之一的文档内容。所有模型平均下来，损坏接近一半。

这意味着：如果你把一个真实专业文档交给 AI 连续处理，最后它交还给你的东西，可能已经不是原来的可靠文档了。它可能只是在表面上还像原来的文档。

更值得注意的是，模型的能力很不均匀。在 Python 这类领域，模型表现很好。很多模型能做到几乎不损坏内容。这个结果也符合我们日常感受：模型在代码，尤其是 Python 这种训练数据丰富、结构清晰、容易运行验证的领域，确实比较强。

但到了其他领域，情况就不一样了。比如账本、乐谱、字幕、菜谱、晶体学文件、交通记录、复杂结构化文档，模型就容易出问题。它可能不是完全不会做，而是做着做着就漏掉一项、改错一个数字、混淆一个字段、打乱一段结构。

这就是论文里很重要的一个判断：LLM 的能力不是平滑分布的，而是锯齿状的。

它在某些地方强得惊人，在另一些地方又很不可靠。你不能因为它会写 Python，就相信它也能可靠修改一个专业账本；不能因为它能解释字幕格式，就相信它能长期无损地重排字幕；不能因为它能生成配置文件，就相信它能在复杂项目里持续维护配置不出错。

作者还研究了有工具的 agent 会不会更好。按理说，有工具应该更强。模型可以读文件、写文件、运行代码、调用脚本。它不必每次都靠自己重新生成整个文档。

但实验结果有点反直觉：在他们测试的设置里，有工具的 agent 反而表现更差。

原因是现在的模型使用工具还不够稳定。工具调用会引入大量上下文开销，模型每次任务会多次读写文件，输入 token 变多、链路变长，错误机会也变多。而且这些任务很多不是简单脚本处理就能完成的，它们需要理解领域语义。模型没有真正把代码执行工具用成可靠验证器，更多只是把它当作读写文件的手段。这对现在流行的 agentic coding 很有警示意义：让 AI 有工具不等于让 AI 可靠。工具只是放大器。模型会用，工具就能减少错误；模型不会用，工具反而会增加复杂性。

论文还发现，文档越大，越容易坏。这也不难理解。文件越长，模型越容易漏东西。更重要的是，文档大小的影响会随着交互次数放大。不是说一个大文件只是在第一次修改时更危险，而是每多改几轮，早期的小错误会继续被后面的任务继承、扩散、放大。如果你有一个 500 行的小配置文件，模型可能还可以处理。如果你有一个几万 token 的复杂文档，让模型连续改二十轮，风险就完全不同。

交互次数本身也是风险。作者把部分实验扩展到 100 次交互。结果显示，退化没有停止。文档没有坏到某个程度后稳定下来，而是继续变坏。即使最强模型，长流程之后也会明显退化。这说明问题不只是“偶尔犯错”，每一次委托操作都有一个小概率引入损坏。只要流程足够长，这些小概率就会累积成必然问题。

论文里还有一个很关键的观察：错误并不是每次都均匀发生。很多时候，模型前几轮表现正常，分数几乎不掉。然后某一次突然发生严重损坏。作者把这种情况称为 critical failure，也就是关键失败。这也很像现实使用 AI 的体验。让它改十次，前九次看起来都可以。第十次它突然把一个重要函数删了，或者把字段名改错了，或者把某个边界条件丢了。问题是，它不会大声告诉你“我刚才破坏了一个关键部分”。它还会正常输出，还会说任务完成。

这种失败尤其危险。因为它不是“模型明显不会”。如果模型明显不会，你会警惕。真正危险的是它大多数时候看起来会，于是你放松检查，然后在某一步悄悄出错。

真正有启发意义的是，作者区分出了两种错误：删除和腐败。删除比较容易理解，就是内容没了。弱模型经常会这样，改着改着漏掉一段，或者干脆省略某些部分。腐败更隐蔽。内容还在，但意义变了。表格还在，数字错了；字段还在，含义错了；结构还在，引用关系断了；字幕还在，时间轴错了；配置还在，默认值变了；代码还能编译，但业务逻辑已经偏了。

强模型不一定大量删除内容，但会产生这种更像“文档腐败”的错误。

对人来说，这类错误更难发现。因为你看到的是一个完整、漂亮、格式正常的结果。你很容易误以为它没问题。

论文最后讨论了这个发现对 AI 使用者和 AI 系统设计者的意义。对普通用户来说，结论很简单：不要轻易把长流程文档维护完全交给 AI。尤其是那些你自己不容易检查的文档。你越不懂，越容易觉得 AI 做得好；但也正因为你不懂，你越难发现它哪里弄坏了。

对工程师来说，结论更具体：如果你要让 AI agent 修改代码、配置、数据库 schema、文档、字幕、账本、规范文件，就不能只靠模型本身。你需要验证机制。比如测试、类型检查、schema 校验、parser 校验、diff 审查、快照回滚、格式化检查、领域规则检查、最小化编辑范围。

换句话说，可靠的 AI 工作流应该尽量让模型少做整篇重写，多做局部可验证的修改。它不应该每次都把整个文件重新吐出来。它应该能明确说明改了哪里、为什么改、影响范围是什么。系统也应该能检查它有没有动不该动的地方。

这篇论文不是想说 AI 没用，恰恰相反，作者承认模型进步很快，而且在 Python 这样的领域已经接近可委托状态。问题在于，我们现在很容易把一个领域里的成功经验，错误推广到所有领域。

AI 会写 Python，不代表它会安全维护账本。
AI 会总结文档，不代表它能无损编辑文档。
AI 会生成字幕，不代表它能长期维护字幕时间轴。
AI 会输出看起来正确的配置，不代表它没有破坏隐藏约束。

所以，这篇论文的核心是指出了一种更具体的风险：在委托式工作里，AI 的错误会变成文档本身的一部分，并且会随着后续修改继续传播。一旦错误被写进文件，后面的模型调用会把这个错误当作新的事实基础。它不会知道这是上一轮引入的损坏。它会继续在这个损坏的基础上加工。久而久之，文档就像被慢慢污染了一样，外表还完整，内部已经偏离原始含义。

这也是论文标题里 “corrupt your documents” 的意思。模型以一种看似合理、看似顺滑的方式，在反复编辑中让文档逐渐失真。

我们正在从问 AI 问题走向让 AI 做事，评价标准正在变成它能不能保住原始信息，能不能经得起长流程反复操作。这篇论文告诉我们，AI Agent 的瓶颈不只是推理能力，也不只是工具调用能力，而是长期维护工作产物的保真能力。对于真正的知识工作来说，这一点可能比能不能答对一个问题更重要。