微软研究:大语言模型编辑工作文档易出错,平均退化率达 50%!
大语言模型编辑文档易出错三位微软研究人员的最新研究表明大语言模型LLM在编辑工作文档时会引入大量错误。对 19 种大语言模型LLM完成和执行复杂多步骤任务能力的测试显示这些模型不仅容易出错而且在很多情况下并不可靠。这些研究结果包含在一篇预印本论文《当你委托大语言模型时它们会损坏你的文档》中该论文由微软研究人员菲利普·拉班Philippe Laban、托比亚斯·施纳贝尔Tobias Schnabel和詹妮弗·内维尔Jennifer Neville撰写基于他们创建的一个名为 DELEGATE - 52 的基准测试该测试使他们能够模拟知识工作者可能面临的工作流程。这篇论文目前正在审核中。他们表示这个基准测试涵盖了 52 个专业领域的 310 个工作环境包括编码、晶体学、族谱学和乐谱记法等。每个环境包含总长度约 1.5 万个标记的真实文档以及用户可能要求大语言模型执行的 5 到 10 个复杂编辑任务。他们在论文摘要中指出“我们的分析表明当前的大语言模型是不可靠的委托对象它们会引入稀疏但严重的错误这些错误会悄无声息地损坏文档并且在长时间交互中不断累积。”他们认为这些错误非常严重。“研究结果显示当前的大语言模型在编辑工作文档时会引入大量错误前沿模型Gemini 3.1 Pro、Claude 4.6 Opus 和 GPT 5.4在 20 次委托交互后平均会丢失 25% 的文档内容所有模型的平均退化率达到 50%。”基准测试获认可信息技术研究集团Info - Tech Research Group首席研究总监布莱恩·杰克逊Brian Jackson认为这些研究结果非常有趣。他说“在不同工作领域对一系列大语言模型进行测试能带来很多有用的见解。我认为这种基准测试对那些希望利用智能体 AI 自动化特定工作流程并了解其能力极限的企业开发者会有帮助。”然而他也表示“我们不能因为这些基础模型在 20 次编辑后导致文档质量下降就得出它们不能用于自动化某些领域工作的结论。这只是意味着以它们目前的构造还无法完成所有工作。”但杰克逊指出“在对输出准确性要求极高的企业环境中不能采取这种方式。应该设计更完善的自动化流程设置更强的防护措施以防止错误。可以通过使用多个扮演不同角色的智能体来实现比如一个负责编辑另一个负责检查错误并进行修正。”灰狗研究公司Greyhound Research首席分析师桑奇特·维尔·戈吉亚Sanchit Vir Gogia表示“应该将微软的这篇论文视为对委托式 AI 的严重警告而不是宣称企业 AI 失败。这种区别很重要。这篇论文仍是预印本需要谨慎对待但它提出的核心问题正是首席信息官CIO应该思考的AI 能否在多次委托过程中保持复杂工作的完整性”他认为这项研究比他所说的“常见的 AI 基准测试闹剧”更有价值因为它测试的是工作成果而不仅仅是看巧妙的一次性回答。“它采用可逆编辑任务、特定领域评估器和往返方法来检验文档在多次编辑后是否能保持完整。但在很多情况下文档并不能保持完整。”戈吉亚解释说“这不仅仅是幻觉问题更是工件完整性的问题。”AI 尚不可完全信赖他补充说研究的主要发现“令人不安即使是最强的模型在长工作流程结束时也会损坏约四分之一的文档内容所有测试模型的平均退化率约为 50%。论文还发现模型的性能在不同领域差异很大。Python 是唯一大多数模型都‘就绪’的领域最好的模型也仅在 52 个领域中的 11 个达到了这一标准。”戈吉亚表示AI 失败不是因为它不会写作而是因为它还无法保持文档的完整性。他指出这项研究特别有用因为它展示了错误是如何累积的。更大的文档会导致更差的结果更长的交互会导致更差的结果干扰文件也会导致更差的结果。短期测试会美化系统表现而更长的工作流程则会暴露其问题。这与企业环境非常契合在企业中工作复杂、文件陈旧、上下文信息嘈杂最重要的文档往往并非最简单的。他说坦诚的结论不是应该将 AI 排除在企业工作流程之外而是委托式 AI 目前还不足以值得信赖不能让它独自处理重要工件。戈吉亚警告说当 AI 编辑重要文档如合同、账本、政策、代码库、董事会文件或合规记录时企业仍需对可能造成的损害负责。缓解措施为了防止这种损害杰克逊建议企业可以对模型进行额外的训练和微调使其更好地适应特定的工作流程“这些基础模型擅长完成很多不同的任务但在出色完成一项特定任务方面表现欠佳。因此希望实现这一目标的企业可能需要利用自己的数据对模型进行训练来改进它们。”例如“微软论文指出有一种多智能体设置反而导致了更多的退化所以检测退化的方法必须精心设计才能有效。”他说“一些企业平台采用的另一种方法是通过数学验证来确定性地验证输出的准确性。因此了解哪些领域对单个大语言模型来说更难自动化是很有用的开发者可以计划在流程中增加更多验证步骤。”他还表示“根据模型的不同比如它是完全开源的还是专有的在定制程度上会有更多的灵活性。因此企业开发者可以参考这些研究结果选择最擅长自动化他们所需领域的大语言模型然后对其进行额外训练以掌握流程。”人类角色转变戈吉亚认为这篇论文还揭示了比“AI 仍然需要人类”更确切的信息。“它表明 AI 使人类的角色从生产转变为监督、验证和承担责任。这与许多董事会讨论中所宣扬的运营模式截然不同。”他说“人类不会消失只是工作内容发生了变化。这对那些希望削减员工数量的企业来说是个难题。最能发现 AI 错误的人往往正是企业希望替换、裁减或重新调配的人。如果从工作流程中移除过多的领域专业知识企业也就失去了那些能察觉 AI 悄悄破坏工作的人。”戈吉亚表示专业知识变得更加重要而非更不重要“论文强化了这一点因为更强的模型不仅会删除内容还常常会损坏内容。较弱的模型在明显丢失材料时更容易被发现。前沿模型则更棘手因为内容虽然仍存在但已变得错误、扭曲或被微妙改变。这需要专业的审查而不是随意的检查。”