前沿AI模型处理文档时悄然篡改内容,错误难以察觉

随着大型语言模型能力的提升,用户倾向于将知识任务委托给模型,由其处理文档并生成结果。然而,当模型需要多次迭代处理文档时,我们能在多大程度上信任它忠实于原始内容呢?
委托工作的运作机制
微软的研究聚焦于”委托工作”这一新兴范式:用户允许大语言模型(LLM)代表他们完成知识任务,通过分析和修改文档来实现。一个典型的例子是”vibe coding”,即用户将软件开发和代码编辑委托给AI。但委托工作远不止于编程,在会计领域,用户可能提交一份密集的账本,指令模型按特定费用类别将文档拆分为独立文件。
由于用户可能缺乏时间或专业知识来人工审查AI实施的每处修改,委托工作往往依赖于信任。用户期望模型能忠实地完成任务,不引入未经检查的错误、未经授权的删除或幻觉内容。
DELEGATE-52基准测试
为衡量AI系统在长期、迭代委托工作流中的可信度,研究人员开发了DELEGATE-52基准测试。该基准涵盖310个工作环境,横跨52个不同的专业领域,包括财务会计、软件工程、晶体学和音乐 notation。
每个工作环境基于2,000至5,000个token的真实世界种子文本文档,并包含五到十个复杂的非平凡编辑任务。评估复杂的多步编辑过程通常需要昂贵的人工审查,DELEGATE-52通过”往返中继”模拟方法绕过了这一点,无需人工标注的参考解决方案。该方法受机器翻译评估中回译技术的启发:让AI模型将文档从一种语言翻译到另一种语言再翻译回来,以查看其重现原始版本的程度。
因此,DELEGATE-52中的每个编辑任务都设计为完全可逆,将正向指令与其精确的反向指令配对。例如,将账本按费用类别拆分为独立文件的指令与将所有类别文件合并回单个账本的指令配对。
中继中的前沿模型测试
为理解不同架构和规模如何处理委托工作,研究人员测试了来自OpenAI、Anthropic、Google、Mistral、xAI和Moonshot的19种语言模型。主要实验将这些模型置于20个连续编辑交互的模拟中。
性能退化结果
- 所有模型文档平均退化50%,即使最佳前沿模型(Gemini 3.1 Pro、Claude 4.6 Opus和GPT 5.4)平均也损坏了25%的文档内容。
- 在52个专业领域中,Python是唯一大多数模型得分98%或更高的领域。模型在程序任务中表现出色,但在自然语言和利基领域(如小说、收入声明或食谱)严重挣扎。
- 整体最佳模型Gemini 3.1 Pro仅在11个领域中被评为适合委托工作。
错误类型分析
值得注意的是,退化并非由”千刀万剐”式的微小错误累积造成,约80%的总退化由稀疏但巨大的关键失败引起——即单次交互中模型突然丢失至少10%文档内容的情况。前沿模型并非更好地避免小错误,它们只是将这些灾难性失败延迟到后续轮次。
另一个重要观察是,当较弱模型失败时,其退化主要源于内容删除。然而,当前沿模型失败时,它们主动篡改现有内容。文本仍然存在,但被微妙地扭曲或幻觉化,使得人类监督者极难检测错误。
工具的影响
有趣的是,为模型提供带有代码执行和文件读写访问等通用工具的代理框架实际上恶化了其性能,平均增加了6%的退化。研究人员解释说,问题在于依赖通用工具而非领域特定工具。
“模型缺乏即时编写有效程序以跨不同领域操作文件而不出错的能力,” Philippe Laban指出,”当它们无法以编程方式完成某事时,它们会转而阅读和重写整个文件,这效率更低且更容易出错。” 开发者的解决方案是构建范围紧密的工具(如特定函数计算或移动.ledger文件中的条目)以保持代理的专注。
退化也随着文档增大或工作空间添加更多干扰文件而雪球式增长。对于大量投资检索增强生成(RAG)的企业团队,这些干扰文档直接警告了混乱上下文的复合成本:虽然嘈杂的上下文窗口可能在两次交互后仅导致1%的性能下降,但长期模拟中会累积至2-8%的巨大下降。
“对于检索社区:RAG管道应在多步工作流中评估,而不仅仅是单轮检索基准,” Laban说,”单轮测量系统地低估了模型在长期交互中引入错误的能力。”
关注微信号:智享开源 ,可及时获取信息
评论列表
发表评论
为你推荐
关注微信
主站最新信息

近期评论
- 发表在《Avride自动驾驶事故频发 Uber合作伙伴遭NHTSA调查》
- 发表在《今天我终于找到了加快网站速度的办法》
- 发表在《如何成为超级个体?》
- 发表在《像ChatGPT一样记笔记》
- 发表在《python 如何将电子表格按照某一列相同数据分到一个一个工作表中》

还没有任何评论,你来说两句吧!