AI智能体：悄然引发企业混沌工程的新危机

存在一类生产事故，是工程团队尚未追踪的——因为它无法套用任何现成的复盘模板。

智能体发起了一个动作。从智能体的上下文来看，这个动作在技术上完全正确。然而，其上下文并不完整。基础设施随之发生连锁反应。等到事故复盘时，三个团队正在争论这究竟是智能体的故障还是基础设施的故障，因为用于思考这两个问题的框架从未被连接起来。

这种暴露的规模已不再是理论上的。根据调查，79%的组织已在生产环境中部署了某种形式的AI智能体，并且高达96%的计划进一步扩展其应用。Gartner预测，到2028年将有33%的企业软件包含有智能体的AI，但同时也警告说，40%的项目将因风险控制不力而被取消。这两个统计数据都未能捕捉到二者之间的真实问题：那些正在运行、未被取消、并正在悄然制造基础设施事件，却未被归类为风险的智能体。

在长达六年的企业级大规模基础设施自动化系统构建经历中，我先是于Cisco（领导面向20多家全球企业客户的AI驱动生命周期平台），随后在Splunk（设计跨数千个企业环境的AI辅助根因分析和可观测性工作流），我目睹了组织普遍犯下的一个结构性错误：将自主智能体与混沌工程视为两个独立的学科。实际上，它们是同一学科，而二者之间的鸿沟，正悄然酝酿着下一波重大生产事故。

智能体跳过的判断

要理解这一点为何重要，你必须先了解在引入智能体之前，企业当前在治理混沌工程方面存在哪些根本缺陷。

大多数成熟的工程组织都投资了混沌工程项目，如“游戏日”演练、爆炸半径控制、SLO限定的实验等。当人类工程师发起混沌实验时，其流程具有一个关键特性：人类会判断系统当前是否具备承受干扰的能力。他们会检查仪表盘，查看错误预算的消耗速率，评估依赖关系是否稳定。这个过程虽然不完美且常常依赖直觉，但至少在运行前，有人提出了正确的问题。

当你引入一个自主修复智能体——它能根据检测到的异常重启服务、重定向流量、扩展资源或修改配置时——这个提问环节就消失了。智能体发现异常，智能体采取行动，这个行动本身就是一次混沌事件。没有SLO燃烧率的检查，没有爆炸半径的计算，更没有人来判断，在系统可能已经承受来自其他三个方向压力的情况下，现在是否是引入额外压力的合适时机。

以下是我观察到的具体故障模式。一个修复智能体检测到微服务延迟升高，于是通过重启服务集群来响应；根据其训练数据和狭窄的故障视图，这是一个合理的操作。但智能体不知道的是：另外三个服务正在处理流量高峰，共享的连接池已达到87%的利用率，一个依赖的数据库正在进行后台索引重建。重启操作触发了针对正在恢复服务的“雷鸣般的羊群效应”。

原本旨在修复的延迟峰值，演变成了一场智能体从未被设计来模拟的级联故障。该智能体行动的爆炸半径并非服务重启本身，而是重启下游的一切，在一个智能体无法获得完整视图的系统状态下。

没有任何一个混沌工程项目测试过这种特定的组合。没有任何一个爆炸半径计算将智能体视为一个行动者。因为我们不认为智能体是混沌注入器。但我们应该。

根据AI事件数据库，报告的AI相关事故从2024年到2025年增长了21%。这个数字几乎肯定低估了实际的风险，因为大多数组织没有一种事故分类方法，能将自主智能体的行动作为级联故障的初始原因。事故被记录为服务重启、连接池饱和或延迟事件。在事后复盘时，智能体的角色是隐形的。

吸收能力是种资源，多数系统却视而不见

根本问题在于，企业系统缺乏一种关于“吸收能力”的共同语言——即在违反SLO承诺前，系统能额外承受多少压力的实时估算。混沌工程项目通过人类判断和静态阈值来隐式管理它。而智能体则完全不考虑这一点。

通过与Intuit和GPTZero等组织的站点可靠性工程（SRE）和平台工程从业者进行结构化的初步研究，我正在开发一个韧性预算模型。其核心理念是将吸收能力视为一个持续重新计算的、可消耗的资源，而非一个试图不被突破的静态阈值。

一个韧性预算依赖于四类实时信号：

SLO燃烧率是主要输入，因为它直接编码了当前系统行为与实际重要承诺之间的差距。如果一个系统每月的错误预算消耗速率是预期的五倍，那么无论CPU利用率如何，其韧性预算都几乎为零。
P99延迟趋势比绝对延迟值更重要，因为一个在四十分钟内呈上升趋势的服务，与一个稳定在同一绝对值上的服务，传递的信息截然不同。
依赖饱和状态是最常被忽略的信号；一个假设共享连接池可用（而实际上已达到87%利用率）的混沌实验或智能体行动，会产生无人设计的故障模式。
应用行为信号，如会话完成率、API调用模式的变化、转化率下降等，能比基础设施指标更早地揭示系统压力，因为用户在Prometheus报告之前就能感受到性能下降。

之所以称之为“预算”而非“阈值”，是因为它是可消耗的。每一次混沌实验都会从可用容量中消耗。每一次智能体行动也是如此。在多团队组织中，当多个实验和多个智能体可能同时运行时，这个预算是共享的。

如果没有一个共享的消费记录，两个针对重叠依赖关系的团队进行的实验，会产生一个任何一方都未曾计划的组合爆炸半径。再加上完全在记录之外行动的自主智能体，整个核算体系就会崩溃。