AI智能体:悄然引发企业混沌工程的新危机

存在一类生产事故,是工程团队尚未追踪的——因为它无法套用任何现成的复盘模板。
智能体发起了一个动作。从智能体的上下文来看,这个动作在技术上完全正确。然而,其上下文并不完整。基础设施随之发生连锁反应。等到事故复盘时,三个团队正在争论这究竟是智能体的故障还是基础设施的故障,因为用于思考这两个问题的框架从未被连接起来。
这种暴露的规模已不再是理论上的。根据调查,79%的组织已在生产环境中部署了某种形式的AI智能体,并且高达96%的计划进一步扩展其应用。Gartner预测,到2028年将有33%的企业软件包含有智能体的AI,但同时也警告说,40%的项目将因风险控制不力而被取消。这两个统计数据都未能捕捉到二者之间的真实问题:那些正在运行、未被取消、并正在悄然制造基础设施事件,却未被归类为风险的智能体。
在长达六年的企业级大规模基础设施自动化系统构建经历中,我先是于Cisco(领导面向20多家全球企业客户的AI驱动生命周期平台),随后在Splunk(设计跨数千个企业环境的AI辅助根因分析和可观测性工作流),我目睹了组织普遍犯下的一个结构性错误:将自主智能体与混沌工程视为两个独立的学科。实际上,它们是同一学科,而二者之间的鸿沟,正悄然酝酿着下一波重大生产事故。
智能体跳过的判断
要理解这一点为何重要,你必须先了解在引入智能体之前,企业当前在治理混沌工程方面存在哪些根本缺陷。
大多数成熟的工程组织都投资了混沌工程项目,如“游戏日”演练、爆炸半径控制、SLO限定的实验等。当人类工程师发起混沌实验时,其流程具有一个关键特性:人类会判断系统当前是否具备承受干扰的能力。他们会检查仪表盘,查看错误预算的消耗速率,评估依赖关系是否稳定。这个过程虽然不完美且常常依赖直觉,但至少在运行前,有人提出了正确的问题。
当你引入一个自主修复智能体——它能根据检测到的异常重启服务、重定向流量、扩展资源或修改配置时——这个提问环节就消失了。智能体发现异常,智能体采取行动,这个行动本身就是一次混沌事件。没有SLO燃烧率的检查,没有爆炸半径的计算,更没有人来判断,在系统可能已经承受来自其他三个方向压力的情况下,现在是否是引入额外压力的合适时机。
以下是我观察到的具体故障模式。一个修复智能体检测到微服务延迟升高,于是通过重启服务集群来响应;根据其训练数据和狭窄的故障视图,这是一个合理的操作。但智能体不知道的是:另外三个服务正在处理流量高峰,共享的连接池已达到87%的利用率,一个依赖的数据库正在进行后台索引重建。重启操作触发了针对正在恢复服务的“雷鸣般的羊群效应”。
原本旨在修复的延迟峰值,演变成了一场智能体从未被设计来模拟的级联故障。该智能体行动的爆炸半径并非服务重启本身,而是重启下游的一切,在一个智能体无法获得完整视图的系统状态下。
没有任何一个混沌工程项目测试过这种特定的组合。没有任何一个爆炸半径计算将智能体视为一个行动者。因为我们不认为智能体是混沌注入器。但我们应该。
根据AI事件数据库,报告的AI相关事故从2024年到2025年增长了21%。这个数字几乎肯定低估了实际的风险,因为大多数组织没有一种事故分类方法,能将自主智能体的行动作为级联故障的初始原因。事故被记录为服务重启、连接池饱和或延迟事件。在事后复盘时,智能体的角色是隐形的。
吸收能力是种资源,多数系统却视而不见
根本问题在于,企业系统缺乏一种关于“吸收能力”的共同语言——即在违反SLO承诺前,系统能额外承受多少压力的实时估算。混沌工程项目通过人类判断和静态阈值来隐式管理它。而智能体则完全不考虑这一点。
通过与Intuit和GPTZero等组织的站点可靠性工程(SRE)和平台工程从业者进行结构化的初步研究,我正在开发一个韧性预算模型。其核心理念是将吸收能力视为一个持续重新计算的、可消耗的资源,而非一个试图不被突破的静态阈值。
一个韧性预算依赖于四类实时信号:
- SLO燃烧率是主要输入,因为它直接编码了当前系统行为与实际重要承诺之间的差距。如果一个系统每月的错误预算消耗速率是预期的五倍,那么无论CPU利用率如何,其韧性预算都几乎为零。
- P99延迟趋势比绝对延迟值更重要,因为一个在四十分钟内呈上升趋势的服务,与一个稳定在同一绝对值上的服务,传递的信息截然不同。
- 依赖饱和状态是最常被忽略的信号;一个假设共享连接池可用(而实际上已达到87%利用率)的混沌实验或智能体行动,会产生无人设计的故障模式。
- 应用行为信号,如会话完成率、API调用模式的变化、转化率下降等,能比基础设施指标更早地揭示系统压力,因为用户在Prometheus报告之前就能感受到性能下降。
之所以称之为“预算”而非“阈值”,是因为它是可消耗的。每一次混沌实验都会从可用容量中消耗。每一次智能体行动也是如此。在多团队组织中,当多个实验和多个智能体可能同时运行时,这个预算是共享的。
如果没有一个共享的消费记录,两个针对重叠依赖关系的团队进行的实验,会产生一个任何一方都未曾计划的组合爆炸半径。再加上完全在记录之外行动的自主智能体,整个核算体系就会崩溃。
语言模型:在何处助益,又在何处失灵
现在,一些工程组织正在使用大型语言模型(LLMs)从依赖关系图和事故复盘语料库中生成混沌假设。其结果在方向上是有用的。语言模型能发现经验丰富的SRE们认为是值得测试的合理故障模式,并且比手动流程生成假设的速度更快,尤其是在处理丰富的复盘历史时。
关注微信号:智享开源 ,及时了解更新信息。
关注微信

还没有任何评论,你来说两句吧!