这段时间一直在看 AIOps,越看越觉得,很多人对这件事的理解可能有点跑偏了。
大家最爱问的问题是,AI 会不会替代运维?
但前两天,一个做运维服务的朋友给我发了一张截图,我突然觉得这个问题其实问反了。
截图里是凌晨三点的微信群。

一排红色告警。
CPU 负载飙高,接口超时,某个实例心跳异常,数据库连接数抖了一下,监控平台像被人拿红笔划满了一样。群里先是机器人刷屏,然后是值班同事接力冒泡,最后是一句很熟悉的话。
“我先上去看看。”
这句话,很多做过运维的人应该都太熟了。
你不知道它后面会接一个真正的大故障,还是又一次虚惊一场。你只知道,手机响了,就得爬起来。
我脑子里一下子浮现出老张。
凌晨三点,老张的枕头边传来了那阵熟悉而令人心惊的震动。
不用看屏幕,他都能猜到那是生产环境的 CPU 负载告警。他熟练地翻身下床,冰凉的地板让他瞬间清醒了大半。登录控制台,习惯性地将鼠标移向屏幕左上角切换地域,查看那个已经反复跳动了好几次的异常实例。
这种生活,老张已经过了快十年。在运维这个圈子里,这被称为“被动触发”的人生,你永远不知道下一个告警和明天的太阳哪个先到。
这时候,公司大群里已经开始连续刷屏,监控平台上一片红,几百条告警信息密密麻麻地涌出来。老张和几个值班的兄弟在日志服务和链路追踪里来回翻找,核对着每一条 Trace 和 Log 的时间戳,生怕漏掉任何一个微小的抖动。
一个小时后,大家终于长舒了一口气。
只是一个老掉牙的定时任务在扩容时触发了冗余告警。
这种场景在运维人的日常里占了 80% 以上。
朋友在截图下面问我,你说以后 AI 运维真起来了,我们这些人是不是就没用了?
我想了一会儿,回了他一句。
不是。
真正该被替代的,不是运维这个人,而是运维每天被告警推着跑的那种状态。
所以今天这篇文章,我想聊的不是“AI 怎么干掉运维”,而是一个更现实的问题。
运维有没有机会,终于从告警里爬出来?
1. 先说那些被告警耗掉的夜晚
运维人的痛苦,很多时候并不是因为技术难度有多大。去解决一个世界级的分布式一致性难题,那叫挑战;但如果让你每天处理五十个“磁盘空间不足”或者“某个节点心跳丢失”,那就是消耗。
Google SRE 体系里有一个词很适合形容这种状态,琐事(Toil)。
所谓琐事,就是那些手动的、重复的、可以被自动化的工作。它就像一堆无休无止的杂草,随业务规模线性增长。如果你的服务扩容了十倍,告警也跟着扩容了十倍,那你每天 100% 的时间都会被这些碎事儿填满。
更麻烦的是,这种长期被告警推着跑的状态,会慢慢变成告警疲劳(Alert Fatigue)。
当你习惯了监控平台上 90% 的告警都是“狼来了”,你对故障的判断力就会不可避免地下降。研究显示,每多接收一条重复或无关紧要的通知,技术人员的关注度就会下降 30%。就像那个著名的寓言,当真正的“黑天鹅”故障降临时,运维人往往已经因为长期的噪音干扰而变得麻木,最终导致每小时动辄数十万美元的业务损失。
2. AI 先别急着替代人,先帮人少受点罪
现在的 AIOps 到底在做什么?它不是在代替你点击那个重启按钮,而是在帮你做那些人类大脑已经处理不过来的信息清洗工作。
想象一下,当一分钟内涌入一万个事件时,AI 能做的第一件事不是“接管系统”,而是先把噪音压下去。哪些告警其实来自同一个故障,哪些只是连带反应,哪些可以暂时放到后面,它至少能先帮人分一遍。
它不再是孤立地告诉你“数据库慢了”,而是把日志、指标和拓扑关系串起来,在几秒钟内告诉你:“因为某次代码变更导致了缓存失效,进而压垮了数据库。”
这就是根因分析(RCA)有用的地方。它不是让运维变懒,而是少一点在日志里盲人摸象的时间。
还有一类价值是预测性维护。它能通过趋势分析,提前四小时预判磁盘将满,或者检测到某种极其隐蔽的内存泄漏。
这时候,运维才有机会从“哪里着火就往哪里跑”,慢慢变成一个能提前布置防线的人。
3. “喂”不饱的 AI 与缺失的上下文
这话也不能说过头。老张在实际落地项目时发现,AI 要想帮上忙,前提是企业得有足够扎实的可观测性(Observability)积累。
很多公司口头上说要做 AI 运维,结果连最基础的 Metrics、Logs、Traces 都没有打通,更别提变更记录和系统拓扑关系了。没有这些上下文信息,AI 只能靠猜。
就像一个医生,如果连化验单和 CT 影像都没有,只凭病人一句“我难受”就要开方子,那不叫 AI,那叫算命。
阿里云提出过一个说法,叫“语义基座”。我觉得这四个字挺准,只有将运维智慧,那些黄金指标、排障手册、系统关系,沉淀为系统可读的数字资产,AI 才有可能理解什么是“服务抖动”。
没有数据的 AI 就像一个智商爆表但缺乏常识的少年,他能写出完美的数学公式,却不认识路边的路标。
4. 运维的活儿会变,但不是消失
当 AI 智能体(AI Agent)开始接管故障全生命周期时,运维的工作确实变了。
未来的运维工程师,可能不再需要每天盯着仪表盘(Dashboards)发呆,也不需要深夜去查那该死的日志。但这不代表他没事干了。
他要花更多时间去设计系统边界。
哪些自动化操作是安全的,哪些必须由人类裁决,哪些只能让 AI 给建议不能让它直接执行,这些都需要有人提前想清楚。
他也要审查 AI 的建议。
AI 说某个服务可以重启,听起来很合理,但它知不知道这个服务正在跑一个不能中断的批处理?它看到的是指标,人看到的是业务后果。
还有平台工程和 FinOps 这类事,也会越来越重要。以前运维被大量配置、巡检、扩容、查账单的小事拖住,现在如果这些动作能被工具接走一部分,人就能回到更上游的位置,去设计黄金路径,去判断资源投入到底值不值。
说得朴素一点,AI 替掉的不是运维,而是运维手里那些最磨人的杂活。
5. 但这事没那么快
说实话,我对 AI 运维抱着一种“克制的乐观”。
现实中,AIOps 的落地面临着巨大的挑战。数据质量差、告警规则混乱、权限边界模糊,这些都是埋在路上的地雷。大模型本身还存在“幻觉”问题,如果直接让它去执行高风险操作,万一它理解错了意图,造成的损失可能比故障本身还大。
更难的是组织层面的不信任。很多公司并不敢把自动化权限完全放开。在这种背景下,AI 往往沦为一个昂贵的查询工具,而不是真正的行动者。
所以这件事要慢一点,从能控制风险的地方开始。
6. 爬出来以后,先把夜班还给人
回到那个标题。运维不是被 AI 替代,而是终于有机会从告警里爬出来。
告别“左上角”的地域切换,告别凌晨三点的惊魂震动。当 AI 帮我们处理了那些 99% 的平庸告警时,我们才真正有时间去思考,如何设计一个更具韧性的架构?如何让系统在极端的压力下实现自愈?如何把一个老工程师脑子里的排障经验,变成整个团队都能复用的系统能力?
正如阿里云周琦所言,“未来的运维竞争,将不再是工具的竞争,而是人的创造力与战略眼光的竞争”。
我越来越觉得,以后更舒服的运维团队,未必是响应最快的那一批。
更可能是告警最克制、流程最清楚、经验沉淀最完整的那一批。
老张关掉台灯,回到床上。这一次,手机依然放在枕边,但他的心情平和了很多。因为他知道,他的那支“数字副驾驶”团队,正在帮他守护着那片喧嚣的数据海洋。
而他,终于可以睡个好觉。
第二天醒来,他要处理的不是一堆昨晚遗留的无效告警,而是几个确实值得改的系统问题。
当然,真要走到这一步,光喊 AIOps 肯定不够。
你得先知道哪些告警是垃圾告警,哪些 SOP 值得沉淀,哪些操作可以自动化,哪些动作必须留给人判断。你还得把日志、指标、链路、变更和工单这些散落的数据重新收拾一遍。
这件事没那么性感。
但它很可能是 AI 运维落地的第一步。
下一篇如果继续聊,我想拆一拆,一家普通公司到底该怎么从告警治理、知识库和可观测性数据开始,搭自己的 AIOps 底座。
参考来源
• PagerDuty: 2026 年人工智能优先运营状况报告(State of AI-First Operations Report)https://www.pagerduty.com/blog/digital-operations/2026-state-of-ai-first-operations-report/ • Google SRE: 消除琐事(Eliminating Toil)https://sre.google/sre-book/eliminating-toil/ • Atlassian: 理解并对抗告警疲劳(Understanding and fighting alert fatigue)https://www.atlassian.com/incident-management/on-call/alert-fatigue • 阿里云: 先建“语义基座”,再谈运维智能,Operation Intelligence 新范式https://www.cnblogs.com/alisystemsoftware/p/18605440 • Google SRE: 实用告警与可观测性指南(Practical Alerting)https://sre.google/resources/book-update/practical-alerting/ • Red Hat: AI 时代的平台工程现状(State of Platform Engineering in the Age of AI)https://www.redhat.com/zh-cn/resources/state-of-platform-engineering-age-of-ai • Google Cloud: 什么是 AIOps?收益与使用场景(What is AIOps? Benefits & use cases)https://cloud.google.com/discover/what-is-aiops • IBM: FinOps 是什么?https://www.ibm.com/cn-zh/think/topics/finops • OpenTelemetry: 可观测性框架官方文档(Documentation | OpenTelemetry)https://opentelemetry.io/docs/ • 沙丘社区: 2024 中国 AI Agent 最佳实践案例 TOP20https://www.shaqiu.cn/article/463
夜雨聆风