当前时间: 1970-01-01 08:00:00
分类:办公文件
评论(0)
AI给运维人带来什么改变和影响这不是他第一次在凌晨被叫醒。作为某金融公司运维团队的负责人,他早就习惯了"随叫随到"——系统不会只在上班时间出故障。 但这一次,手机屏幕上显示的不是紧急电话,而是一条飞书消息: "数据库CPU异常,已自动终止慢查询,扩容2个只读节点,根因:定时任务全表扫描。详细报告已生成。" 老陈盯着屏幕看了十秒钟。然后他做了一件过去十年从未做过的事——他把手机翻过来,继续睡了。 ____________________________________________________________ 第一个版本,是大多数AI文章喜欢讲的:看,AI多厉害,运维工程师终于不用半夜被叫醒了。 第二个版本,是运维同行私下里聊的:这系统靠谱吗?下次它判断错了怎么办? 第三个版本,是我觉得最有意思的:老陈睡了,但明天早上他醒来之后,他该做什么? 过去十年,老陈的价值体现在他"修故障的速度"上。谁能在最短时间内恢复服务,谁就是好运维。这个逻辑很直接,也很残酷——运维工程师的价值与故障的严重程度成正比,与系统的稳定性成反比。 最好的运维是让系统不发生故障。但最被认可的运维是修好了最严重的故障。 ____________________________________________________________ 一、不是替代,是重新分配 不是因为系统天生就会出问题——虽然它们确实会。根本原因是:软件复杂度已经超过了任何单个人的认知能力。 一个中等规模的互联网公司,可能有几百个微服务、上千个数据库实例、几十个第三方依赖。任何一个人,哪怕是最资深的运维工程师,也不可能理解整个系统的全部状态。 所以我们需要运维——作为对人类工程能力局限性的补偿。 AI没有消除bug,也没有让系统变得简单。但它改变了补偿的方式。 IBM的实践叫"1-5-10"智能闭环:1分钟感知异常、5分钟定位根因、10分钟闭环修复。ServiceNow的Now Assist把采购周期从18个月缩短到8周。这些数字背后是一个简单的事实:对于简单故障,AI的模式匹配能力已经超越了人类。 但这不意味着运维工程师没用了。它意味着运维工程师的精力被释放出来,去做AI做不了的事。 理解业务逻辑。判断变更的优先级。在两个都不完美的方案中做选择。为生产事故签字担责。 简单故障的根因分析是一个数学问题——模式匹配,AI擅长。但中等复杂度的级联故障不是数学问题,是业务问题。A服务超时了,是该终止它还是等它恢复?这取决于A服务承载的是什么业务,这个业务的优先级是什么,终止它会影响多少用户。 AI可以告诉你"发生了什么",但"该怎么办"——至少在可预见的未来——还是需要人来回答。 所以不是替代。是重新分配。AI拿走它擅长的,人保留人不可替代的。 ____________________________________________________________ 二、95%的试点项目为什么没有回报 MIT 2026年报告有一个数据被大多数人忽略了:95%的GenAI试点项目尚未产生可量化的回报。 大多数人看到这个数据,第一反应是:AI还不够成熟。 真正的问题是:技术能力和组织能力之间有一条巨大的鸿沟。 运维团队花了十年建立的东西——工作流程、责任划分、变更审批制度——都是基于一个前提设计的:人类是决策主体。 比如责任归属。AI做错了决策导致生产事故,谁来担责?运维工程师?AI供应商?批准AI上线的CTO?这个问题不解决,任何"自主运维"都是伪命题。 比如变更流程。AI的决策是实时的,但变更审批需要层层签字。AI说"立即扩容",但变更审批流程要走三天。这两者的速度差怎么解决? 比如技能传承。学徒制的前提是有师傅可跟。如果师傅变成了一堆算法,经验怎么传递?下一代运维工程师跟谁学? Gartner预测到2029年70%的企业将部署AI Agent进行自主运维。但IDC同时预测:到2028年,70%的"自建型"智能体AI项目将因未能达成ROI目标而被放弃。 不矛盾。部署AI Agent不难——买产品、接API、跑起来,几周就够了。难的是让组织适应AI Agent带来的权责变化。70%的自建项目失败的根源不是技术,是组织。 95%的试点项目没有回报,不是因为AI不够好,是因为大多数公司还没想清楚:当AI开始做决策时,人该做什么。 ____________________________________________________________ 三、什么没变 所有AI文章都在讨论什么变了。但我觉得什么没变更重要——因为那才是你的立足点。 无论AI多强大,最终为生产事故签字的人必须是人类。这不是技术问题,是制度问题——社会不接受"算法背锅"的问责机制。 大厂有资源做AI平台化建设,有专门的AI治理团队,有完善的可观测性体系。但一个5人的运维团队可能连成熟的监控体系都没有——他们面临的不是"要不要用AI",而是"先活下来"。 AI可以缩短修复时间,但不能替代好的架构设计。一个设计良好的系统(有熔断、有降级、有隔离)即使没有AI,也比一个设计糟糕的系统+AI更可靠。 ____________________________________________________________ 四、如果你是一个运维工程师,现在该做什么 不是"拥抱AI"这种正确的废话。是四个具体的动作: 第一,引入一个AI辅助排查工具。不是自建——IDC说70%的自建项目会失败。用成熟的运维产品。让它处理30%的日常告警。 第二,记录每个流程节省的人时。不是"感觉快了",是具体的数字。这个数据决定了你下一步能拿到多少资源。 第三,把你团队里重复性最高的3个运维流程自动化。然后问自己:如果这3个流程完全不需要人介入,你的团队该做什么? 当修复系统变成自动化的,设计系统变成唯一的非自动化环节。运维工程师的核心竞争力从反应能力变成了预见能力。 这意味着你需要理解业务,而不只是理解系统。因为业务的边界条件决定了系统的边界条件,而系统的边界条件决定了AI的边界条件。 ____________________________________________________________ 老陈第二天早上醒来,打开电脑,看了AI生成的故障报告。 报告写得很清楚:根因、处理过程、影响范围、改进建议。 他做了一件事——他修改了定时任务的配置,让它避开业务高峰期。然后他给开发团队发了一个建议:下次类似的定时任务,加上执行时间窗口限制。 这件事AI做不到。不是因为AI不够聪明,而是因为AI不理解这个定时任务在业务中的位置——它什么时候该跑,什么时候不该跑,跑错了会影响谁。 老陈的价值,不再是他"修故障的速度"。他的价值是:他理解这个系统为什么长这样。 也许这就是AI给运维人带来的真正改变——不是工具的升级,而是价值的重新定义。 AI不会取代运维工程师。但会重新定义"运维工程师"这个词的含义。
上一篇2026精选文字转语音软件盘点实用工具供您参考
下一篇Bazel C++ 构建系列文档(一):Bazel 简介与安装
基本
文件
流程
错误
SQL
调试
请求信息 : 2026-06-16 21:02:12 HTTP/1.1 GET : https://www.yeyulingfeng.com/a/757956.html 运行时间 : 0.099844s [ 吞吐率:10.02req/s ] 内存消耗:4,832.26kb 文件加载:145 缓存信息 : 0 reads,0 writes 会话信息 : SESSION_ID=1d959505f632050c232384463124394e
CONNECT:[ UseTime:0.000551s ] mysql:host=127.0.0.1;port=3306;dbname=wenku;charset=utf8mb4 SHOW FULL COLUMNS FROM `fenlei` [ RunTime:0.000828s ] SELECT * FROM `fenlei` WHERE `fid` = 0 [ RunTime:0.000307s ] SELECT * FROM `fenlei` WHERE `fid` = 63 [ RunTime:0.000700s ] SHOW FULL COLUMNS FROM `set` [ RunTime:0.000699s ] SELECT * FROM `set` [ RunTime:0.000251s ] SHOW FULL COLUMNS FROM `article` [ RunTime:0.000718s ] SELECT * FROM `article` WHERE `id` = 757956 LIMIT 1 [ RunTime:0.000514s ] UPDATE `article` SET `lasttime` = 1781614932 WHERE `id` = 757956 [ RunTime:0.000745s ] SELECT * FROM `fenlei` WHERE `id` = 64 LIMIT 1 [ RunTime:0.000271s ] SELECT * FROM `article` WHERE `id` < 757956 ORDER BY `id` DESC LIMIT 1 [ RunTime:0.000523s ] SELECT * FROM `article` WHERE `id` > 757956 ORDER BY `id` ASC LIMIT 1 [ RunTime:0.001951s ] SELECT * FROM `article` WHERE `id` < 757956 ORDER BY `id` DESC LIMIT 10 [ RunTime:0.001138s ] SELECT * FROM `article` WHERE `id` < 757956 ORDER BY `id` DESC LIMIT 10,10 [ RunTime:0.002884s ] SELECT * FROM `article` WHERE `id` < 757956 ORDER BY `id` DESC LIMIT 20,10 [ RunTime:0.004252s ]
0.101558s