凌晨2点12分。
告警群突然开始疯狂刷红。订单超时,支付失败,库存回滚异常。我刚打开Kibana,企业微信已经弹出十几个未读:
“是不是数据库炸了?”
“退款接口还能用吗?”
“刚刚那个需求是不是一起上的?”
“谁确认过回归?”
我开始疯狂切群聊、切日志、切监控。手指在键盘上飞速敲击,脑子却被撕成碎片。运营在催答复,产品在追进度,另一个团队在问“你们那边是不是也挂了”,还有人在群里@所有人要一份事故简报。
直到十分钟后,我才意识到:我已经不是在排查问题了。我在机械地回应每一个红点,却已经失去了判断力。
真正崩掉的,已经不是系统了。而是整个协作链条的责任结构。
后来复盘才发现,起因是一个极基础的编码问题。但更让人后怕的是,在整个发布流程中,没有一个角色拥有全局视角,去审视代码合并后的正确性、回归测试的完整性,以及是否存在潜在风险。每个人都只完成了自己“环节内”的动作——开发提交了代码,另一个团队关注了自己领域的场景就执行发布。流程严丝合缝,责任却出现了巨大的真空。
后来我一直在想,如果当时有系统能自动提示:哪些模块发生了交叉影响,哪些团队还没完成回归确认,哪些核心指标在发布后异常波动——那这个低级错误,也许根本走不到生产环境。
那一刻我才彻悟:这次事故根本不是代码写错了,而是一种我从未被教过的东西塌方了。我后来给它起了一个名字:
责任流。
它指的不是代码如何运行,而是在复杂协作系统里,一个决策从提出、确认、执行到兜底,最终由谁承担后果的流动路径。很多系统,数据流设计得天衣无缝,控制流也打磨得滴水不漏。真正崩掉的,往往是责任流。
所有人都参与了,但没人真正负责。数据走通了,责任走丢了,系统必炸。
我是小周,一个干了12年的工程师。这些年我做过高并发、做过核心链路、扛过大促。但直到那个凌晨,我才第一次真正意识到:人类注意力,才是复杂系统里最脆弱的组件。
这次事故让我彻底想明白一件事:无法投入100%精力的事,要学会拒绝。 但在AI时代,拒绝不是不做事,而是用AI把杂乱的输入结构化、责任化,把精力留给真正需要我做决策的地方。
一、AI真正的价值:在人类注意力崩溃之前,重建秩序
市面上的AI教程都在讲“提效”、“自动化”、“一个人干十个人的活”。但没人告诉你真相:一个人可以承担十个人的责任,却不可能拥有十个人的注意力。
那次事故中,技术架构毫无问题——问题出在一个割裂代码块的逻辑漏洞,而没有任何人、任何环节被明确要求去审视这个代码块合并后的全貌。
过去的软件工程,核心是解决“机器如何协作”。而AI时代的软件工程,开始变成:人类、AI与组织如何共同承担责任。
这让我看清了系统中一直存在却最被忽视的三层结构:
数据流:机器之间的信息传递。AI可以优化。 控制流:系统行为的编排。AI可以生成。 责任流:谁确认?谁决策?谁在凌晨三点兜底?这是人类专属的契约。AI没有社会身份,无法承担后果。
当责任流坍缩,再完美的技术架构都会瞬间崩溃。而AI的介入,如果使用不当,反而会加速责任扩散——“这代码谁写的?”“AI辅助生成的。”“那谁Review的?”“大家都看过。”“那谁决定上线的?”“好像CI自动触发的。”
所有人都参与了,但没人真正负责。这是现代复杂系统最危险的状态。
AI最大的价值,从来不是替人做决定。而是在人类注意力崩溃之前,先帮我们重建秩序。
二、用AI构建“三层责任防火墙”
那次事故后,我给自己设计了一套全新的工作流。它的本质不是“用AI多干活”,而是用AI在所有信息进入大脑之前,先完成结构化、风险分类和责任路由。就像给注意力系统装了三道防火墙。
第一层:信息准入防火墙(防打扰)
要解决什么? 任何模糊请求都能打断你的专注流,就像事故当晚我被无数“怎么样了”的消息撕碎。
核心原则:信息不完整,绝不进入我的认知系统。
日常答疑:搭建企业微信/飞书机器人,接入大模型和知识库。提问者必须补全环境、时间、TraceID,否则暂不接收。AI会追问:“请问是测试还是生产?具体报错时间?能否提供TraceID?”
监控告警:告警触发后,直接推给大模型。AI自动关联近期部署记录,生成摘要。我收到的不是“CPU飙升”的原始告警,而是一份情报:“该告警已持续5分钟,与2分钟前上线的订单服务强相关,建议观察或准备回滚。”
模糊输入,是一切认知污染的开始。
第二层:责任确认防火墙(防模糊)
要解决什么? 口头约定、默认共识、未明确边界的“模糊地带”流入开发。那场事故中,“我以为你会测”、“我觉得这个改动不影响”就是罪魁祸首。
核心原则:AI不是帮我偷懒,而是帮我把责任文字化,形成可追溯的契约。
需求评审:会前把PRD扔给大模型,生成技术视角的风险清单和模糊点列表。我带着AI生成的清单去开会,当场逼产品澄清。绝不接受“先做着再说”。
技术方案设计:我口述核心思路,AI生成详细设计文档。关键一步,强制要求AI写明:本次改动不做什么,以及受影响模块的拥有者是谁。大型事故里,真正危险的往往不是“做了什么”,而是大家误以为“那部分还归他管”。
口头协作,本质上是责任黑洞。
第三层:风险闭环防火墙(防遗忘)
要解决什么? 人类注意力天生不擅长的重复检查、长时间巡检。那场事故中,如果有人或工具能在发布后立即做一次全链路回归,损失本可被阻断。
核心原则:没有可观测性,就不允许进入生产。
风险识别:方案设计完成后,让AI回答一个致命问题:“如果这段逻辑出错,第一个现象会是什么?”然后自动输出监控与对账需求清单。确保上线前,可观测性已就绪。
发布验证:构建发布后自动巡检Agent。每次发布完成5分钟内,Agent自动执行跨模块回归用例,对比发布前后的错误日志量和核心指标,给出“该节点健康,可以继续”或“发现异常,请人工确认”的结论。未获此确认,不得发布下一台机器。
人类负责判断,AI负责永不疲劳地检查。
三、划红线:AI不能进入最终责任层
防火墙建好后,还有一个更根本的问题:当AI深入流程,谁来审核AI?如果某天“AI说可以发”,我们盲目相信,线上炸了,谁负责?
必须建立责任主权——无论AI多强,永远存在一个明确的人类责任主体。
信息整理 ✅ 风险扫描 ✅ 日志分析 ✅ SQL生成 ✅(只读) 自动回归 ✅ 自动告警归因 ✅ 自动发版 ❌ 自动执行生产写操作 ❌ 自动回滚 ❌ 自动删数据 ❌ 自动修改配置 ❌
核心就一句话:“AI是我的情报官,不是我的替身。”
这份契约不是限制AI,而是保护工程师。它确保凌晨三点做决策时,是我在负责,不是一段代码在负责。这种可追溯的责任感,是AI时代最稀缺的安全感。
四、重新定义“超级个体”
全网都在说“AI让你一个人干掉一个团队”。这是最大的误导。
很多人以为,AI时代的超级个体,是一个人干十个人的活。但真实情况是:一个人同时承担十个人的责任,却没有十倍的注意力。
真正的超级个体,不是能力无限,而是 边界清晰。是能够用AI建立防火墙,把自己的认知负载严格控制在极限之内。不是去放大能力半径,而是去守护 注意力半径。
过去,优秀工程师定义于“解决问题”。未来,优秀工程师定义于 “设计系统,让问题无法轻易扩大”。这里的系统,不仅是技术系统,更是信息系统、责任系统、决策系统和AI协作系统。
工业时代,我们最害怕的是机器停转。
互联网时代,我们最害怕的是系统崩溃。
而AI时代,真正脆弱的,开始变成人类自己的注意力系统。
当复杂度第一次超过人类认知极限,责任边界就会成为AI时代新的基础设施。我们这代技术人最重要的任务,或许不是写出更智能的代码,而是亲手设计出能驾驭AI的责任架构,让秩序永远跑在速度前面。
因为未来最危险的事故,很可能不再来自系统失控。
而是所有人都以为,“一定有人在负责”。
夜雨聆风