乐于分享
好东西不私藏

AIOps探索:拿Codex作为AIOps的智能运行时似乎是个不错的主意!

AIOps探索:拿Codex作为AIOps的智能运行时似乎是个不错的主意!

↑ 点击关注,分享IT技术|职场晋升技巧|AI工具

研究AIOps已有数月,目前手里有不少可落地的方案了,接下来会把这些方案全部整理到我的大模型课程里。欢迎大家把你遇到的场景在评论区留言。我会在能力范围内给你提供思路和建议。

昨天的文章AIOps探索:Hermes可能是现阶段最适合做AIOps的Agent(附可行性落地思路)发完后,有个朋友跟我说可以试试拿最新版Codex做AIOps,而且给Codex配上合适的skill,一样也可以自我学习、自我进化。

于是今天我针对Codex能否做AIOps做了一番调研,结论就是:完全可行!但前提是,别把Codex当成AIOps平台本身,而要把它当成AIOps的智能引擎。

很多朋友谈AIOps,习惯从“监控平台更智能了”出发:告警降噪、事件关联、根因分析、自动化处置……这些能力当然重要,但真正落到企业现场时,问题往往不在“缺不缺一个智能分析模型”,而在于三件事:上下文拿不全、系统打不通、动作管不住

这也是为什么很多AIOps项目最后停留在“会看不会做、会说不会落地”。

而Codex这一类Agent工具,恰好提供了另一种思路。它的价值不在于替代监控、日志、工单、发布、协同这些系统,而在于成为一个能够理解任务、调用工具、组织上下文、执行步骤的智能内核。

官方对Codex CLI的定位,本质上就是终端中的coding agent,它支持工具接入、审批与沙箱,也支持把可复用流程封装成skills,这决定了它更适合做“能力底座”,而不是直接做“产品壳”。

所以,我认为基于Codex做AIOps完全可行,而且很可能是一条比传统AIOps产品路线更轻、更快、更符合企业实际的路径。

为什么这么说?

因为企业真正需要的,不是一个只会给结论的“大模型页面”,而是一套能嵌进现有运维流程的智能系统。它要能看到告警,读到日志,理解最近的变更,拉取配置和资产信息,调工单系统,连协同平台,最后在合规边界内提出建议,甚至执行受控动作。

MCP的意义,恰恰就在于把外部工具和上下文接进来。而skills的意义,则在于把高频、可复用的运维经验沉淀成结构化能力。而Codex可以轻松接入MCP,而且也可以调用各种Skill。换句话说,Codex负责“思考和编排”,MCP负责“连接系统”,skills负责“复用经验”

这三者一旦组合起来,AIOps的产品形态就会发生变化。

它不再只是一个“智能告警分析助手”,而可以演进成一个真正的中台。比如,我们可以基于Codex做一个这样的系统:前端是统一的工作台,后端是权限、审批、审计、队列、策略引擎,底层是Codex驱动的Agent Runtime,中间用 MCP把监控、日志、CMDB、工单、发布、知识库、协同平台连接起来,再用 skills把“Pod异常排查”、“磁盘打满分析”、“服务5xx归因”、“发布失败回滚建议”等这类经验封装进去。

这时候,AIOps才第一次有可能从“分析软件”变成“操作系统”。

但我也想强调一句:这里最重要的,不是AI有多强,而是治理层有没有单独做出来。

这是我最反对“AI 运维万能论”的地方。

很多人一看到Agent能读日志、能连系统、能跑命令,就会自然地往“全自动运维”上想。可真实的生产环境不是Demo。企业真正关心的从来不是模型答得多漂亮,而是:谁能看生产?谁能动生产?哪个动作必须审批?哪个操作能回滚?出事后谁来追责?

这些问题,Codex本身不替你解决。它能提供审批、沙箱、网络访问控制等基础安全能力,但那只是agent级别的能力约束,不是企业级的治理平面。真正要让这套体系站得住,必须在Codex之外,再做一层自己的后端:做多用户、多角色、多租户,做权限边界,做审计日志,做审批流,做动作白名单,做环境隔离,做风险分级。

所以我的核心判断可以概括成一句话:Codex不适合直接拿来当AIOps平台,但非常适合做新一代AIOps中台的智能运行时。

这句话背后其实有三层意思。

第一,Codex不是来替代监控、日志、工单和发布平台的,而是站在这些系统之上,把原本分散在各处的上下文和动作能力编织起来。

第二,AIOps的壁垒不再只是算法,而会越来越体现在“连接多少系统、沉淀多少技能、治理能力有多强”。

第三,未来真正有价值的AIOps产品,不会是一个孤立的AI助手,而是一个可审计、可审批、可复用、可集成的企业级智能操作中台。

如果沿着这个方向继续走,我反而认为AIOps会进入一个更务实的阶段。过去行业里很多项目,一上来就想做全量关联分析、全自动闭环,结果建设成本高、落地周期长、业务部门感知弱。现在换一种打法,完全可以先从几个最有价值的场景切进去:告警智能分析、Runbook技能化、变更风险评审、事故复盘生成。先让系统做到“看得懂、说得清、帮得上”,再逐步走向“做得稳、管得住、能闭环”。

这条路未必最炫,但更像一条真正能进企业、能进生产、能做成产品的路。

基于Codex + MCP + skills做AIOps中台,可能是AIOps从“智能分析工具”走向“智能操作中台”的一次产品重构。这件事,一旦做成,改变的就不只是运维效率,而是整个企业对“智能化运维”这四个字的理解方式。


顺便介绍下我的大模型课:我的运维大模型课上线了,目前还在预售期,有很大优惠。AI越来越成熟了,大模型技术需求量也越来越多了,至少我觉得这个方向要比传统的后端开发、前端开发、测试、运维等方向的机会更大,而且一点都不卷!

扫码咨询优惠(粉丝优惠力度大)

··············  END  ··············
哈喽,我是阿铭,《跟阿铭学Linux》作者,曾就职于腾讯,有着18年的IT从业经验,现全职做IT类职业培训:运维、k8s、大模型。日常分享运维、AI、大模型相关技术以及职场相关,欢迎围观。