做运维的朋友应该很懂,线上一炸,最烦的不是“有告警”。
烦的是告警一堆、日志一片、群里都在问进展,你还得一边查根因,一边判断是不是误报,最后还要补复盘。想上 AI,又不知道从哪下手。
GitHub 上这个 awesome-LLM-AIOps,东哥觉得挺适合先收藏。它不是那种一键把运维变自动驾驶的项目,别想太玄乎,它更像一份大模型 + AIOps 的论文地图,把 LLM 在故障管理、日志分析、基础设施管理里的研究整理到一块。项目 README 里也按 Incident Management、Log Analysis、Infrastructure Management 分了目录。

我会先看故障管理这块。
从 incident lifecycle、incident reporting,到 Root Cause Analysis、mitigation、postmortem,基本把一次线上事故从“报警响了”到“复盘写完”都扫了一遍。东哥这种老开发毛病又犯了:我不太关心论文名字多漂亮,先看它有没有碰 RCA、告警聚合、SOP、置信度、工具调用这些东西。因为线上排障,最怕模型嘴快,日志还没看全就开始编。
日志分析也值得翻。日志解析、异常检测、logging statement generation 都有。这里兄弟们别光看热闹,真要落地,第一件事不是把所有日志塞给大模型,而是想清楚脱敏、采样、字段格式,还有 token 成本。尤其公司里那种老系统,日志级别乱、traceId 时有时无,LLM 再聪明也得先吃到像样的数据。

基础设施管理部分也放进来了,包括 benchmark、IaC、LLM training platform 这些方向。这个点我会多瞅两眼,毕竟以后 AI Ops 不可能只停在“帮我解释一段日志”,迟早会碰 Terraform、K8s、CI 环境变量、回滚策略这些硬东西。
项目地址在 GitHub,做运维、SRE、云平台、可观测性方向的同学,可以当资料库翻。别一次看完,挑一个你现在最痛的场景,比如 RCA 或日志异常检测,顺着论文和任务慢慢啃,比较实在。
GitHub地址:Jun-jie-Huang/awesome-LLM-AIOps
夜雨聆风