做运维的朋友应该懂这个痛。
线上一炸,告警先糊一脸,日志翻半天,群里还在问“有没有人动过配置”。想上 AI 提效吧,又不知道先从根因定位搞起,还是先从日志分析下手。
最近看到 GitHub 上这个 awesome-LLM-AIOps,东哥觉得它不是那种“装上就能救火”的工具,而是更像一份 AIOps 论文导航。

项目已经收录了 78+ 篇大模型运维方向论文,分得还挺清楚:故障管理、日志分析、基础设施管理。
里面最厚的一块是故障管理。
从告警聚合、事件理解、根因定位,到故障修复、事后复盘,基本把一次线上事故从“炸了”到“写复盘”的流程都拆开了。这个点我还挺喜欢,因为真实运维不是只问一句 AI“为什么挂了”,它得看告警上下文、日志片段、变更记录,甚至还要知道哪个服务最近刚改过环境变量。
日志分析那块也比较实用,像日志解析、异常检测这些方向都有。老开发看日志有个毛病:先找时间线,再找 trace id,再看是不是某个 worker 超时或者数据库连接池顶满。现在很多论文其实也在往这个方向靠,让 LLM 不只是聊天,而是能读结构化和半结构化运维数据。

不过兄弟们别误会,这仓库不是给你一键部署 AIOps 平台的。
它更适合三类人:想做 LLM + 运维课题的同学,准备调研 AIOps 方案的工程师,还有想看看大模型到底能插进哪些运维环节的团队。东哥建议别上来就全看,先从自己最痛的地方翻,比如告警太吵就看 alert aggregation,日志量太大就看 log parsing。
这类 awesome 项目的价值就在这儿:少走点乱搜论文的弯路。
GitHub地址:Jun-jie-Huang/awesome-LLM-AIOps
夜雨聆风