以前排障,是找页面。
现在排障,是问 AI,直接给出结论和解决方法。
最近体验了一款开源 AI 可观测性平台 DataBuff,原本以为它只是把 AI 集成到了 APM 里,玩了一上午之后才发现,它真正吸引我的并不是那些监控图表,而是它把整个应用运维变成了一个 AI 工作台。
如果你做过运维、SRE、DevOps ,一定经历过这样的场景:
突然收到一条告警。大概率会经历下面这些排查链路:

真正耗费时间的,往往不是修复故障,而是找到真正的问题在哪里。
而 DataBuff 想改变的,就是这个过程。

它不是让你学会更多菜单,而是让你先问问题,再去分析数据。
下面就带你玩转DataBuff。
项目地址:
https://github.com/databufflabs/databuff
传统 APM,更像驾驶舱
先说说传统的APM可观测平台,无论是 SkyWalking、Jaeger、Zipkin,还是各种商业 APM,本质都差不多:
给你很多页面,给你很多图,给你很多指标。剩下的.....自己分析。
对于经验丰富的 SRE 来说,这不是问题。
但是对于新人来说,就有点像第一次坐进飞机驾驶舱。
按钮很多,菜单很多。但是不知道先点哪个,学习成本也高。
DataBuff 更像一个会干活的运维助手
DataBuff 的 AI 工作台想做的事情就很简单:把这些专家操作变成自然语言。
它并不是一个简单聊天机器人。背后连着的都是真实的 APM 数据:
Trace 调用链; 服务指标; 全局拓扑; 告警事件; 数据库、缓存、MQ 等组件调用。
AI工作台的回复都基于这些真实数据,分析整合得出的结论。

下面就来看几个场景:
场景一:日常巡检只需一句话
最适合先玩的场景,是巡检。
以前巡检可能要打开多个页面:服务列表、拓扑、错误率、延迟、告警、慢 SQL。
现在可以直接问:
帮我巡检一下最近 1 小时的核心服务,看看有没有异常。

AI工作台会巡检系统内所有服务。
最后AI会给出详细的巡检报告:


甚至还会告诉你:是否需要进一步排查,若你系统有问题,继续根据存在问题追问即可。
你不用先知道哪个页面有答案,先让 AI 出一版巡检结论,再人工复核重点服务就行。
场景二:不用翻 Trace,让 AI 自己找
排查性能问题时,很多人会卡在 Trace 页面:筛选条件怎么填?时间范围选多久?按什么排序?
到底该看哪一条?
一条一条翻非常耗费时间。
现在直接问:
帮我找最近 30 分钟最慢的 5 条 Trace,并说明主要耗时在哪个服务或组件。

AI 很快整理出来:


哪条 Trace 最慢,耗时多少,主要耗时分布,都会展示出来。
最终会给你一个结论,主要耗时在哪个服务,分析为什么会这么慢。
场景三:拓扑变红,让 AI 沿链路往下追
微服务排障里有个很常见的误区:入口服务红了,不代表入口服务就是根因。
比如拓扑里 service-a 变红,真正的问题可能在更下游的数据库。

你直接问:
service-a 为什么变红?帮我沿着下游调用链分析一下。

AI就会开始分析调用关系。
随后就会给出结论。

这种体验对初级运维,临时值班同学很友好:不一定马上知道所有排障细节,但可以顺着 AI 的结论继续查。
场景四:让AI 帮你找慢 SQL
数据库永远都是应用性能瓶颈之一。
传统排查流程通常是:看到接口慢--》打开 Trace--》找数据库 Span--》再去慢 SQL 页面交叉验证--。最后判断是不是 SQL、索引或数据库负载问题
现在可以直接问:
帮我找最近 1 小时调用次数最多、耗时最高的慢 SQL。

AI 可以把 Trace 和慢 SQL 结合起来看,经过分析,会给出详细的结论和建议。

还有很多常见的运维场景:
自动生成事故复盘 帮你写巡检日报 检查某个服务的健康状态
DataBuff的AI工作台都可以帮助你完成,我就不一一展开了,你可以自己下载一个试试。若第一次没有达到你的要求,还可以多次追问,直到满意为止。
我试玩时最喜欢问 AI 的 20 个问题
如果你准备体验 DataBuff,我建议直接试试下面这些问题:
汇总最近1小时系统健康情况?哪个服务错误率最高?最近最慢的5条Trace是什么?为什么Payment Service变红?数据库是不是瓶颈?最近新增哪些慢SQL?上线以后哪些指标发生变化?昨天晚上22点发生了什么?Redis有没有异常?Kafka消费正常吗?哪些服务最值得重点关注?帮我生成今天巡检报告。帮我写事故复盘。告诉我下一步应该查什么。很多问题,其实并不复杂。但以前需要点十几个页面。现在只需一句话。
体验完 DataBuff 后,我最大的感受并不是:
它又做了一个新的 APM。
而是:
它重新定义了运维与监控平台的交互方式。
现在,我们更像是在和一个懂业务、懂调用链、懂数据库、懂可观测性的 AI 同事协作。
如果有啥不懂都可以在AI工作台进行询问,接入数据也很方便。
如果你正在关注 AI + 运维、AI + 可观测性、AI Agent 等方向,不妨体验一下 DataBuff,或许它会给你一些新的启发,如果觉得可以,可以点点 star,让更多的人看到。
GitHub:https://github.com/databufflabs/databuff
官网:https://databuff.ai
如果你也发现了更多有趣的玩法,欢迎一起交流,DataBuff也在持续研发更多功能。
最终目的是为了实现:
从 AI 辅助看,到 AI 自主管
夜雨聆风