今天的可观测性行业正在发生一次微妙但深刻的转向。AI 接管系统的故障排查已经实现,成为事实。
过去十年,大家追求的是“看得见”:把指标、日志、链路、事件、告警接进来,做成仪表盘和告警规则。Datadog、New Relic、Dynatrace、Splunk、Elastic、Grafana 这些商业和开源生态,基本都沿着这条路把产品做到了很高的成熟度。到了 2026 年,行业共识又往前走了一步:数据已经很多了,真正稀缺的是在事故现场快速理解系统、判断根因、验证假设、推动修复的能力。
所以,几乎所有主流厂商都在把 AI 放进可观测性产品里。Datadog 推出 Bits AI SRE,让 AI 自动调查告警;Dynatrace 的 Davis 强调基于拓扑关系的因果分析;New Relic 发布 Agentic Platform,希望让 SRE 用低代码/无代码方式编排运维 Agent;Grafana 在 GrafanaCON 2026 强调 AI Observability、Grafana Assistant 和面向 Agent 工作流的命令行;Elastic、Splunk 也都提供了面向日志、APM、告警和查询语言的 AI Assistant。
Flashcat 是基于开源夜莺实现的全栈可观测系统,Flashcat 已实际实现了由 AI 引导完成全链路排障并修复故障的能力,并在实际场景中得到证实,效果令人惊叹。本文介绍 Flashcat 推进 AI 接管排障的思路和方法,供关注这个方向的朋友参考。
AI 真正缺的不是模型,而是现场
大模型已经足够聪明。它会读日志,会解释报错,会写查询语句,也能根据一段现象提出排查方向。但在真实线上故障里,问题通常不是“AI 不会分析”,而是“AI 不在现场”。
什么叫不在现场?
它不知道这个系统有哪些业务线、哪些服务、哪些接口、哪些数据库实例;不知道服务之间的依赖关系;不知道哪些指标代表用户真的受损,哪些只是内部抖动;不知道一个 Redis 实例异常时应该先看连接数、慢查询、内存碎片,还是上游流量;也不知道某次异常前 10 分钟有没有发布、配置变更或流量切换。
于是很多 AI 能力就停留在几个相对浅的层次:总结告警、解释日志、生成查询语句、推荐排障步骤。这些当然有价值,但离“把值班工程师从故障现场解放出来”还很远。真正有用的 AI SRE,必须能完成一条闭环:理解系统结构,读取相关数据,提出假设,执行验证,修正判断,输出根因,并在安全边界内推动处理动作。
Flashcat 的独特性,正是把产品设计押在这条闭环上。
Flashcat 不是从聊天框开始做 AI
Flashcat 是一站式可观测平台,覆盖指标、日志、链路、告警、仪表盘、采集、值班和稳定性场景。但如果只这样介绍,它听起来会像又一个“全栈可观测平台”。真正值得关注的是:Flashcat 在 AI 之前,先做了很多让 AI 能理解现场的基础工作。
第一件事,是把分散数据接起来。 企业里通常已经有 Prometheus、Elasticsearch、Doris、SLS、CLS、SkyWalking、Jaeger、Zabbix 等系统,不可能为了 AI 全部重建。Flashcat 更现实的做法是集成已有数据源,同时通过 Categraf 和 OpenTelemetry 体系补齐采集能力,让指标、日志、链路、事件进入一个可串联、可查询、可治理的平台。
第二件事,是统一语义。 OpenTelemetry 在 2026 年已经成为 CNCF 毕业项目,它的价值不只是“采集标准”,而是让不同系统说同一种话:service.name、k8s.pod.name、http.route、trace_id 这些语义一旦统一,数据之间就能自然串联。对人是这样,对 AI 更是这样。AI 分析问题时,最怕的不是数据少,而是同一个对象在三个系统里有三个名字。这里要重点提下我们的观点:把数据装在一个存储里不代表统一,真正的统一是语义级的统一。
第三件事,是把系统抽象成可理解的对象和关系。 Flashcat 里有一个核心能力叫“灭火图”,可以先把它理解成系统健康全景图:它不是单纯画图,而是把业务、服务、接口、组件、主机、数据库、缓存等观测对象组织起来,每个对象有健康状态,也有排障时应该下钻的数据路径。一个对象异常时,用户可以沿着预设路径进入相关指标、日志、链路、仪表盘和事件。
这一步非常关键。因为对 AI 来说,灭火图不只是一个页面,而是一份动态知识图谱:系统里有哪些对象、对象当前是否异常、对象之间如何分层、异常时应该去哪里找证据。很多产品希望 AI 直接从海量遥测数据里“悟”出系统结构,而 Flashcat 的思路是先把现场整理出来,让 AI 站在结构化上下文之上工作。
更进一步,这份知识图谱并不只能靠人工建设。FlashAI (Flashcat 内置的AI Agent)可以从接入的数据源中自动发现服务、接口、组件、主机等观测对象,识别它们适合使用的指标和下钻路径,并在 Flashcat 中自动创建相应的灭火图规则、观测对象和关联配置。也就是说,Flashcat 的知识图谱不是一份静态资产,而是可以由 AI 参与发现、创建和持续完善的可运行系统。
FlashAI:让分析和输出的实现门槛降低到写一段方法和思路
在这个基础上,Flashcat 的智能模块 FlashAI 才真正有了用武之地。
用户可以在对话窗里用自然语言提问,比如“分析最近 24 小时哪些服务反复异常”“帮我看一下支付链路为什么成功率下降”“创建一个数据库连接数异常的告警规则”。这类能力看起来像 AI Assistant,但 FlashAI 的重点不只是聊天,而是调用平台能力完成实际工作。
当某个观测对象异常时,FlashAI 可以读取它的指标、日志、链路、告警和下钻路径,形成更接近真实 SRE 的分析过程:先圈定异常对象,再观察关键指标变化,再结合上下游和事件判断影响范围,最后给出根因解释和处理建议。它不是只读一条告警文本,然后写一段“可能原因”。
更进一步,FlashAI 可以做定时巡检。过去巡检很尴尬:要么人工写日报,耗时且质量不稳定;要么做固定模板,开发成本高,结论又死板。现在可以把巡检变成一条自然语言任务:每天早上检查某个空间的系统健康,汇总异常对象、隐患指标、重复告警和治理建议,并生成报告发给团队。更重要的是,这类需求不一定都要进入笨重的产品开发周期,可以通过 Skill 方式快速沉淀和迭代。
这也是 Flashcat 在 AI 时代很有想象力的一点:过去很多“想做但 ROI 算不过账”的运维需求,会因为 Skill 和 Agent 机制重新变得可行。巡检、风险评分、告警规则治理、慢 SQL 分析、配置加固、容量评估,都可以先以可描述、可执行、可验证的 Skill 形态出现,而不是把产品越堆越重。
AI 需要“眼睛”,也需要“手”
行业里现在谈 AI SRE,很多还停在“给结论”。但真实排障不是写作文,真实排障是一个“假设-验证-修正”的过程。
比如 Kubernetes 集群里请求异常,AI 可能怀疑 DNS、网络策略、负载均衡、MTU、证书或服务发现。它要想继续往下走,就需要发起一系列任务:查 Pod、查路由、查事件、跑连通性测试、看内核参数、比对配置。今天很多团队的做法是人把任务结果复制给 AI,AI 再给下一步。效率提升了,但人仍然是中间搬运工。
Flashcat 已经具备面向 AI 的任务通道,让 FlashAI 可以调用平台能力和外部能力完成查询、分析、配置、报告生成、通知发送等动作。这个通道的意义,是让 AI 不只是“看见”,也能“验证”;不只是“建议”,也能在边界内“执行”。随着任务类型继续扩展,它还可以分层承载只读查询、受限写操作和更高风险动作,并配套权限、审批、审计、幂等和回滚机制。
这不是一句营销口号。它直接决定 AI 能不能从“助手”变成“值班同事”。没有任务通道,AI 永远隔着玻璃看现场;有了受控任务通道,AI 才能真正进入故障处理回路。
Flashcat 的独特性:把 AI-Ready 做成工程路径
把 Flashcat 放到行业里看,它不是唯一做 AI 的可观测产品,也不是第一个提出 AI SRE 的厂商。Datadog、Dynatrace、New Relic 都在这个方向上投入很重,而且各有优势:Datadog 数据覆盖广、产品集成强;Dynatrace 的拓扑和因果分析积累深;New Relic 正在强调 Agent 编排和治理;Grafana 的优势在开放生态和开发者心智。
Flashcat 更有差异的地方在于,它给中国企业常见的可观测性建设提供了一条更现实的 AI-Ready 路径:
先不要求企业推倒已有系统,而是把现有数据源接进来;再用 OpenTelemetry 思路逐步统一语义;再让 FlashAI 从数据中自动发现观测对象、创建灭火图规则,把系统对象、健康状态和下钻路径沉淀成动态知识图谱;再让 FlashAI 基于这份现场上下文做分析、巡检、配置和治理;最后通过 Skill 和任务通道,把 AI 从“会说”推进到“会查、会验、会做”。
结语:可观测性的终局,是让系统自己解释自己
可观测性的下一阶段,不会只是更多数据、更大屏幕、更多告警规则。那些东西已经足够多了,甚至多到让人疲惫。
下一阶段真正重要的是:当系统出问题时,它能不能把自己解释清楚?能不能告诉我们哪里变了、谁受影响、证据在哪里、下一步怎么验证、哪些动作可以安全执行?
Flashcat 的智能化能力,价值就在这里。它不是把 AI 贴在可观测性产品表面,而是把数据集成、语义统一、灭火图、知识图谱、Skill、自然语言交互和任务通道这些能力串起来,搭建一个 AI 能理解、能推理、能行动的运维现场。
当 AI 逐渐有了“眼睛”和“手”,人就不必永远守在告警之后做数据搬运。未来的稳定性保障,很可能从“人使用工具排障”,变成“人设定边界,AI 持续托管”。而 Flashcat 真正要抢占的位置,正是这个转变中的关键基础设施。

夜雨聆风