别再堆工具了:聊聊我理解的企业级 AIOps Skill 架构
模型往往够用,真正卡脖子的是Skill:边界谁来画、谁能触发、出事能不能查到人。这篇按「现状 → 八大类 → 等级与升级规则 → Sub Skill 表」来写,方便你直接贴进评审材料里对照。
一、现状
监控、日志、链路、工单、ChatOps 都接上了,出故障时很多团队还是在群里喊、翻大盘、捞日志。这跟「有没有上大模型」关系不大,更像是能力从没被收敛成可调用的单元:叫什么、谁能跑、风险算哪一档、日志里有没有一条能对上。
我习惯把平台想成两层:大类给导航,占一页纸就能把行当分完;Sub Skill 才承载等级、审批和审计。不这么拆,后面自动化一加深,权限和合规一定乱。
二、我用的八块「地图」
完整 AIOps Skills在我这里是八大类:
-
观测与检测:指标、日志形态、链路、事件关联、SLO/SLI。 -
巡检与评估:资源、证书、配置漂移、安全扫描、数据库和中间件。 -
诊断与定位:多源拼根因、影响面、性能和代码位置。 -
修复与自愈:重启、扩缩、回滚、切流、驱逐、改规格。 -
工单与流程:建单、改状态、升级、关单、SLA、指派、变更审批。 -
知识库与协同:类案召回、诊断/复盘稿、通知、ChatOps。 -
预测与优化:容量或故障预判、成本与闲置资源、调度/规格建议。 -
治理与合规:鉴权、风险判级、审批、审计查询、合规报表。
有四条最基本的原则:可观测(跑完能看见前后状态)、可编排(多个 Skill 能按条件串起来)、可治理(策略统一)、可审计(谁、何时、对什么、结果如何)。它们和 Sub Skill 分级是同一件事的表里两面。
三、等级、场景、还有动态升级
光有八个目录名没用。P0~P3 回答有多急;ReadOnly / LowRisk / HighRisk 回答能不能自动;动态升级回答「同一个 Skill 换上下文还是不是同一个风险」。
1. 场景里谈等级(P0~P3)
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
运维、SRE、平台的人只要共用这套分级,就少一些「样样都 P0」的吵架。
2. 风险贴在 Sub Skill 上,别贴整个大模块
同一大类里,有的是只读分析,有的是动生产。审批要么绑死在整个模块上,低风险也被拖慢;要么全盘放开,高危动作混进去。所以我把风险钉在Sub Skill:
-
ReadOnly:默认自动,照常打审计。 -
LowRisk:要一次显式确认。 -
HighRisk:确认以外走审批链,链路也要落库。
举例:metric_anomaly_detection多半是 ReadOnly;restart_instance常归 LowRisk;traffic_switch、auto_rollback一类直接 HighRisk 更省心。
3. 动态升级不是可选项
线上有放大效应:同一个auto_scaling,平时是 LowRisk,扩得太猛就该当 HighRisk 对待。规则要写死、进引擎,别指望值班的临场判断能覆盖所有组合。常见几条:
auto_scaling:扩得太多或实例数过线,抬到 HighRisk。restart_instance:动到主库、核心链路,抬到 HighRisk。traffic_switch:跨机房/跨区切流,审批收紧。config_rollback:影响面超过阈值,抬风险档。
大类只在地图上分区;等级管多急;风险加升级规则决定能不能放手给机器。三条缺一条,平台要么慢死,要么不敢跑。
四、附录:各大类 Sub Skill 一览
(表内等级、风险仅为示例口径,落地时请按你们环境改一版。)
1. 观测与检测(Detection)
|
|
|
|
|
|
|
|---|---|---|---|---|---|
metric_anomaly_detection |
|
|
|
|
|
log_pattern_clustering |
|
|
|
|
|
trace_health_check |
|
|
|
|
|
event_correlation |
|
|
|
|
|
slo_sli_calculation |
|
|
|
|
|
topology_discovery |
|
|
|
|
|
baseline_learning |
|
|
|
|
|
2. 巡检与评估(Inspection)
|
|
|
|
|
|
|
|---|---|---|---|---|---|
resource_inspection |
|
|
|
|
|
cert_expiry_check |
|
|
|
|
|
security_scan |
|
|
|
|
|
config_drift_detection |
|
|
|
|
|
version_audit |
|
|
|
|
|
database_health_check |
|
|
|
|
|
middleware_inspection |
|
|
|
|
|
backup_validation |
|
|
|
|
|
compliance_check |
|
|
|
|
|
3. 诊断与定位(Diagnosis)
|
|
|
|
|
|
|
|---|---|---|---|---|---|
root_cause_analysis |
|
|
|
|
|
impact_assessment |
|
|
|
|
|
log_search_analysis |
|
|
|
|
|
anomaly_explanation |
|
|
|
|
|
code_stack_analysis |
|
|
|
|
|
performance_bottleneck_analysis |
|
|
|
|
|
4. 修复与自愈(Remediation)
|
|
|
|
|
|
|
|---|---|---|---|---|---|
restart_instance |
|
|
|
|
|
auto_scaling |
|
|
|
|
|
auto_rollback |
|
|
|
|
|
config_rollback |
|
|
|
|
|
traffic_switch |
|
|
|
|
|
pod_eviction |
|
|
|
|
|
connection_pool_reclaim |
|
|
|
|
|
cache_clear |
|
|
|
|
|
batch_delete_resources |
|
|
|
|
|
resource_spec_adjustment |
|
|
|
|
|
database_optimization |
|
|
|
|
|
5. 工单与流程(Workflow)
|
|
|
|
|
|
|
|---|---|---|---|---|---|
create_ticket |
|
|
|
|
|
update_ticket |
|
|
|
|
|
escalate_ticket |
|
|
|
|
|
close_ticket |
|
|
|
|
|
sla_monitor |
|
|
|
|
|
query_tickets |
|
|
|
|
|
ticket_auto_assignment |
|
|
|
|
|
change_approval |
|
|
|
|
|
6. 知识库与协同(Knowledge & Collaboration)
|
|
|
|
|
|
|
|---|---|---|---|---|---|
similar_incident_retrieval |
|
|
|
|
|
diagnostic_report_generate |
|
|
|
|
|
knowledge_qa |
|
|
|
|
|
postmortem_generate |
|
|
|
|
|
notify_user |
|
|
|
|
|
chatops_execute |
|
|
|
|
|
handover_summary |
|
|
|
|
|
7. 预测与优化(Prediction & Optimization)
|
|
|
|
|
|
|
|---|---|---|---|---|---|
capacity_prediction |
|
|
|
|
|
failure_prediction |
|
|
|
|
|
cost_optimization_suggestion |
|
|
|
|
|
cost_optimization_execute |
|
|
|
|
|
idle_resource_detection |
|
|
|
|
|
scheduling_optimization |
|
|
|
|
|
right_sizing_recommendation |
|
|
|
|
|
anomaly_prediction |
|
|
|
|
|
8. 治理与合规(Governance)
|
|
|
|
|
|
|
|---|---|---|---|---|---|
permission_check |
|
|
|
|
|
risk_assessment |
|
|
|
|
|
approval_workflow |
|
|
|
|
|
audit_log_query |
|
|
|
|
|
compliance_report_generate |
|
|
|
|
|
sla_dashboard |
|
|
|
|
|
五、落地顺序(个人习惯)
-
先把「八大类」叫法在组内对齐,减少会上歧义。 -
ReadOnly 和 LowRisk 的 Sub Skill 先跑通观测、诊断、工单。 -
HighRisk 配审批和回滚预案,再放开执行。 -
动态升级写进规则引擎,和「核心服务 / 主节点 / 是否跨区」这类标签挂上钩。
全自动占比可以后谈;我更在意每一步能不能说清谁批的、凭什么批、翻车时怎么撤。
六、总结
再接十个界面不如把Skill 字典写清楚:大类给人看 roadmap,Sub Skill 给人写策略。动态升级要是摆设,要么什么都得人工点一遍,要么高危动作混在脚本里没人知道。把人留在审批和例外处理上,让机器吃确定性高的那一截,这是我眼里比较健康的分工。
个人观点,仅供参考。
夜雨聆风