阿里云 EMR AI 助手正式发布:从问答工具到全栈智能运维助手

摘要：一句话了解 EMR AI助手

阿里云 EMR AI 助手是面向大数据运维场景的 AIOps 智能运维产品，基于自然语言交互，结合大模型的深度认知与规划能力，自动编排工作流，提供根因分析和优化建议。不同于通用大模型的"纸上谈兵"，EMR AI 助手直连您的集群，提供智能诊断、全面巡检、主动运维、专家技能等核心能力。每一条建议都基于真实运行情况和丰富的大数据运维经验，提升10倍运维效率。

凌晨两点，告警群弹出消息：P99 延迟飙到 5 秒。

你睡眼惺忪打开电脑，登控制台看监控，连终端查系统表，切回控制台翻慢查询，再去看 BE 节点状态——四个界面来回切了 30 分钟，才定位到是 Compaction 积压导致 IO 打满。

早上九点，老板问："昨天集群怎么样？"你对着控制台 50 个指标发呆，花 40 分钟手动拼了一份日报，写完自己都不确定有没有漏掉什么。

下午三点，新同事问你"这张表该怎么建分区"，你口述了 20 分钟分桶策略，对方还是一脸懵。

这些场景的共同点：你知道该做什么，但完成它需要大量"记忆+查找+手动操作"的时间。这正是大数据智能运维（AIOps）要解决的核心问题。

今天，EMR 的 AI 助手正式升级。它不再只是一个问答框——而是一位能连你集群、读你数据、帮你干活、还会主动找你汇报的AI 主治医生。

AI 日报：不是仪表盘搬家，是主治医生查房

想象一下这个场景：

早上 9 点，你打开钉钉，运维群里已经躺着一份 AI 日报。你没有看到密密麻麻的 50 个指标，而是看到这样一段话：

今日 3 项需关注：[严重] 导入事务每分钟失败 130 次，影响数据时效性[中] CN 磁盘 disk2 使用率 92.5%，预计 5 天内写满[中] 7 个物化视图刷新失败，影响下游报表查询性能

你点开第一条，日报不是丢给你一个数字就完了，而是像一位主治医生一样，给你讲了一个完整的故事：

现象：导入事务每分钟失败峰值 130 次（07:22），导入失败率日同比 +45%，失败集中在表 dwd_order_event 和 ods_user_log。关联证据：同时段 Compaction Score 飙升至 1058；CN 磁盘 IO Util 持续超 80%；这两张表是高频 Stream Load 热表，每秒写入超 200 次。根因：高频写入导致版本堆积 → Compaction 追不上 → IO 打满 → 事务提交超时失败。建议：预期收益：消除事务失败，Compaction Score 预计降至 500 以下，IO Util 降至 60%。

读完这段话，你不需要再去翻控制台，不需要自己猜根因，甚至不需要想"该怎么办"——诊断、处方、预期疗效，全都写好了。

这就是 AI 日报和传统监控仪表盘的根本区别：

	控制台仪表盘	AI 日报
呈现方式	50 个指标逐项列出	全面巡检后高亮存在风险的 3 件事
分析深度	单维度指标 + 评分	跨维度关联（导入失败 + Compaction 积压 + IO 瓶颈，串成一条因果链）
根因定位	展示现象，你自己判断	AI 推理根因链
行动指引	无	可直接执行的 SQL 和配置建议
趋势预警	当前值	"按当前增速，5 天后磁盘写满"

控制台是仪表盘，让你自己看；日报是主治医生，帮你看完了直接告诉你该做什么。

而那些检查过但一切正常的指标呢？日报也不会漏掉，只是不浪费你的时间：

以下 12 项检查通过 ✓资源配置：磁盘空间均衡 ✓ | 表分析：主键表索引正常 ✓ | 缓存分析：命中率正常 ✓ | 参数配置：合理 ✓ | 导入频率：正常 ✓ | 数据分布：均匀 ✓ ...

查了，没问题，一行带过。让你既放心，又不浪费注意力。

多入口随时可用：

控制台、IM、API，在你习惯的地方办公

过去的运维工作流是这样的：

收到告警 → 打开控制台 → 切到监控页 → 再开终端连集群 → 查系统表 → 回控制台改配置 → 再回终端验证。四个界面来回切，一件事拆成七步走。

现在，你可以在控制台、钉钉/飞书、或者 API 中直接使用 AI 助手。无论你在哪个界面，AI 就在哪里待命。

控制台对话：即开即用

在 EMR 控制台的 AI 助手页面，直接和 Agent 多轮对话。选择关联的实例，输入问题，Agent 自动连接集群进行分析。

你： sr-production 最近慢查询多不多？

几秒后，Agent 返回结构化的诊断结果：

sr-production 慢查询统计（最近 24 小时）慢查询总数：23 条（较昨日 ↑8）Top 1：SELECT * FROM orders JOIN users ON ...
平均耗时 12.3s，执行 45 次Top 2：INSERT INTO report_daily SELECT ... 平均耗时 8.7s，执行 3 次[优化 Top1] [查看趋势] [深度巡检]

你点了「优化 Top1」，Agent 自动获取 Query Profile，分析算子耗时，几秒后返回：

SQL 优化建议发现 3 个优化点：预估提升：12.3s → 800ms（↓93%）[查看优化后 SQL] [在集群执行验证]

你点「在集群执行验证」，Agent 直接在集群上跑优化后的 SQL，返回：实际耗时 760ms，验证通过。

从发现问题到验证修复，全程对话完成，不用切换任何额外界面。

IM 通道 & API：融入现有工作流

除了控制台，专业版及以上还支持：

钉钉/飞书接入：在运维群里即可使用。日报、告警、巡检报告自动推送到群里，团队所有人都能看到
API 接口：将 AI 助手集成到你的自动化运维流程中，按需调用

传统运维：人围着工具转。现在：工具围着人转。

主动推送：AI 不只等你问，还会主动找你

前两章讲的能力，都需要你先开口。

但真正好的运维助手，不应该等你问——它应该比你先发现问题。

EMR Agent 的主动推送引擎，让 AI 从"被动应答"变成"7×24 值班"。它持续监控你的集群，一旦发现异常，立刻推送诊断结果和处置建议。

慢 SQL 告警：发现即诊断

当集群出现慢查询时，Agent 不只告诉你"有慢 SQL"，而是直接给出诊断和优化方案：

[EMR Agent 慢 SQL 告警] sr-production触发时间：14:23慢 SQL： SELECT * FROM orders JOIN users ON ...
执行耗时 12.3s，超过阈值 10sAI 诊断： EXCHANGE 节点 Shuffle 2.8GB 数据，JOIN 未命中 Colocate 策略，导致大量网络传输。优化建议：预估提升：12.3s → 800ms（↓93%）[查看优化后 SQL] [查看 Profile] [静默 1 小时]

不是一个冷冰冰的告警数字，而是一段带着诊断和处方的值班交接。

目前主动告警已支持慢 SQL 场景，更多告警场景（资源水位告警、导入异常告警、节点故障告警等）正在快速迭代中。

四种主动推送，覆盖运维全场景

推送类型	触发方式	推送内容	状态
巡检报告	每周/每日定时	8 维度健康评分 + 全量检查 + 优化建议	✅ 已上线
慢 SQL 告警	慢查询阈值触发	慢 SQL 详情 + Profile 分析 + 优化 SQL	✅ 已上线
更多告警场景	监控事件触发	资源水位 / 导入异常 / 节点故障等	🔨 快速迭代中

每一种推送都不是简单转发监控指标——它们都经过 AI 的关联分析和根因推理，附带可执行的操作建议。

所有推送规则都可以自定义：

选择关联哪些集群
设置推送时间和频率
配置慢 SQL 告警阈值
同类告警自动聚合，不刷屏

你睡觉的时候，Agent 在值班。你度假的时候，Agent 在巡检。

专家技能：

不只是聊天，能直接帮你干活

很多人第一反应是：我直接问通义千问、问 ChatGPT，不也能回答问题吗？

能回答，但只能回答。

裸用大模型，需要你捞日志，找健康，复制实例背景信息。需要你自己去控制台找入口操作。它甚至可能告诉你一个已经过时的参数名。

裸模型是纸上谈兵的军师，EMR 专家技能是能亲自上阵的全栈工程师。

通用大模型 vs EMR 专家技能：关键差异

维度	裸用大模型	EMR 专家技能
读取集群状态	对你的集群一无所知	实时查看 BE 状态、内存、慢查询
操作集群	"建议你执行以下命令"	直接调 API 完成扩缩容、配置变更
建议准确性	基于通用知识，可能过时	内置 StarRocks 最新文档 + 运维SOP+执行验证
多步操作	每一步都要你手动执行后反馈	全链路自动编排：诊断→定位→修复→验证

EMR AI助手搭载多种专业技能：

专家技能	定位	能力
诊断分析类	资深 DBA	能写 SQL、能看 Profile、能查系统表、能做全面巡检
运维管控类	运维机器人	能建集群、能扩容、能改配置、能管理导入任务

结语

回到开头那三个场景：

凌晨两点的告警——Agent 已经帮你抓到了慢 SQL，附上诊断和优化方案，你一眼就知道该怎么处理。

早上九点的日报——Agent 替你查了 50 个指标，只讲需要关注的 3 件事，附带处方和预期疗效。

下午三点新同事的提问——让他直接问 Agent，比你口述 20 分钟讲得更清楚。

EMR AI 助手不是替代 DBA，而是让每个 DBA 都拥有一位 7×24 在线的 AI 搭档。

它帮你采集数据、关联分析、推理根因、给出建议、执行操作、验证结果。你只需要做最重要的事——做决策。

现在就开通 EMR AI 助手，让你的集群拥有自己的主治医生。阿里云控制台 → EMR → AI 助手 → 开通

常见问题（FAQ）

Q1：EMR AI 助手对 EMR Skills 的集成如何？EMR Skills 有哪些功能？

EMR AI 助手深度集成了EMR Skills，实现开箱即用。EMR Skills 主要包含两大功能模块：一是EMR Serverless Spark Skills，支持工作空间管理、作业提交监控及资源弹性扩缩容；二是EMR Serverless StarRocks Skills，分为实例管理（starrocks-manage）和SQL开发优化（starrocks-assistant），分别负责实例生命周期运维与SQL诊断调优，从而简化大数据处理与分析流程。

参考文章：

阿里云 EMR Serverless Spark 发布 Agent Skill：让自然语言驱动 Spark 任务与资源管理

阿里云 EMR Serverless StarRocks Skills 正式发布

Q2：EMR AI 助手支持哪些数据引擎？

目前 EMR AI助手 EMR Serverless StarRocks，包括集群管理、慢SQL诊断、Query Profile 分析、实时导入配置、扩缩容等全栈运维场景，后续将覆盖到更多子产品。

Q3：AI日报和巡检报告的数据安全如何保障？

EMR AI助手运行在阿里云安全体系内，所有数据访问通过 RAM 权限控制，诊断数据不出云、不落盘、不用于模型训练。日报和巡检结果仅推送给授权的钉钉/飞书群或指定 API 端点。

Q4：主动推送会不会刷屏？告警太多怎么办？

EMR AI助手支持同类告警自动聚合，同一根因的多条告警会合并为一条诊断推送。你还可以自定义告警阈值、推送频率、静默时间段，确保只收到真正需要关注的信息。

Q5：如何开通 EMR AI助手？

登录阿里云 EMR 控制台 → EMR AI 助手 → 助手管理 →选择套餐开通即可。试用版 ¥0 起步，100 万 tokens 免费体验全部问答和巡检能力。

Q6：EMR AI助手适合什么规模的团队使用？

从个人开发者到大型运维团队都适用。试用版/基础版适合个人探索，专业版适合 3-5 人日常运维团队（钉钉群协作），企业版适合对 SLA 有严格要求的生产环境（7×24 主动告警值班）。

/ END /

▼ 关注「大数据智能体官网」 ▼

复制下方链接或者扫描右边二维码

即可快速拥有大数据超级助理，从此躺赢数据开发！

了解详情：https://www.aliyun.com/activity/bigdata/dataagent/skills

点击“阅读原文”快速体验超级数据治理～