别让 AI 直接查库:企业问数 Agent 上线前必须补的 5 个底座

这半年，很多数据团队都会遇到一个问题：能不能做一个 AI 问数工具？

老板想在群里直接问：“上周华东区新客转化为什么下降？”业务希望不用等分析师，自己输入一句话就能拿到图表。技术团队看了几个 Demo，发现大模型确实能根据自然语言生成 SQL，接上数据库之后，似乎很快就能跑出结果。

于是很多项目的第一版设计都很直接：用户提问，大模型生成 SQL，系统执行查询，返回结果，再让模型总结。

这个链路在演示里很漂亮。

但在企业生产环境里，它也很危险。

因为企业问数真正难的，不是让模型写 SQL，而是让它在正确的口径、正确的权限、正确的上下文和可追责的流程里回答问题。

如果这些底座没有补齐，AI 问数上线得越快，风险扩散得越快。

第一件事：不要让自然语言直接撞数据库

自然语言的问题，天然是模糊的。

用户问“本月收入怎么样”，他可能想看 GMV，也可能想看实收，也可能想看财务确认收入。用户问“新客表现”，可能按首次注册算，也可能按首次下单算。用户问“华东区”，可能是销售大区、仓配大区，也可能是行政区域。

如果系统把这句话直接交给模型生成 SQL，模型会选择一个看似合理的解释。但这个解释未必是公司认可的解释。

所以企业问数的第一条原则，是不要让自然语言直接撞数据库。

中间必须有语义层。

语义层不是一个时髦词，它的作用很朴素：把业务词和数据资产对应起来。收入是什么指标，新客是什么人群，华东是什么区域口径，订单表和支付表怎么关联，哪些字段可以被外部查询，哪些指标必须使用统一口径。

没有语义层，AI 只是会写 SQL 的实习生，而且是一个非常自信的实习生。

第二件事：指标口径要先有唯一入口

很多团队一上来就训练模型理解指标，其实顺序反了。

如果公司内部本来就没有统一指标入口，模型不可能凭空变出一致口径。它只会在一堆表名、字段名、历史 SQL、文档碎片里猜。

过去一个分析师猜错口径，影响一份报告。AI 问数猜错口径，可能影响几十个人的日常判断。

因此，上线问数 Agent 前，至少要先把高频指标整理出来。

不需要一开始覆盖全部指标。可以先覆盖 20 个最常用的经营指标：GMV、订单数、支付转化率、新客数、复购率、客单价、退款率、履约时长、库存周转、线索转化等。每个指标写清楚定义、计算逻辑、适用场景、时间粒度、负责人和禁用口径。

这一步不性感，但非常关键。

AI 问数不是绕开指标治理，而是倒逼指标治理。

第三件事：权限不是表级那么简单

传统数据权限常常按表、库、字段来控制。谁能查订单表，谁能看用户手机号，谁能导出明细。

AI 问数会让权限问题变复杂。

因为用户不是直接写 SQL，而是通过自然语言请求结果。模型可能组合多个字段，生成中间推断，再用自然语言表达出来。即使它没有直接展示敏感字段，也可能在回答里泄露敏感信息。

比如销售只能看自己区域的数据，但他问“全国高价值客户最近流失原因”，系统如果没有做权限过滤，就可能返回超出权限范围的聚合结果。再比如某些人不能看客户等级，但模型在解释中说“高净值客户流失明显”，也可能越界。

所以权限要从“能不能查表”升级为“能不能问这个问题、能不能看这个粒度、能不能看到这个解释”。

企业问数 Agent 至少要有三层权限：数据范围权限、指标访问权限、结果展示权限。

第四件事：所有查询都要可审计

当 AI 生成 SQL 后，系统必须记录它做了什么。

谁问的？原始问题是什么？模型解释成了什么指标？生成了什么 SQL？查了哪些表？扫描了多少数据？返回了什么结果？有没有人工确认？最后答案发给了谁？

这些记录看起来像合规要求，其实也是产品质量要求。

没有审计，就无法复盘错误。用户说“AI 昨天给我的数不对”，你不知道它当时用了什么口径，也不知道是不是权限过滤出了问题，更不知道模型有没有改写问题。

审计还可以反过来改进系统。你会看到用户最常问哪些问题，哪些问题经常失败，哪些指标缺少语义定义，哪些 SQL 成本过高，哪些权限规则经常被触发。

这些都是问数产品真正变好的材料。

第五件事：关键场景必须有人确认

很多人做 Agent 时，会默认追求全自动。但企业数据场景里，全自动不一定是好事。

尤其是经营会议、财务口径、客户分层、敏感数据、跨部门指标这些场景，AI 生成结果后最好有人确认。

人工确认不是为了拖慢，而是为了划清责任。

可以把场景分级。低风险问题，比如“昨天订单数是多少”，可以自动回答。中风险问题，比如“本周转化下降主要来自哪里”，可以自动生成分析，但标注置信度和口径。高风险问题，比如“哪个销售区域质量最差”“哪些客户可能流失”“本月收入是否达标”，需要人工确认后再发布。

这叫 human-in-the-loop，不是形式主义。

它让系统既能提高效率，又不会把关键判断交给一个不可追责的黑箱。

一个更安全的问数链路

比较稳妥的链路应该是这样的。

用户提出问题后，系统先做意图识别，判断这是查数、分析、归因还是生成报告。然后进入语义层，把自然语言映射到指标、维度、时间和过滤条件。接着做权限校验，判断用户能不能看这些数据。再生成 SQL 或调用指标服务。执行前后记录审计信息。最后根据风险等级决定是否需要人工确认。

这个链路比 Demo 复杂，但它才接近生产。

真正的企业 AI，不是“模型能不能一次回答”，而是“系统能不能稳定、可控、可追责地回答”。

先做小，不要一口吃掉全公司

问数 Agent 最容易失败的方式，是一开始就想覆盖所有数据、所有部门、所有问题。

这会把语义层、权限、指标、性能、治理、产品体验全部压到第一版里，最后要么做不完，要么上线后没人敢用。

更好的方式，是选一个高频、边界清楚、风险可控的场景。

比如只做销售经营问数，只覆盖 20 个核心指标，只允许查询聚合数据，不开放明细，不跨权限域，所有高风险答案需要人工确认。先让这一个场景跑通，再扩到运营、产品、财务。

AI 问数不是一个模型项目，而是一个数据产品项目。

模型只是其中一环。真正决定成败的，是指标、语义、权限、审计、责任和使用场景。

所以，如果你的团队正在准备让 AI 接数据库，不妨先停一下。不要先问“模型选哪个”，先问：我们的指标有没有唯一入口？语义层有没有？权限能不能按问题控制？查询能不能审计？关键答案由谁确认？

这些问题答清楚之前，别急着让 AI 直接查库。

如果你正在系统学习 AI Agent、语义层、指标治理和企业数据平台，可以继续看数据从业者全栈知识库[1]。这类内容我会持续整理成更完整的工程化路径，而不只是停留在 Demo 层面。

关于「拾穗数据」

十来年数据行业里摸爬滚打的一点东西——

周刊、长文、观点，把踩过的坑和看到的局一点点写下来。

都在 ss-data.cc，点下方【阅读原文】去看。

想一起聊？扫码加微信，备注「拾穗」拉你进群：

参考链接

[1]数据从业者全栈知识库https://pro.ss-data.cc