数据安全+AI:大模型时代的数据分类分级与敏感数据保护

你有没有这种感觉：数据安全要求越来越多，法规越来越严，但企业的数据家底却越来越摸不清——数据库几百个，表字段成千上万，哪些是敏感数据？哪个要重点保护？光靠人工排查，根本管不过来。

这不是你一个人的困惑。这是所有企业在数据安全合规面前的最大痛点。

而AI，正在彻底改变这个局面。

01分类分级：不是选择题，是必答题

很多人以为数据分类分级是“大企业才需要操心的事“，这是一个严重的误解。

2021年《数据安全法》正式施行，明确规定“国家建立数据分类分级保护制度“。2024年10月，《数据安全技术数据分类分级规则》（GB/T 43697-2024）正式实施，这是全国网络安全标准化技术委员会发布的国家标准，给所有企业提供了统一的方法论框架。

换句话说：分类分级不是可选项，是法定义务。

那么问题来了：具体怎么分？

02国家标准怎么说？三层框架一次理清

GB/T 43697-2024将数据分为三个级别，从高到低：

级别	说明
核心数据	对领域、群体、区域具有较高覆盖度，一旦被非法使用可能直接影响政治安全。例如涉及国家安全重点领域的数据、关系国民经济命脉的重要数据等。
重要数据	特定领域、特定群体、特定区域达到一定精度和规模，一旦泄露可能危害国家安全、经济运行、社会稳定或公共健康安全。
一般数据	核心数据和重要数据之外的其他数据。

在分类维度上，标准给出了多个监管维度：

·按行业领域：工业、电信、金融、能源、交通运输、卫生健康、教育、科学数据等

·按业务属性：业务领域、责任部门、描述对象、流程环节、数据主体、内容主题、数据用途等

关键原则是“就高不就低“：当数据可能影响多个对象时，按最高影响程度定级。

03传统分类分级为什么做不下去

既然标准这么清楚，为什么大多数企业还是做不好？

我见过太多企业，花了大价钱请咨询公司做分类分级方案，最后的结果是：一份几百页的PPT躺在档案柜里，实际的数据治理毫无进展。

根本原因就三个字：跟不上。

业务系统在不断迭代，新数据源源不断产生，靠人工定期排查分类，永远落后业务半拍。更要命的是，字段级别的分类分级根本无法落地——一个中等规模的制造企业，数据库可能有上百个，字段数以万计，靠人工逐条标注，三个月做不完，而且做完之日就是过时之时。

传统方法解决不了规模问题。

04AI赋能：从“人找数据“到“数据认主“

大模型和AI技术的介入，让数据分类分级第一次有了规模化落地的可能。

第一，敏感数据智能识别。

传统方法依赖规则模板（正则表达式、关键词库），只能识别固定格式的数据。大模型的能力在于语义理解——它能判断一段文本是否涉及个人隐私，能识别非结构化文档中的敏感内容，甚至能结合上下文判断同一字段在不同业务场景下的敏感程度差异。

腾讯安全发布的《大模型安全治理框架》中就提到，其数据分类分级引擎已能自动识别身份证、手机号、社保卡、护照号、银行卡等敏感信息，并结合行业合规要求进行动态分级判断。

第二，自动分级与动态调级。

基于GB/T 43697-2024的分级要素（领域、群体、区域、精度、规模、深度、覆盖度），大模型可以自动评估数据字段的影响程度，快速输出分级建议。

更重要的是，AI支持动态更新——当数据的业务用途、使用范围或外部环境发生变化时，系统可以重新评估并调整分级，而不是等着下一次的“人工大普查“。

第三，分类分级规则引擎+大模型的双轨模式。

在实际落地中，最佳实践是“规则引擎兜底，大模型赋能“：对于明确的敏感字段（如身份证号、手机号），用规则引擎直接判定；对于语义模糊、需要上下文判断的内容，交给大模型分析。两者结合，既保证了合规的确定性，又释放了AI的智能化能力。

05大模型时代的新增安全风险

AI赋能数据安全的同时，也带来了新的攻击面。这个问题不能回避。

1. 训练数据泄露：当大模型被用于处理企业内部敏感数据时，如果数据没有做好隔离，模型的输出可能“泄露“训练数据的记忆。这是大模型本体内生安全的首要风险。

2. 提示词注入攻击（Prompt Injection）：攻击者通过在输入中注入恶意指令，操纵模型绕过安全限制，获取未授权数据。在数据分类分级场景中，如果直接让大模型处理来自外部的未脱敏数据，存在被注入恶意指令的风险。

3. 模型推理劫持：对抗样本攻击可以干扰模型的判断结果，导致敏感数据被错误分类或遗漏。

4. 供应链安全：使用第三方模型服务时，模型的供应链安全（开源库污染、模型后门等）是企业必须评估的风险点。

这意味着：AI赋能数据安全的前提，是先做好AI本身的安全防护。

腾讯天御大模型安全网关的做法是，在模型输入端部署敏感数据识别和动态脱敏，在输出端进行内容安全过滤，同时建立统一的身份认证和权限管控体系。这套“输入安全+输出安全+基础设施安全“的三层防护，值得大多数企业参考。

06落地路径：中小企业怎么做？

说了这么多高大上的框架，中小企业没有腾讯那样的安全团队，怎么办？

我建议分三步走：

第一步：摸家底，建目录。先搞清楚企业有哪些数据库、系统、数据表，做一份基础的数据资产目录。这一步不需要AI，但它是后续所有工作的前提。

第二步：确定分类分级框架。参考GB/T 43697-2024，结合所属行业标准（金融有JR/T 0271-2023，政务有各地方的标准），制定适合自己企业的分类分级规则。这一步可以借助外部咨询，但规则要尽量细化到字段级别。

第三步：引入AI工具，逐步自动化。选择有成熟数据分类分级能力的安全产品，先在非核心系统上试点，验证效果后再推广。关键看产品是否支持对接自己的数据资产目录、是否能自定义分级规则、是否能与现有数据平台集成。

不需要一步到位，但要开始走。

数据分类分级是大模型时代企业数据安全的基础设施。它不性感，但绕不开。

过去企业在这件事上最大的误区是：把它当成一个“项目“来做——集中资源做三个月，交付一份报告，结束。

分类分级不是项目，是持续运营的能力。

业务在变，数据在变，法规在变，AI也在进化。只有把分类分级能力内化为日常运营的一部分，配合AI的规模化优势，企业才能真正应对大模型时代的数据安全挑战。