数据安全+AI:大模型时代的数据分类分级与敏感数据保护
你有没有这种感觉:数据安全要求越来越多,法规越来越严,但企业的数据家底却越来越摸不清——数据库几百个,表字段成千上万,哪些是敏感数据?哪个要重点保护?光靠人工排查,根本管不过来。
这不是你一个人的困惑。这是所有企业在数据安全合规面前的最大痛点。
而AI,正在彻底改变这个局面。
01分类分级:不是选择题,是必答题
很多人以为数据分类分级是“大企业才需要操心的事“,这是一个严重的误解。
2021年《数据安全法》正式施行,明确规定“国家建立数据分类分级保护制度“。2024年10月,《数据安全技术数据分类分级规则》(GB/T 43697-2024)正式实施,这是全国网络安全标准化技术委员会发布的国家标准,给所有企业提供了统一的方法论框架。
换句话说:分类分级不是可选项,是法定义务。
那么问题来了:具体怎么分?
02国家标准怎么说?三层框架一次理清
GB/T 43697-2024将数据分为三个级别,从高到低:
|
级别 |
说明 |
|
核心数据 |
对领域、群体、区域具有较高覆盖度,一旦被非法使用可能直接影响政治安全。例如涉及国家安全重点领域的数据、关系国民经济命脉的重要数据等。 |
|
重要数据 |
特定领域、特定群体、特定区域达到一定精度和规模,一旦泄露可能危害国家安全、经济运行、社会稳定或公共健康安全。 |
|
一般数据 |
核心数据和重要数据之外的其他数据。 |
在分类维度上,标准给出了多个监管维度:
·按行业领域:工业、电信、金融、能源、交通运输、卫生健康、教育、科学数据等
·按业务属性:业务领域、责任部门、描述对象、流程环节、数据主体、内容主题、数据用途等
关键原则是“就高不就低“:当数据可能影响多个对象时,按最高影响程度定级。
03传统分类分级为什么做不下去
既然标准这么清楚,为什么大多数企业还是做不好?
我见过太多企业,花了大价钱请咨询公司做分类分级方案,最后的结果是:一份几百页的PPT躺在档案柜里,实际的数据治理毫无进展。
根本原因就三个字:跟不上。
业务系统在不断迭代,新数据源源不断产生,靠人工定期排查分类,永远落后业务半拍。更要命的是,字段级别的分类分级根本无法落地——一个中等规模的制造企业,数据库可能有上百个,字段数以万计,靠人工逐条标注,三个月做不完,而且做完之日就是过时之时。
传统方法解决不了规模问题。
04AI赋能:从“人找数据“到“数据认主“
大模型和AI技术的介入,让数据分类分级第一次有了规模化落地的可能。
第一,敏感数据智能识别。
传统方法依赖规则模板(正则表达式、关键词库),只能识别固定格式的数据。大模型的能力在于语义理解——它能判断一段文本是否涉及个人隐私,能识别非结构化文档中的敏感内容,甚至能结合上下文判断同一字段在不同业务场景下的敏感程度差异。
腾讯安全发布的《大模型安全治理框架》中就提到,其数据分类分级引擎已能自动识别身份证、手机号、社保卡、护照号、银行卡等敏感信息,并结合行业合规要求进行动态分级判断。
第二,自动分级与动态调级。
基于GB/T 43697-2024的分级要素(领域、群体、区域、精度、规模、深度、覆盖度),大模型可以自动评估数据字段的影响程度,快速输出分级建议。
更重要的是,AI支持动态更新——当数据的业务用途、使用范围或外部环境发生变化时,系统可以重新评估并调整分级,而不是等着下一次的“人工大普查“。
第三,分类分级规则引擎+大模型的双轨模式。
在实际落地中,最佳实践是“规则引擎兜底,大模型赋能“:对于明确的敏感字段(如身份证号、手机号),用规则引擎直接判定;对于语义模糊、需要上下文判断的内容,交给大模型分析。两者结合,既保证了合规的确定性,又释放了AI的智能化能力。
05大模型时代的新增安全风险
AI赋能数据安全的同时,也带来了新的攻击面。这个问题不能回避。
1. 训练数据泄露:当大模型被用于处理企业内部敏感数据时,如果数据没有做好隔离,模型的输出可能“泄露“训练数据的记忆。这是大模型本体内生安全的首要风险。
2. 提示词注入攻击(Prompt Injection):攻击者通过在输入中注入恶意指令,操纵模型绕过安全限制,获取未授权数据。在数据分类分级场景中,如果直接让大模型处理来自外部的未脱敏数据,存在被注入恶意指令的风险。
3. 模型推理劫持:对抗样本攻击可以干扰模型的判断结果,导致敏感数据被错误分类或遗漏。
4. 供应链安全:使用第三方模型服务时,模型的供应链安全(开源库污染、模型后门等)是企业必须评估的风险点。
这意味着:AI赋能数据安全的前提,是先做好AI本身的安全防护。
腾讯天御大模型安全网关的做法是,在模型输入端部署敏感数据识别和动态脱敏,在输出端进行内容安全过滤,同时建立统一的身份认证和权限管控体系。这套“输入安全+输出安全+基础设施安全“的三层防护,值得大多数企业参考。
06落地路径:中小企业怎么做?
说了这么多高大上的框架,中小企业没有腾讯那样的安全团队,怎么办?
我建议分三步走:
第一步:摸家底,建目录。先搞清楚企业有哪些数据库、系统、数据表,做一份基础的数据资产目录。这一步不需要AI,但它是后续所有工作的前提。
第二步:确定分类分级框架。参考GB/T 43697-2024,结合所属行业标准(金融有JR/T 0271-2023,政务有各地方的标准),制定适合自己企业的分类分级规则。这一步可以借助外部咨询,但规则要尽量细化到字段级别。
第三步:引入AI工具,逐步自动化。选择有成熟数据分类分级能力的安全产品,先在非核心系统上试点,验证效果后再推广。关键看产品是否支持对接自己的数据资产目录、是否能自定义分级规则、是否能与现有数据平台集成。
不需要一步到位,但要开始走。
数据分类分级是大模型时代企业数据安全的基础设施。它不性感,但绕不开。
过去企业在这件事上最大的误区是:把它当成一个“项目“来做——集中资源做三个月,交付一份报告,结束。
分类分级不是项目,是持续运营的能力。
业务在变,数据在变,法规在变,AI也在进化。只有把分类分级能力内化为日常运营的一部分,配合AI的规模化优势,企业才能真正应对大模型时代的数据安全挑战。
夜雨聆风