
作者:国家发展改革委培训中心(宣传中心)战略规划与公共培训处 聂正标等
引言
数据安全已从成本项变为价值核心,从支撑要素跃升为竞争高地。
近年来,随着生成式大模型技术不断迭代、应用场景持续扩容,人工智能迈入规模化落地、全场景深度部署的产业成熟期。AI技术架构不再局限于传统云端集中推理,逐步向端云协同、终端原生的多元形态延伸,人工智能对各行各业的渗透重塑正逐步改变传统数据的生产、流转与价值释放模式。数据已成为本轮智能化浪潮下直接驱动智能决策与业务创新的核心生产要素。伴随着数据贯穿人工智能的全产业链,数据安全的脆弱性已不容回避。
世界经济论坛《2026年全球网络安全展望》报告显示,94%的受访者视AI为未来一年最关键的变革驱动力,但约三分之一的机构却缺乏基础数据治理能力;30%的CEO将“生成式AI导致的数据泄露”列为首要担忧,该比例甚至高于对“攻击者能力提升”的恐惧。这表明人工智能正以前所未有的规模汇聚、加工和利用数据,但与之相匹配的安全治理能力并未同步跟上。数据安全在全球企业风险图谱中的优先级已实现战略性跃升,成为关乎企业业务连续性、品牌公信力与核心竞争力的前置性条件。
未来,人工智能对数据的需求会持续扩大,数据安全的复杂性和攻击面也在同步攀升。本文将从数据安全属性的根本性变化、风险格局的系统性演变阐明数据安全何以构成人工智能时代高质量发展的基座,同时深入探讨我们研究数据安全到底研究的是什么。

一、数据安全属性:从附属资源到核心要素
2019年党的十九届四中全会首次将数据列为与土地、劳动力、资本、技术并列的第五大生产要素,标志着数据在经济社会发展中的地位发生重大跃迁。在传统经济形态中,数据主要承担“记录”功能,是生产经营活动的副产品,通常用于交易追溯、生产统计和行为归档。但在人工智能时代,数据不再是生产活动的附属产物,而是直接的核心生产投入品。
人工智能时代的价值创造闭环是“数据→训练→智能→价值”。原始数据经过清洗、标注后输入模型训练,转化为可复用的智能能力;智能能力通过场景化应用落地,最终转化为经济价值和社会价值。在价值链条中,数据既是“原材料”,也是“燃料”。换言之,没有高质量、大规模、多样化的数据供给,人工智能的“智能”就成了无源之水、无本之木。
数据要素地位的确立让数据安全的内涵深度拓展。如果训练数据被污染,模型输出的内容就可能带有系统性偏见;如果敏感数据在训练或推理过程中被“记忆”并复现,可能在极短时间内造成大规模、跨地域的隐私侵害。如今,数据安全已直接关乎人工智能系统的可靠性、公平性和可信度,成为决定AI应用能否被社会广泛接受的核心前提。
(二)从静态到动态:数据安全防护边界的全方位扩展
传统数据安全注重边界防御,关注“数据存在哪里、谁有权访问”,往往通过防火墙、访问控制等技术手段构筑静态防线。而人工智能场景下,数据在采集、标注、清洗、训练、推理、输出的全链条中持续流动、不断融合,数据主体涉及多方利益相关者,其敏感性随上下文动态变化,安全防护的边界便需要从“存储节点”扩展到“数据流”全过程。
全链条中的任何环节都同等重要,任一环节失守都可能导致全局性安全事件。例如2025年,某研究团队发现了一种名为“LLM劫持”的攻击方式,攻击者通过窃取云凭证,非法利用了约20亿大模型Token;同年,某大模型高危漏洞利用AI处理共享内容的架构缺陷绕过数据防泄漏等传统安全措施,可轻易窃取企业邮件、日历和文档中的敏感信息。大模型对数据的天然汇聚效应使单次安全事件波及的用户数量指数级增长,事后追溯攻击源头的难度也大幅增加。
(三)从国内到国际:全球数据安全竞争格局的重构
在全球人工智能竞争加剧的背景下,数据安全治理能力或已成为衡量国家综合竞争力的核心指标之一。
从国际视角看,美国以国家安全为锚点,2024年的第14117号行政命令,限制美国公民与特定国家关联实体进行数据交易,采用“划定边界、重点防御”策略;欧盟以个人权利为出发点,通过《通用数据保护条例(GDPR)》构建严格监管框架,借助高标准规则输出跨境影响力,强调“权利优先、规则引领”。我国在《数据安全法》《个人信息保护法》《网络安全法》框架下,将数据定位为国家战略资产,强调“数据分类分级保护和有序流动”。一个国家的数据安全治理水平,不仅决定本国人工智能系统的可信度和产业竞争力,也决定着其在全球数据治理规则制定中的话语权和影响力。在当今全球数据治理规则加速重构的背景下,筑牢数据安全底座也是参与国际规则博弈、提升人工智能时代话语权的基础工程。
(四)从制度差异到合规风险:数据主权博弈的新前沿
人工智能的全球化特征与数据的属地化监管之间存在根本性张力。大模型的训练和部署有时会跨越国界,但各国的数据安全法规对数据的存储和跨境传输设定了不同要求。例如,我国在《数据安全法》《个人信息保护法》框架下,对重要数据和个人信息的出境实施安全评估制度。欧盟GDPR对向第三国传输数据设定了严格的“充分性认定”机制,即评估其他国家数据保护水平是否“足够充分”,只有被认证国家的企业才能向其自由传输数据;否则必须附加标准合同条款等额外保障措施。
这种全球治理制度性差异,对跨境布局的人工智能企业构成多重现实风险。第一,市场准入与业务运营风险。以企业出海欧盟地区为例,若未获得数据充分性认定,将直接将实质切断该企业从欧盟接收个人数据的通道,导致跨境AI训练合作、跨国客服系统、全球员工数据管理等业务模块瘫痪。第二,品牌声誉与市场信任风险。一旦发生数据违规出境问题并被披露,将直接削弱用户与资本市场对企业的信任,这将对品牌价值、客户留存及资本市场表现形成不可逆损害。第三,产业链合规连带风险。跨国AI企业身处复杂产业生态中,极易因上游算力服务商、下游数据合作方的合规漏洞被连带追责。

二、数据安全风险:从局部隐患到系统挑战
大模型训练的数据用量是前所未有的。从网页文本到代码仓库,从学术论文到社交媒体,训练数据的采集范围正在不断扩展。问题也随之而来:数据来源是哪里,是否合法合规,采集边界应该划在哪里?
现实情况是大量训练数据的来源缺乏清晰的授权链条。诸如个别AI企业时常游走在法律的灰色地带,在数据采集过程中存在“先爬取、后合规”问题。2026年5月,中央网信办就上述情况开展“清朗·整治AI应用乱象”专项行动,将“大模型训练语料安全问题”列为第一阶段重点整治内容。训练数据来源的合规性就此从行业自律问题上升为监管执法的重点领域。
除了来源,训练数据的质量问题同样严峻。数据与模型之间的因果关系导致数据中的偏见会系统性地传导为模型的偏见。该传导机制在实际应用中易引发公平性、安全性问题。以金融行业为例,部分机构发现自身的内部数据以结构化交易记录为主,缺少高质量的非结构化知识型数据(如合同文本、风控日志等)。即便在算力和算法都充分支持的条件下,垂类模型仍无法通过训练弥补这方面的短板。其直接后果是在面对复杂业务场景时,模型由于无法识别合同条款中的潜在风险,继而输出高风险判断,由此加大业务层的决策风险,甚至造成间接的财产损失。数据供给侧的这种结构性短板正成为制约人工智能在关键行业安全落地的实质性瓶颈之一。
(二)数据流转中:泄露风险的放大效应
有数据显示,2025年企业员工对生成式AI的首要顾虑正是网络安全风险、不准确性和数据泄露。这个担忧并非空穴来风,大模型在训练过程中可能“记住”训练数据中的敏感信息,有时会在随后的推理中被非预期地复现。这在技术上被称为“训练数据提取攻击”,即攻击者无需访问模型源代码,仅通过大量查询模型API接口、观察输入输出之间的关系就可获取训练数据中的敏感内容。这种风险十分隐蔽,常常在企业和用户完全不知情的情况下发生,但其带来的危害往往难以被估量。
更深层的问题是AI Agent兴起带来的权限滥用、数据外泄与行为失控风险亦显著增加,如“影子AI”的使用。影子“AI”是指员工未经IT部门批准,擅自将企业数据粘贴到公共AI工具中,造成数据外泄。如2023年3月,某公司在引入ChatGPT后,有员工直接将半导体设备测量数据、源代码及产品良率等核心商业机密输入ChatGPT,导致这些信息进入OpenAI的学习数据库,无法撤回。而该案例并非个例。有报告称高达45%的企业员工已在工作中使用生成式AI工具,其中77%的人会习惯性地将公司数据粘贴到AI查询框中;82%的这类高风险操作来自员工个人账户,完全脱离企业监控。其造成的经济损失也十分可观。据悉影子AI使用率高的企业,单次数据泄露成本平均额外增加67万美元。这些在数据流转过程中造成的安全问题正成为各行各业每天都要面对的棘手问题。
(三)数据使用端:滥用与污染的双重威胁
在人工智能系统中,数据的安全风险不仅来自外部攻击,也来自内部的数据滥用和算法污染。“数据投毒”是最具破坏性的攻击方式之一,攻击者通过在训练数据中注入恶意样本,使模型在特定触发条件下产生攻击者预期的输出,这可能被用于绕过内容安全审查、植入后门或诱导模型产生有害内容。上海人工智能实验室对17款主流大模型的评测发现,各模型安全防护机制整体脆弱,角色扮演等攻击手法的成功率超过90%。模型逆向攻击则从另一个方向发起威胁。攻击者通过大量查询模型,反推出训练数据的特征甚至具体内容。对于使用敏感数据训练的行业模型而言,这种攻击方式可能导致严重的隐私泄露。这正是30%的CEO将生成式AI数据泄露列为首要担忧的现实注脚。

三、数据安全研究的核心:研究数据安全,我们到底要研究什么?
前文我们分析了人工智能时代数据安全属性的深刻拓展与风险格局的系统性演变。这自然引向一个根本性问题:面对这种质变,我们研究的核心究竟应指向何方?研究的落脚点,又该置于何处?
答案不在于对传统防护手段的修修补补,而在于认识到:人工智能时代的数据安全,其本质已从对静态“数据客体”的保管,转变为对动态“数据价值创造过程”的护航。研究的焦点须从“数据在哪里”转向“数据正在如何被使用、如何驱动智能、又如何在此过程中产生新的脆弱性”。因此,研究的核心命题是如何在数据的全生命周期流动与智能的持续生成中,构建内生的、动态的与价值创造同频的安全能力。
第一,研究的首要落脚点是数据与模型融合的“共生安全”界面。数据不再仅仅是模型的输入,而是与模型参数、算法逻辑深度互嵌。安全研究须穿透这个界面:既要关注训练数据中的偏见如何“编码”为模型的世界观,也要警惕模型在推理时如何“反刍”出记忆中的敏感片段。前者指向模型内在机理的安全问题,后者指向数据外部流动的规制问题。随着研究的逐步深入,我们须同时向内和向外发力:向内审视模型机理,厘清可解释性、鲁棒性、隐私泄露风险等关键问题;向外规制数据流动轨迹,明确合规采集、权限管控、使用审计等环节的安全边界。在内外交汇处的界面,探索风险可观测、可评估、可干预的理论边界与技术路径。
第二,研究的视野须拓展至承载数据流动、模型协作与跨域交互过程的整个生态系统中。数据在云、边、端之间穿梭,在机构、平台、用户之间交换。研究不能孤立地看待单一技术或单一组织,而需剖析整个生态中的信任传递、责任链条与风险传导。例如,当多个机构采用联邦学习协作训练一个模型时,如何定义各自的数据贡献与安全责任?当一项AI服务调用多个底层模型和数据源时,如何追溯决策的依据与风险的源头?这要求研究构建适应协同创新的治理框架与技术标准,使安全不再是阻碍连接的壁垒,而是促成可信协作的基石。
所有研究将指向一个实践的终极目标:在发展与安全之间建立动态的、积极的均衡。这不是在创新道路上设置减速带,而是为高速行驶的智能系统设计更精密的制动与导航系统。
因此,人工智能时代的数据安全研究是一场从“防护”到“赋能”的范式迁移。它要求我们不再仅仅问“如何让数据不被泄露”,而是更深层地追问:我们如何能放心地让数据流动起来,去训练、去推理、去创造前所未有的价值,让这个过程可靠、可信、可控?对这个问题的求索与实践正是构筑人工智能时代战略基座的真正工程。

回到本文核心命题:人工智能浪潮下,数据安全为何是产业高质量发展的核心根基?
答案清晰而坚定:因为无安全,不智能;无信任,不未来。数据是AI的血液,安全则是其免疫系统。血液若受污染,机体必将衰亡;免疫若失能,繁荣终成泡影。
本文论述揭示了一个根本性转变:数据安全已从成本项变为价值核心,从支撑要素跃升为竞争高地。它直接定义了AI系统的可靠性边界,决定了数据要素的价值天花板并最终划分了产业及企业在人工智能时代的竞争力版图。
因此,对数据安全的投入与治理,不再是可选的合规成本,而是关乎生存与发展的战略必答题。在“发展”与“安全”之间寻求动态平衡,并非折中妥协,而是走向高质量、可持续创新的必经路径。
筑牢数据安全基座,就是筑牢人工智能时代的信任基石。这不仅是技术或管理的挑战,更是一场关于如何塑造负责任、可信赖未来的深刻实践。

1.中共中央、国务院,《关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”),http://dsjfzj.gxzf.gov.cn/dtyw/dtywzwyw/t27390796.shtml
2.全国人大常委会,《关于修改〈中华人民共和国网络安全法〉的决定》,http://www.npc.gov.cn/npc/c2/c30834/202603/t20260323_453387.html
3.国务院,《网络数据安全管理条例》,http://www.cac.gov.cn
4.国家互联网信息办公室,《个人信息保护合规审计管理办法》,https://www.gov.cn/lianbo/bumen/202502/content_7003767.htm
5.国家互联网信息办公室、公安部,《人脸识别技术应用安全管理办法》,https://politics.people.com.cn
6.国家互联网信息办公室,《生成式AI合成内容标识办法》(《人工智能生成合成内容标识办法》),https://www.zgyq.gov.cn
7.国家发展改革委、国家数据局等,《关于完善数据流通安全治理 更好促进数据要素市场化价值化的实施方案》,https://tjdsj.tjcac.gov.cn/ZWGK0/ZCJD137453/202601/t20260106_7216378.html
8.国家数据局,《2026年数字经济发展工作要点》,https://fgw.fujian.gov.cn/ztzl/szfjzt/hydt/202605/t20260520_7149771.htm
9.国家数据局,《数据产权登记工作指引(试行)》(公开征求意见稿),2026年4月3日公开征求意见。https://www.nda.gov.cn
10.国家网信办、国家发展改革委、工业和信息化部,《智能体规范应用与创新发展实施意见》,https://cpc.people.com.cn/BIG5/n1/2026/0509/c64387-40716233.html
11.2026年中国网络文明大会,《人工智能应用伦理安全指引(1.0版)》http://www.legaldaily.com.cn/IT/content/2026-05/20/content_9391870.html
12.世界经济论坛(World Economic Forum),《2026年全球网络安全展望报告》(Global Cybersecurity Outlook 2026)https://www.weforum.org/publications/global-cybersecurity-outlook-2026/
13.泰雷兹(Thales),《2026年数据威胁报告》,(2026 Data Threat Report)https://cpl.thalesgroup.com/data-threat-report
14.斯坦福大学以人为本人工智能研究所(Stanford HAI),《2026年人工智能指数报告》,(AI Index Report 2026)https://hai.stanford.edu/ai-index/2026-ai-index-report
15.工业和信息化部教育与考试中心、安恒信息、智联招聘等联合编制,《AI时代网络安全产业人才发展报告(2025)》,http://www.jjckb.cn/20250916/c47102cbbc59413886d6a010ed0a7525/c.html
16.奇安信集团,《2025中国白帽人才能力与发展状况调研报告》,https://www.qianxin.com/news/detail?news_id=14340
17.教育部,《网络安全人才实战能力白皮书》,https://wlaq.gmw.cn/2022-09/07/content_36009607.htm
18.北京金融科技产业联盟,《金融人工智能发展与安全白皮书(2025)》
19.陈际红、陈煜烺等,中伦律师事务所,《2025中国网络安全与数据保护年度回顾与2026年展望》
20.周杨、张燕等,贸法通,《2025年度中国网络安全与数据保护立法与执法回顾》
21.Noma Labs(Noma Security),《“GeminiJack”漏洞研究报告(GeminiJack: The Google Gemini Zero-Click Vulnerability Leaked Gmail, Calendar and Docs Data)》,https://noma.security
22.Sysdig威胁研究团队(Sysdig Threat Research Team),“LLMjacking”系列研究报告。https://www.sysdig.com
23.界面新闻.《三星电子引入ChatGPT不到20天,发生3起机密资料外泄》,https://www.jiemian.com/article/9112348.html)
24.LayerX.《2025年企业AI与SaaS数据安全报告》,https://layerx.ai/resources/reports/2025-enterprise-ai-saas-data-security-report
25.IBM, Ponemon Institute.《2025年数据泄露成本报告》,https://www.ibm.com/reports/data-breach

夜雨聆风