AI领域法律研究系列之五::生成式AI的“双刃剑”:安全风险与防御革命

摘要：从用户输入泄密到“对抗性提示词”攻击，从OWASP十大风险到98%精度的钓鱼检测，一文看懂生成式AI的安全全景图。

自ChatGPT问世以来，被称为“现代工业革命”的生成式AI（Generative AI）已成为社会热点。然而，技术往往伴随着安全风险。作为法律从业者，我们不仅需要关注AI自身的合规风险，更要警惕其被用作网络攻击工具所带来的颠覆性威胁。

本文将基于行业企业的深度洞察，为您拆解生成式AI的安全风险全景图。

一、用户输入视角：隐形的“泄密”与“幻觉”

当用户使用ChatGPT等工具时，本质上是在向AI输入“提示词”（Prompt），AI据此生成输出。这一交互过程中，主要存在两大风险：

1. 输入信息泄露风险

用户向AI输入的信息，很可能被用于模型再训练。这意味着，您输入的商业机密或个人信息，可能在不知情的情况下出现在其他用户的回答中。

律师建议：严禁向公共AI工具输入涉密信息；若必须使用，应选择承诺“不将输入数据用于训练”的企业级服务。

生成式AI往往会一本正经地胡说八道，这种现象被称为“幻觉”（Hallucination）。此外，输出内容还可能涉及版权侵权、歧视或偏见。

律师建议：切勿盲目采信AI生成的合同、代码或报告，必须进行人工复核（Human-in-the-loop），否则由此产生的法律责任将由使用者承担。

越来越多的企业将生成式AI嵌入自有系统（如智能客服）。此时，服务提供方面临着来自恶意攻击者的威胁。攻击者通过精心设计的“对抗性提示词”（Adversarial Prompts），试图绕过安全护栏（Guardrails），诱导AI做出违规行为。

核心风险：OWASP Top 10 for LLM Applications

2023年8月，国际知名安全组织OWASP发布了首份《LLM应用十大安全风险》报告，为企业划定了红线。我们将其中与生成式AI强相关的风险整理如下表：

风险类别	攻击方式	潜在后果
提示词注入 (Prompt Injection)	恶意用户通过输入特殊指令，覆盖系统预设的提示词，控制AI行为。	输出违规内容、泄露系统信息。
不安全输出 (Insecure Output)	AI生成的代码或内容未经审查，直接被下游系统执行。	SQL注入、XSS攻击、恶意脚本执行。
训练数据投毒 (Training Data Poisoning)	攻击者污染训练数据，导致模型在特定条件下输出恶意内容。	供应链攻击、后门植入。
模型拒绝服务 (Model Denial of Service)	输入极其冗长或复杂的提示词，耗尽模型算力资源。	服务瘫痪、运营成本激增。
供应链漏洞 (Supply Chain)	使用了存在漏洞的第三方插件、模型或数据集。	系统性安全崩溃。

防御策略：

除了设置“安全护栏”外，企业应采取多层防御：

输入校验：对用户输入进行格式检查和敏感词过滤。

权限隔离：严格控制AI生成内容对后端系统的调用权限。

独立监控：部署独立的AI系统对输入输出进行实时监测。

生成式AI的泛化能力极强，它正在彻底改变网络安全的攻防格局。

1. 攻击侧：打破“语言壁垒”与自动化恶意代码

欺诈升级：攻击者利用AI生成逼真的钓鱼邮件、BEC（商业邮件入侵）诈骗信和虚假新闻。

“稀有语言壁垒”的崩塌：过去，稀有语言因语言障碍较少遭受海外攻击。但现在，攻击者只需向AI下达简单指令，即可生成符合稀有语言商务习惯的诈骗邮件，这一天然屏障已然失效。

恶意代码编写：AI可辅助攻击者编写复杂的恶意软件，降低网络犯罪的门槛。

然而，防御者也在利用同样的工具反击。

案例：一家钓鱼网站检测

该研究利用ChatGPT分析网页的URL、HTML和OCR提取的文本。通过特定的提示词工程（Prompt Engineering），ChatGPT（GPT-4）对钓鱼网站的识别精度达到了惊人的98%以上。

生成式AI正在协助安全运营中心（SOC）进行威胁情报分析、漏洞调查报告撰写以及应急响应辅助，极大地提升了防御效率。

生成式AI既是巨大的生产力工具，也是潜在的法律风险源。它正在消解传统的网络安全防线（如语言障碍），同时也为我们提供了前所未有的防御利器。

作为AI领域的法律从业者，我们建议企业：

建立AI伦理与红线：参考OWASP Top 10 for LLM，制定内部的AI应用安全基线。

完善数据输入合规：建立“涉密数据不上云”的铁律，审查第三方AI工具的隐私政策。

强化输出审查机制：在合同中明确AI生成内容的责任归属，建立人工审核流程。

关注国际动态：紧跟G7广岛AI进程及各国立法（如欧盟AI法案），提前布局合规。