做传统项目交付,安全就是等保测评和网络隔离,边界清楚。
AI产品的安全边界完全不一样——用户输入一句话就能让模型"忘记"自己的规则,一张人眼看起来完全正常的图片就能骗过识别系统。
今天学的内容让我意识到,AI安全设计是PM必须自己懂的事。不懂,PRD里写出来的安全方案就是一纸空文。
一、内容过滤与风控阈值:防线的搭建和调参
内容过滤不是敏感词过滤那么简单。现代攻击者会用谐音、空格插入、颠倒字符来绕过关键词。单靠一个词库挡不住,需要三层防线:
口诀:「快拦 + 准判 + 人兜」,投入比 7:2:1。
第一层负责速度,拦掉80%的明显违规;第二层负责准确,对付绕过攻击;第三层兜底灰色区域,结果反哺回词库和模型。
风控阈值不是随便设的,阈值决定模型在什么置信度下执行"放行"或"拒绝"。调0.01,用户体验就会明显变化。
阈值设定四步法:
算业务成本比
——漏检一次有害内容 vs 误拦一次正常用户,哪个代价更高?金融风控漏检成本5万元,误拦成本100元,比例500:1,阈值必须从严。
看ROC曲线选操作点
——让算法团队输出ROC曲线,在误拦率可接受范围内选召回率最高的点。
设三档,别二值化
——高置信自动放行,中置信降级/人工介入,低置信自动拒绝。只有"通过"和"拒绝"两档是安全设计的大忌。
灰度验证再全量
——先跑5%流量观察2周,监控拒绝率、投诉率、Bad Case率,再决定是否全量。
不同场景的典型阈值:
一个容易踩的坑:阈值一刀切。儿童产品的安全阈值应该比成人产品更严,不同时段、不同内容类别的阈值应该分开设。
还有一个认知要分清:安全护栏(防有害内容,漏检率目标≤0.1%)和体验护栏(防尴尬回应,误拦截率目标≤3%),两者的阈值逻辑完全不同——安全护栏宁可多拦,体验护栏宁可少拦。
二、深度伪造防范:检测和生产两侧都要管
深度伪造(Deepfake)不只是新闻里的概念。如果你的AI产品有换脸、变声、视频生成能力,这就是你PRD里必须设计的合规模块。
防范分两个方向:检测侧——判断内容是否被伪造:
生产侧——防止自己的产品被用于生成伪造内容:
换脸/变声功能:必须核验用户实名 + 获取被合成对象书面授权 所有生成内容:必须嵌入双标识(显式标注+隐式数字水印) 系统级硬拦截:禁止处理国家领导人、公众人物的合成请求 日志留存:生成记录保留180天以上,配合监管核查
红线禁区,没有豁免:涉及国家领导人的合成内容、未获授权的真实人物换脸视频、带有政治倾向的虚假新闻——这些必须在技术层面硬拦截,不能靠用户协议约束。
三、对抗样本防护:提示词注入是LLM时代最大的安全漏洞
对抗样本是经过精心构造的输入,人眼看起来正常,但能让AI模型产生错误判断。
在LLM产品里,最常见的形式是提示词注入(Prompt Injection)。攻击者通过精心设计的输入,让模型忘记系统提示、绕过内容过滤、泄露系统Prompt,甚至劫持Agent的工具调用。
四种常见攻击手法:
提示词注入防护五招:
系统Prompt隔离
——系统提示与用户输入用物理隔离符分开,边界清晰
输入净化
——过滤"忽略之前的指令""你现在是DAN"等角色扮演触发词
输出校验
——模型输出做二次安全扫描,确保系统Prompt、API Key等敏感信息不外泄
最小权限
——Agent调用的工具权限最小化,工具调用前增加二次确认
红队测试
——上线前组织专门的越狱攻击测试,目标:越狱成功率<0.01%
有一个细节容易忽略:只检查用户第一条消息是没用的。多轮渐进攻击恰恰是先聊正常话题建立信任,后面几轮才引入恶意内容。安全检测必须覆盖每一轮对话。
一个场景题,自己测验一下:
你负责一款银行AI客服产品,基于大模型,用户可以咨询贷款、理财、账户信息。
PRD的「安全与合规」章节至少要写清这五件事:
内容过滤三层配置:第一层关键词(金融诈骗词库,每周更新),第二层安全分类模型(置信度≥0.85触发拒绝),第三层人工审核(0.5~0.85灰色区域,2小时内响应)
风控阈值设定:金融场景漏检成本远高于误拦,置信度≥0.90才自动放行;三档分设;先5%流量灰度2周
系统Prompt保护:加密存储,物理隔离,输出层做敏感信息过滤,明确拒绝Prompt泄露请求
提示词注入防护:过滤越狱触发词,跨轮次意图追踪,RAG结果净化,Agent工具最小权限
安全事件响应SLA:P0级(有害内容泄露)30分钟内下线,P1级(单次漏出)4小时内修复
安全设计是PM的必修课,不是安全团队的专责:阈值涉及业务成本决策,是PM的核心职责。算法工程师负责模型性能,PM负责把业务决策转化为阈值参数。
安全团队告诉你"需要过滤",但过滤到什么程度、误拦多少用户可以接受、出事后多长时间内必须响应——这些全是产品决策。PM不拍板,安全方案就是悬在空中的。
每个AI产品的PRD都应该有一章「安全与合规」,不是凑字数,是产品上线的前提。
夜雨聆风