乐于分享
好东西不私藏

用好AI又守住机密:我的脱敏工作流与工具清单

用好AI又守住机密:我的脱敏工作流与工具清单

把工作文档直接丢给AI,约等于把会议纪要贴到公共广场。这篇文章聊聊数据流转逻辑和我一直在用的脱敏方法——不复杂,但管用。


这半年我发现一个有意思的现象:周围同事的浏览器里,AI对话窗口几乎成了标配。

产品经理用它润色文档,研发拿去重构代码,法务把合同整段整段贴进去审。大家都默认——这不过是个工具,用就完了。

我以前也这么想。直到看了某头部公司的内部通报:因信息安全被辞退的人数连续三个季度没降,相当一部分和AI有关。

这些人不是故意泄密。只是没意识到——发给AI的每一行字,都去了自己管不到的云端。

于是我开始琢磨:有没有办法既用上AI的效率,又不把家底儿全抖出去?

下面是我自己用下来的流程和工具。

一、你的文字到底去了哪

很多人把AI当”高级搜索引擎”——我输入问题,它吐出答案。

实际上,对话框敲的每个字都要通过网络送到远端服务器算完再回来。

这意味几件事。

数据必然过网。就算传输加密了,服务器那头也得拿明文算,不然模型”看不懂”。

服务商用你的数据做什么,取决于隐私条款。多数主流产品都有”拿用户输入改进模型”一条。不是某一家,是行业惯例。

数据留多久,各家说法不同。有的写清楚了,有的含含糊糊。含糊本身就是危险信号。

数据泄露多数时候不是因为”被恶意盯上”,而是”没多想就传上去了”。

数据从用户设备流向云端服务器

二、哪些文档必须拦下来

我定了一条死规矩:下面几类,不脱敏绝不扔进AI对话。

没官宣的商业信息

产品路线图、定价策略、标书、客户名单、营销排期。

这类东西最要命的是时效性。竞争对手早三天知道你的定价,就多三天准备。你一旦上传,就等于亲手破了信息的”秘密性”——这是法律保护商业秘密的前提。

怎么判断: 老板说”官宣之前别往外说”——那就是。

源代码和核心算法

代码、调参记录、架构设计、数据库设计。

程序员最容易在这栽跟头——一段代码跑出bug了,复制粘贴丢给AI找问题。你确认过里面没有API密钥、数据库连接串、内网地址吗?

代码是公司的技术资产。三星早年引入AI工具时,光一个部门就出了源代码外传的事,最后全面禁止个人设备使用。一个真实事故换来的禁令。

怎么判断: 别人看了能反推你们的技术架构吗?能,就得脱敏。

涉及第三方的文档

客户合同、员工信息表、用户行为数据。

风险是双重的——泄露公司秘密同时,还可能违反保密协议,甚至触发个人信息保护相关的合规问题。

怎么判断: 文档里有不是你公司的人名、电话、身份证号——那就是。

三类必须脱敏的文档:商业信息、源代码、第三方文档

三、三步走

脱敏三步工作流:扫描 → 替换 → 验证

第一步:五秒快速扫描

拿一篇文章先问自己三个问题:

  1. 这玩意儿明天出现在公开互联网上,我接不接得到领导电话?
  2. 里面有没有同事、客户、用户的个人信息?
  3. 技术细节会不会让竞争对手看出什么?

有一项中了就去脱敏。三项全过,放心发。

第二步:替换词典

直接抄这份规则:

  • 产品名、项目代号 → 产品A / 项目X
  • 具体日期 → 下季度 / 明年上半年
  • 金额 → XX万元级别
  • 客户名 → 某头部客户 / 合作方B
  • 人名 → 张经理 / 李工
  • 电话、邮箱、地址 → 直接删或 [联系方式]
  • 服务器地址、数据库串 → 内部服务器A
  • API密钥、密码 → [已脱敏]

想让模型知道自己在处理脱敏文本,开头加一句:

你正在看的是脱敏文档。敏感信息已替换为占位符。请基于可见内容分析,不要尝试还原被替换的信息。

第三步:发出前扫一眼

  • 数字都糊了吗?
  • 人名都换了吗?
  • 专有名词都变通用了?
  • 有截图的话,截图上有敏感信息吗?

没问题了再发。

四、好用工具

每天多份文档手替太慢。实测过几个:

非技术人员

SafePrompt Mobile(iOS) 导入Word、PDF自动脱敏。所有处理在本地完成,不经过云端。

开源文本分析工具(Web界面)

本地部署,上传文件自动检测替换敏感字段。不需要懂命令行。

技术人员

Microsoft Presidio微软开源,自动识别姓名、信用卡号、IP、电话等。Docker部署在本地离线跑。

AI Data Scrubber专为”把文本喂给大模型之前做清洗”设计的Python库:

pip install ai-data-scrubberpython -m spacy download zh_core_web_smai-data-scrubber 你的文档.txt

Protegrity Developer Edition适合团队用,有数据发现、自动脱敏、语义护栏,本地就能跑。

怎么选

  • 偶尔用 → SafePrompt Mobile
  • 天天用 → 本地Presidio
  • 团队用 → Protegrity + 统一替换词典

五、说点实在的

AI是你最好的效率助手,但它不会是你签过保密协议的合作方。

你跟同事聊敏感工作,有保密制度和契约兜底。跟AI之间,就一份用户协议。把核心信息交给没有保密义务的对象,这本身就带着风险。

不是说别用AI了,因噎废食没必要。我的建议是:该用用,该脱敏脱敏。 把脱敏变成肌肉记忆,像出门摸口袋确认带了钥匙一样自然。

最极端的方案是”不上传”,但比这更聪明的是”上传之前先收拾好”。

这流程我用了大半年,让自己享受AI效率的同时,心里始终有根红线。希望你也用得上。