用好AI又守住机密:我的脱敏工作流与工具清单-夜雨聆风

用好AI又守住机密:我的脱敏工作流与工具清单

把工作文档直接丢给AI，约等于把会议纪要贴到公共广场。这篇文章聊聊数据流转逻辑和我一直在用的脱敏方法——不复杂，但管用。

这半年我发现一个有意思的现象：周围同事的浏览器里，AI对话窗口几乎成了标配。

产品经理用它润色文档，研发拿去重构代码，法务把合同整段整段贴进去审。大家都默认——这不过是个工具，用就完了。

我以前也这么想。直到看了某头部公司的内部通报：因信息安全被辞退的人数连续三个季度没降，相当一部分和AI有关。

这些人不是故意泄密。只是没意识到——发给AI的每一行字，都去了自己管不到的云端。

于是我开始琢磨：有没有办法既用上AI的效率，又不把家底儿全抖出去？

下面是我自己用下来的流程和工具。

一、你的文字到底去了哪

很多人把AI当”高级搜索引擎”——我输入问题，它吐出答案。

实际上，对话框敲的每个字都要通过网络送到远端服务器算完再回来。

这意味几件事。

数据必然过网。就算传输加密了，服务器那头也得拿明文算，不然模型”看不懂”。

服务商用你的数据做什么，取决于隐私条款。多数主流产品都有”拿用户输入改进模型”一条。不是某一家，是行业惯例。

数据留多久，各家说法不同。有的写清楚了，有的含含糊糊。含糊本身就是危险信号。

数据泄露多数时候不是因为”被恶意盯上”，而是”没多想就传上去了”。

二、哪些文档必须拦下来

我定了一条死规矩：下面几类，不脱敏绝不扔进AI对话。

没官宣的商业信息

产品路线图、定价策略、标书、客户名单、营销排期。

这类东西最要命的是时效性。竞争对手早三天知道你的定价，就多三天准备。你一旦上传，就等于亲手破了信息的”秘密性”——这是法律保护商业秘密的前提。

怎么判断： 老板说”官宣之前别往外说”——那就是。

源代码和核心算法

代码、调参记录、架构设计、数据库设计。

程序员最容易在这栽跟头——一段代码跑出bug了，复制粘贴丢给AI找问题。你确认过里面没有API密钥、数据库连接串、内网地址吗？

代码是公司的技术资产。三星早年引入AI工具时，光一个部门就出了源代码外传的事，最后全面禁止个人设备使用。一个真实事故换来的禁令。

怎么判断： 别人看了能反推你们的技术架构吗？能，就得脱敏。

涉及第三方的文档

客户合同、员工信息表、用户行为数据。

风险是双重的——泄露公司秘密同时，还可能违反保密协议，甚至触发个人信息保护相关的合规问题。

怎么判断： 文档里有不是你公司的人名、电话、身份证号——那就是。

三、三步走

第一步：五秒快速扫描

拿一篇文章先问自己三个问题：

这玩意儿明天出现在公开互联网上，我接不接得到领导电话？
里面有没有同事、客户、用户的个人信息？
技术细节会不会让竞争对手看出什么？

有一项中了就去脱敏。三项全过，放心发。

第二步：替换词典

直接抄这份规则：

产品名、项目代号 → 产品A / 项目X
具体日期 → 下季度 / 明年上半年
金额 → XX万元级别
客户名 → 某头部客户 / 合作方B
人名 → 张经理 / 李工
电话、邮箱、地址 → 直接删或 [联系方式]
服务器地址、数据库串 → 内部服务器A
API密钥、密码 → [已脱敏]

想让模型知道自己在处理脱敏文本，开头加一句：

你正在看的是脱敏文档。敏感信息已替换为占位符。请基于可见内容分析，不要尝试还原被替换的信息。

第三步：发出前扫一眼

数字都糊了吗？
人名都换了吗？
专有名词都变通用了？
有截图的话，截图上有敏感信息吗？

没问题了再发。

四、好用工具

每天多份文档手替太慢。实测过几个：

非技术人员

SafePrompt Mobile（iOS）导入Word、PDF自动脱敏。所有处理在本地完成，不经过云端。

开源文本分析工具（Web界面）

本地部署，上传文件自动检测替换敏感字段。不需要懂命令行。

技术人员

Microsoft Presidio微软开源，自动识别姓名、信用卡号、IP、电话等。Docker部署在本地离线跑。

AI Data Scrubber专为”把文本喂给大模型之前做清洗”设计的Python库：

pip install ai-data-scrubberpython -m spacy download zh_core_web_smai-data-scrubber 你的文档.txt

Protegrity Developer Edition适合团队用，有数据发现、自动脱敏、语义护栏，本地就能跑。

怎么选

偶尔用 → SafePrompt Mobile
天天用 → 本地Presidio
团队用 → Protegrity + 统一替换词典

五、说点实在的

AI是你最好的效率助手，但它不会是你签过保密协议的合作方。

你跟同事聊敏感工作，有保密制度和契约兜底。跟AI之间，就一份用户协议。把核心信息交给没有保密义务的对象，这本身就带着风险。

不是说别用AI了，因噎废食没必要。我的建议是：该用用，该脱敏脱敏。 把脱敏变成肌肉记忆，像出门摸口袋确认带了钥匙一样自然。

最极端的方案是”不上传”，但比这更聪明的是”上传之前先收拾好”。

这流程我用了大半年，让自己享受AI效率的同时，心里始终有根红线。希望你也用得上。