乐于分享
好东西不私藏

法务 * AI :独立的法律脱敏工具,是个伪需求

法务 * AI :独立的法律脱敏工具,是个伪需求

今天下午,领导转给我一个压缩包。

“有位同行推了一个本地脱敏工具,你回头看看能不能用,咱们也搞一个吧。”

我点开试了十分钟,回领导说:”能用。但单独做一个脱敏工具,可能是个伪需求。”


前半|为什么是伪需求

1. 理想流程 vs. 现实流程

你是个法务,想让 AI 帮你审一份涉密合同,你脑子里的理想流程大概是这样的:

打开 AI → 丢进合同 → 拿到结果。

三步。数据在谁手上、中间怎么脱敏、隐私怎么护——用户根本不需要也不应该关心,这是 AI 产品自己该解决的问题

但如果要你套上一个独立的脱敏工具,事情就复杂了。

这类工具的原理很直白:把合同里的真名字(”北京降本增笑有限公司””张三律师”)替换成占位符(”[公司A]””[律师B]”),让 AI 看打码版;等 AI 出完审核意见,你再把占位符换回真名字——不然一份全是”[公司A]”的审核意见,你自己也读不懂。

于是实际流程长这样:

打开脱敏工具 → 上传合同 → 等脱敏 → 下载脱敏稿 → 切到你常用的 AI 产品 → 上传脱敏稿 → 让 AI 审查 → 下载 AI 审核稿 → 切回脱敏工具 → 上传审核稿 → 执行还原 → 下载还原结果 → 人工复核。

十三步。即便每一步都完美运行,任何人用过三次都会放弃。不是哪个工具做得不够好,是”独立脱敏工具”这个产品形态本身反人性

2. 再往下想一层:谁会真金白银买单

就算流程能忍,下一个问题更致命——谁会掏钱买这玩意儿

我把潜在用户分成三类,挨个想了一遍:

三类潜在用户的需求与付费意愿

三头需求全对不上。这不是供给侧的问题,是需求侧本身太薄

3. 所以正确做法是什么

真要做 Legal AI,不是”做一个独立的脱敏工具”,而是——

把脱敏能力嵌进真正在干活的AI产品里。

用户根本不该”意识到”自己在用脱敏——就像你用微信发图片的时候,不会意识到自己在用图像压缩算法一样。这种事要是非得让用户自己感知,就已经输了


后半|脱敏到底怎么做

产品层的话说完了,接下来聊技术层——脱敏这件事,在工程上到底是怎么实现的?

这一层很多法务朋友平时不太接触,也确实存在一些技术门槛,我尽量用简单的语言讲明白

1. 第一步:先验证”本地性”

法务拿到一款标着”本地 / 私有化 / 零外传”的 AI 工具,第一件事永远都该是——验证数据到底有没有出门

说明书写得再花都不算数。数据到底有没有出门,只有代码能告诉你。但法务同行们大部分都不懂代码,简单两招给你,以后任何工具跟你说”本地 / 私有化 / 零外传”,不用懂代码,这两招基本够用:

💡 方法一:断网测试

关掉 Wi-Fi,完整跑一遍工具。 断网还能正常工作,基本就是真本地;一断网就罢工,就不用往下看了。

💡 方法二:F12 看 Network 面板

浏览器里按 F12(Mac 按 ⌥⌘I),会弹出一个开发者面板,切到 Network这一栏。正常使用工具的过程中,如果这一栏里不停有新的东西冒出来——那就是在往外发请求。

2. 脱敏产品的基础方案:正则表达式

领导让我试用的那款工具,用的就是纯正则方案。

正则你大概率见过,就是那种看起来像乱码的字符串。本质上,它是一种”描述字符串格式”的语言:你告诉电脑”我要找形如 18 位数字、前几位落在某个范围、中间是有效年月的东西”,它就能把整篇合同里符合这个格式的字符串全抓出来。

正则的强项,是”结构化信息”。身份证号一定是 18 位、固定格式;手机号一定是 11 位、以 1 开头。这种有明确形式规律的东西,正则能做到接近100%的准确率。合同里的结构化敏感信息,正则能搞定70%。

问题在剩下那 30%。

一个例子你就秒懂。合同开头通常会写:

甲方:北京降本增笑有限公司(以下简称”降本增笑”)

公司名一般以”有限公司””股份有限公司”为后缀结尾,所以”北京降本增笑有限公司”能被抓到。

但是——合同正文里后面出现的所有”降本增笑”,一个都抓不到。因为”降本增笑”既不是法定后缀结尾,也没有任何固定格式规律。

这就是纯正则方案的天花板。简称、非标准人名、内部项目代号、没有前缀词的地址——正则基本无能为力

3. 业内成熟方案:一套四层架构

业内真正成熟的法律脱敏方案,不管开源还是云服务,架构都是同一套:四层,缺一不可

业内成熟法律脱敏方案的四层架构

软件工程里有一句老话,叫”没有银弹“——没有任何单一技术能解决所有复杂问题。这话在 AI 时代照样成立。

⚠️ 下次再有供应商拍胸脯说”我们这个大模型能一键解决合同审查”,你心里可以默默打个叉。严肃的法律 AI 系统,背后一定是”规则 + 词典 + 模型 + 人工”的分层组合——至少目前是这样。

4. 一个耐人寻味的行业事实

最后有一点值得注意:业内相对成熟的脱敏方案——全都不是独立软件

它们大多以 SDK(开发者工具包)或 API 的形式存在。换句话说,人家从设计之初就是被嵌进别的 AI 产品里用的,不是让用户单独跑一遍脱敏。

这个行业事实,正好印证了前半部分的结论:

脱敏不该是独立工具,它应该作为能力,被嵌进真正在干活的产品里。

产品层的判断和技术层的现实,在这里对上了。


写在最后

这篇算是”法务 × AI”专栏的第一篇。

这波 AI 里真正值得看的问题——边界、落地、可信度——大多数不在技术人的视线里,而在法务、风控、合规这些日常里。用法务视角去解剖一款工具、一个场景,值得慢慢写。

以上是我现在的判断,未必都对。如果你恰好真的在用一款独立脱敏工具,并且觉得好用,欢迎留言告诉我用在哪儿。这篇就算是抛砖。