乐于分享
好东西不私藏

Word 脱敏别只改正文:页眉、批注和修订记录也要查

Word 脱敏别只改正文:页眉、批注和修订记录也要查

Word 不是一整块连续正文。脱敏脚本可以先处理正文、表格、页眉页脚和批注,但文本框、修订记录、嵌入对象及文档属性仍需人工检查。

Word 脱敏时,
很多人先用 Ctrl+H 替换正文。

但正文改完,
不代表整份 Word 已经安全。

因为 Word 不是一整块连续正文。

同一个客户、项目或负责人,
可能仍然留在表格、页眉页脚、批注、文本框、修订记录和文档属性里。

一份 Word 文档,
至少要检查七个位置:

正文段落;
表格单元格;
页眉和页脚;
批注内容与作者;
文本框和形状文字;
修订记录与脚注尾注;
文件名和文档属性。

先把区域列完整,
才能判断哪些可以自动处理,哪些必须人工检查。

第一版本地脚本,
可以先处理结构相对稳定的四类区域:

正文段落中的真实名称和编号;
表格单元格中的客户、项目和金额;
页眉页脚中的公司名、密级和内部路径;
批注中的内容、作者和缩写。

范围写得越明确,
脚本结果才越容易验证。

批注尤其容易被忽略。

它可能暴露的不只是批注文字,
还包括批注作者、缩写、回复内容,以及批注所对应的原文对象。

所以即使正文中的员工或客户名称已经替换,
批注作者仍可能直接暴露审阅人身份。

还有一些区域,
不能默认被常用脚本完整覆盖:

文本框和形状文字;
修订记录;
脚注和尾注;
嵌入的 Excel 或图片;
超链接地址;
文档属性和文件名。

脚本没有读取到,
不等于里面没有敏感信息。

如果第一版没有覆盖,
就应该在检查报告里明确标为“待人工检查”。

Word 脱敏仍然要先准备替换表。

同一个公司、人员、项目和内部路径,
需要在正文、表格、页眉页脚和批注中保持同一代号。

真实值与代号之间的映射表只保存在本地,
给外部 AI 的只能是经过人工复核的脱敏副本。

脚本运行以后,
建议输出两份结果。

第一份是 脱敏副本.docx
保存已经替换后的文档。

第二份是 检查报告.xlsx
记录替换数量、命中区域、未覆盖区域和待人工检查项。

脱敏结果必须能被复核,
不能只得到一个看起来已经处理完的 Word 文件。

最后一步,
仍然要回到 Word 里人工检查:

搜索原始关键词;
逐个打开页眉页脚;
展开全部批注和修订;
检查文本框和嵌入对象;
查看文件名和文档属性。

Word 脱敏脚本的价值,
不是一键保证安全。

而是减少稳定区域里的人工漏改,
把复杂对象明确留给人复核。