乐于分享
好东西不私藏

守护 PDF 文档安全:阻止 AI 模型抓取你的数据

守护 PDF 文档安全:阻止 AI 模型抓取你的数据

如何运用 TDM 保留协议(TDMRep)实现 PDF 文档的伦理化文本与数据挖掘

人工智能可从 PDF 文档中检索并提取内容,用于生成式 AI 模型的训练,文本与数据挖掘(TDM)技术也包含在这一范畴内。本文将为你介绍多种可行方案,助你实现对 PDF 数据抓取行为的允许、限制或完全禁止。

本文将具体说明,如何为 PDF 文档添加机器可识别的标识信息,以实现以下一种或多种业务需求:

  • 向文本与数据挖掘使用者明确,PDF 文档内容的相关权利受法律保护;
  • 向文本与数据挖掘使用者告知访问和使用 PDF 内容的法定流程,包括必要情况下的权利审批与报酬支付相关要求;
  • 完全禁止机器对 PDF 内容进行检索。

运用 TDM 保留协议的实操方法

TDM 保留协议(TDMRep)为文本与数据挖掘(TDM)行为制定了一套退出机制,核心解决两大关键问题:

  • 特定内容是否允许为开展文本与数据挖掘而被检索 / 挖掘;
  • 若需要授权,相关使用者应如何联系权利人获取该类使用许可。

TDM 保留协议的权利保护模型包含两个核心属性:

  1. tdm-reservation(布尔值)标识相关挖掘权利是否受保护;
  2. tdm-policy(统一资源定位符)提供内容发布方的联系方式,以及获取内容挖掘授权的相关条件。
从技术层面来说,后者为可选属性,但如若省略该信息,整个权利保护机制的实际效用可能会大打折扣。

作者或发布方可将上述两个属性添加至 PDF 文档的 XMP 元数据中(既可在文档创建阶段主动添加,也可在发布后补加),以此声明对相关权利的保护,并为获取文本与数据挖掘(TDM)访问授权提供合规路径。以下为W3C提供的参考示例:

资源链接: https://www.w3.org/community/reports/tdmrep/CG-FINAL-tdmrep-20240510/#example-8 

TDM 策略的规范格式是什么?

TDM 策略采用JSON-LD(关联数据 JSON) 格式编写,并使用ODRL(开放数字权利语言) 中的标准术语 —— 该语言是为实现数字版权管理标准化而提出的规范语言。

以下为该 JSON 结构的必选属性清单,后附由万维网联盟(W3C)提供的策略示例:

  1. @context: 包含两个固定值的数组,具体http://www.w3.org/ns/odrl.jsonld和http://www.w3.org/ns/tdmrep.jsonld
  2. uid:策略的唯一标识,以统一资源标识符(URI)表示。该链接并非强制指向公共可访问的资源,但建议这么做。W3C 给出的简易建议是,将该标识链接至网站中人类可读的使用条款页面。
  3. @type: 该属性值必须为Offer(要约)。根据 ODRL 模型定义,要约指权利人就其资产相关的特定权利作出的提议
  4. profile: 该属性值必须为http://www.w3.org/ns/tdmrep
assigner: 该属性包含一组用于联系权利人的vCard 子属性。结合对协议规范的最佳解读,并非要求使用所有 vCard 子属性,但若使用任意子属性,其必须属于 TDMRep 协议规范 7.1.4 节列出的属性范围。
  1. permission: 权限数组。结合对协议规范的最佳解读,该数组仅有一个必选元素 ——”action”: “tdm:mine”,其含义为:本策略中定义的权限是通过自动化分析技术,对数字形式的文本和数据进行分析,以生成包含但不限于模式、趋势和关联关系的信息。为最大程度贴合本协议规范的设计初衷,此处特别说明:数组中还需列出 duty 元素,用于明确 TDM 行为主体需履行获取可验证的授权同意这一义务。协议规范虽未明确将该元素列为必选,但鉴于其重要性,至少强烈建议添加。

注:协议规范中还列出了其他归为推荐属性可选属性的 JSON 字段,以上仅为严格要求的必选属性。

以下为 Datalogics 编写的简易示例:

W3C提供的示例可参考此链接:https://www.w3.org/community/reports/tdmrep/CG-FINAL-tdmrep-20240510/#example-19 该示例包含一套权限定义结构,用于规范与科学研究相关的文本与数据挖掘访问权限,相关权限细则可根据地区差异进行灵活调整。

借助 Adobe PDF Library在 PDF 中配置 TDM 保留协议(TDMRep)

本基础示例将采用 Adobe PDF Library(APDFL)的 .NET 开发接口进行操作。

我们需要修改 PDF 的 XMP 元数据,在 http://www.w3.org/ns/tdmrep/ 命名空间下配置 reservation(权限保留)与 policy(策略)这两项属性。Adobe PDF Library的 Document 类中包含一个专用成员方法 SetXMPMetadataProperty(),可用于设置 XMP 元数据属性,具体代码示例如下:

doc.SetXMPMetadataProperty(tdmNS, "tdm""reservation""1"); doc.SetXMPMetadataProperty(tdmNS, "tdm""policy""http://www.test.com/some_tdm_policy");

上述代码中,doc 代表一个 Document 类对象,tdmNS 是前文所述万维网联盟(W3C)命名空间的简写形式,tdm 则是 XML 代码中的属性前缀。执行该代码后,PDF 文件的 XMP 元数据中会新增相关属性,其结构与本文前文展示的 XML 示例类似。

Datalogics提供的 .NET 示例程序可参考相关链接。

此外,Adobe PDF Library的 Java 与 C++ 开发接口也具备等效功能,对应的方法分别为Document.setXMPMetadataProperty()和 PDDocSetXAPMetadataProperty()

除上述示例程序外,Datalogics公司还提供了另一款示例程序。该程序能够提取 PDF 中的文本内容,并将 TDM 保留协议(TDMRep)的元数据信息输出至控制台。其实现原理十分简便:通过 JSON 解析器检查 PDF 的 XMP 元数据,筛选出目标属性后,提取并返回内容权利人的联系信息。

该示例程序的代码仓库地址为:https://github.com/datalogics/additional-apdfl-csharp-dotnet-samples/tree/develop/TextExtractTDMAware

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 守护 PDF 文档安全:阻止 AI 模型抓取你的数据

评论 抢沙发

5 + 9 =
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
×
订阅图标按钮