美国律师如何使用AI(6)—《法庭上的AI证据》译-夜雨聆风

美国律师如何使用AI(6)—《法庭上的AI证据》译

美国律师如何使用AI（6）—《法庭上的AI证据》译

译者注：本文是对登载于《米切尔哈姆林法律评论（Mitchell Hamline Law Review）》第52卷（2025年11月12日出版）的《Gen AI作为法庭证据的实践指南（Generative AI as Courtroom Evidence: A Practical Guide）》的翻译，作者为：Neal Feigenson，Brian Carney。

基于篇幅问题本文只翻译正文，脚注和说明不作翻译，只视情况作简单说明。基于篇幅问题本文只翻译正文，脚注和说明不作翻译，只视情况作简单说明。本文是论文第六段，第一、第二、第三、第四、第五段见前文。

利用生成式AI创建或增强证据：照片、视频与音频

大多数人想到 AI 证据的风险时，首先想到的都是深度伪造（deepfakes）。

那些声称是原始、未修改的照片、视频或录音，实则由生成式AI（Generative AI，即生成式AI）伪造的视听材料，显然不应当作为实质证据被采纳。法院应当通过强制披露、要求哈希值、其他真实性验证手段，结合使用 AI 生成检测工具，来识别哪些展示材料部分或全部由 AI 生成。本文在本节末尾会简要讨论一些可能的操作程序与技术。

但我们首先需要阐明：为何将Gen AI生成或修改的看似真实的音视频材料作为证明案件事实的实质证据，会对准确查明事实构成严重威胁。

原始、未修改的照片、视频与录音，长期以来都被视为反映现实的可靠证据。虽然它们通常由具备亲身知情的证人鉴证，证明其准确反映了证人所见所闻，但这类证据之所以被认为具有独立证明价值，是因为它们与所描绘的现实存在密切的因果关系。

这种一定程度上是因为：这些图像与声音是在事件发生现场或附近、几乎同时生成的。它们由外部世界的物理痕迹构成：对照片与视频而言，它们是物体反射光线、经相机机械式处理并记录在介质上留下的痕迹。

因此，普通照片、视频、录音被称为现实的索引性符号（indexical signs）。如同鲁滨逊在沙滩上看到的脚印，除口头证言外，它们本身就能证明拍摄、录制时，该物体、人物或事件确实存在并呈现该状态。

从语言学意义上，照片与视频也具有索引性（注：照片之所以具有索引性符号意义，是因为“它们被拍摄或拍摄这一事实本身，就指向了世界中的某个事件，作为一种将现实引入图像场域的指称形式。”），因为它们在视觉上暗含了拍摄者（或至少是相机）的宣告：“我当时就在这里。”

然而，照片与视频的作用远不止于呈现所见之物。“摄影是一种探测手段…… 摄影图像能够让人提取拍摄过程中被记录下来的视觉信息…… 这之所以可能，是因为照片记录了光线。”照片不只是对现实的可视化，更是对现实的探测，因此其本身可以成为关于被摄世界的其他可靠数据来源 —— 例如，通过摄影测量法得出的精确分析。

AI 生成图像可以达到照片级真实，但它不是照片。它不具备任何索引性。它的独立证明价值，不会高于一幅素描或一幅画作。

欺骗性内嵌于整个生成过程：生成对抗网络（GAN）的设计目的，就是让生成器能够骗过判别器，使其无法区分生成的伪造图像与训练集内的真实图像。而每一次能更好地检测伪造内容的技术进步，都会迅速被新一代生成模型吸收，从而让它们造出更逼真的伪造品以对抗最新的技术进步。

这种技术对准确认定事实的威胁是双重的：人们很难区分真实与伪造图像，却又自信地认为自己可以。一项研究显示，受试者观看 8 段真实视频和 8 段深度伪造视频，识别准确率仅约58%，只比抛硬币略好一点。但他们却认为自己判断正确率将近80%。更糟的是，受试者最自信的时候，恰恰是最不准确的时候—— 这是典型的邓宁克鲁格效应（Dunning-Kruger effect）。也许最令人担忧的是：当受试者判断错误时，错误方向几乎完全一致 ——把深度伪造视频误认为真实视频（译者注：而非把真实视频误认为深度伪造）。

鉴于人们直觉上将视频视为最可靠的证据之一，并视为对 “究竟发生了什么” 的认知底线，因此将 AI 生成视频引入法庭，事实审理者很可能将其当作直接证据，其潜在后果极为严重。

但是，律师与当事人将深度伪造或其他 AI 视听材料冒充为真实、可信的原始记录的可能性究竟有多大？明知是完全由 AI 生成的照片、视频、音频，或是由真实视频篡改而成的深度伪造，却当作真实证据提交，这属于对法院的欺诈。

尽管大规模证据欺诈并非闻所未闻，但它不太可能普遍发生。原因有二：第一，举证人几乎必然要面对这些问题：“谁制作的图像？”“相机当时在哪里？”这些问题会要求鉴证证人作出虚假证言。面临伪证罪起诉的风险，足以遏制此类行为。

第二，其他证据可能使某些深度伪造根本不可信——例如，有不容置疑的证据证明，视频中的人物在伪造视频声称的拍摄时间身处另一地点；或是同一现场存在已经鉴证、未被质疑为伪造的冲突视频。

法院在质疑、甚至成功揭穿伪造示意证据方面经验丰富。事实上，19 世纪最早涉及照片证据的标志性案件之一，就是判断 “灵异照片” 究竟是真实还是伪造。

我们可以预期，随着检测伪造技术的出现，类似质疑视频造假的挑战将层出不穷。最终，不利裁判、颜面与信誉丧失、职业惩戒的风险（即便不考虑内在伦理约束），足以阻止大多数律师明知故犯地将 AI 生成的照片或视频当作实质证据提交。

我们认为，更有可能出现的情况是：使用生成式 AI“增强” 真实照片或视频，例如调亮或调暗图像，以突出细节或增强对比度。

这类修改中的一部分 —— 毕竟熟练使用 Photoshop 及其他三维建模与图像处理软件早已可以实现 —— 应当被视为允许的 “清晰化” 处理，目的是改善原本不够清晰的原始材料，强化其证明价值。

同样，生成式 AI 也会被用于修改录音：去除无关杂音、放大特定人声，使法官和陪审团能更清楚地听清内容。这类操作长期以来也通过 ProTools、Audacity、Audition 等音频软件实现。

然而，这些用生成式 AI增强现有音视频的预期做法，会引发若干担忧：

第一，如果模型添加了原始索引性记录中不存在的像素或数据，生成式 AI 就会产生具有欺骗性、误导性的输出。除非修改对观众显而易见（例如视频中某部分像素以明显不真实的方式上色，以使某一细节更突出），否则依据第 403 条，该修改后的图像理应被排除。

第二，某些修改可能生成与原始图像同样逼真、但作为现实证据反而更不可靠的图像。例如，使用生成式 AI 改变视角，或许可以在物理现实层面具备充分依据，就像基于点云数据创建的 3D 模型中可以变换相机角度一样。但与基于点云的模型不同，生成式 AI 的不可解释性可能导致展示的视角不符合标准 3D 模型的精确数学逻辑。

第三，用户或生成式AI 模型创建者无法精确解释模型运作方式，这很可能削弱举证人的最终图像或视频被采纳的能力 ——这与我们已经讨论过的生成式AI 生成的法庭科学展示材料与海量数据摘要的可采性问题完全相同。

尤其成问题的是：如果仅适用“公平且准确反映”标准鉴证生成式AI 增强后的图像与音频，它们完全可能会按照与普通录音录像相同的规则被采纳。

如前所述，关注无法感知或记住普通照片或视频中记录的所有细节。人类无法像相机那样以同等清晰度感知完整场景；在中心视野以外，人类知觉的清晰度要低得多。此外，证人的记忆本身并非对原始信息的刻录，而是经过重构后的产物。而观看图像本身就可能改变目击者对事件的记忆。

因此，诚实的目击者也可能错误地鉴证：一份经生成式AI 增强的照片或视频是对其所见所闻 “公平且准确的反映”，从而为这些照片或视频被采纳打开大门。

毋庸置疑，原始图像与生成式AI增强版之间微小的差别，完全可能导致事实审理者对事件的理解产生具有法律意义的重大差异。

图像与场景的创建和修改正变得越来越精确、逼真、易于获取，其中包括多模态图像生成。“与扩散模型将噪声转化为图像不同，多模态生成让大语言模型直接创建图像，就像它们逐个添加单词一样，逐个添加微小色块。”

其它技术，包括 Adobe Photoshop、OpenAI DALL-E、Midjourney 及 FaceSwap 在内，允许通过文本提示进行修复、外补、生成式填充，以移除或替换视频与图像中的特定物体或背景。

一种名为“3D 高斯泼溅”（3D Gaussian Splatting）的技术，可将图像转换为可操作的 3D 场景，其中对象可以被放置或替换。

Google 的 Veo 3 支持缩放、平移、变换角度，并可根据提示合成背景音效与对话。

语音合成与声音克隆软件（如 Google 的 Chirp 3、ElevenLabs 的 Voice Changer）支持语音到语音的转换。

此外，开放权重（Open weights）模型的性能仅比最先进的专有闭源生成式 AI 模型落后数月，但其神经网络的预训练参数已公开—— 尽管训练代码、原始数据集及模型其他核心内容仍保持私有。由于属于半开源性质，任何人都可以下载并修改模型。

与私有部署、不可自定义的专有模型不同，DeepSeek.ai、Stable Diffusion、Llama 等开放权重模型完全可定制、可本地运行。用户无需接入大型科技企业的数据中心，即可在个人电脑上生成高质量图像与音频内容。

人工智能创新与创业学教授伊桑・莫利克（Ethan Mollick）对此评述如下：

“将这些趋势综合来看可以清晰发现：我们正走向一个时代 —— 不仅图像，… 视频[及音频]技术将发展到足以欺骗大多数人的水平，而且这些技术将被广泛普及。同时得益于开源模型，这些技术极难监管、极难管控。我们必须做好准备，迎接一个无法区分真实内容与 AI 生成内容的世界。这将对社会方方面面产生深远影响，从我们日常消费的娱乐内容，到我们对网络信息的整体信任基础，无一例外。”

在这一全新媒介环境中，以信任视听证据可靠性为核心的司法裁判，要如何正常运转？学界已提出多种应对方案，既防范伪造音视频被错误采纳的风险，也防范真实证据被对方主张为伪造而成功遭受错误排除的风险。这将涉及程序措施与技术手段两类路径。

在对证据规则与实践的修改建议中：有学者提出，法官应当对所有照片、视频证据先行进行真实性筛查。这实际上是将目前属于第 104 条 (b) 项的问题 —— 即只要法官认为合理陪审团能够认定证据与其主张一致，证据即可采纳 ——转变为第 104 条 (a) 项问题，即由法官依据优势证据标准直接决定可采性。

另有学者更进一步，主张设立一项新规则：任何一方均有权要求举行听证，要求举证人通过其他来源佐证信息来源。这一规则将取代通常适用、门槛较低的第 901 条 (b) 项标准 ——后者允许示意证据在无需外部真实性证据的情况下即可采纳。

另一项类似建议要求：任何视频证据的举证人必须提交一份法庭科学分析宣誓书，由具备第 702 条资格的专家出具，宣誓书中说明：

所提交视频证据的真实性；
分析视频所使用的方法；
以及举证人所陈述的证据保管链。

还有一项建议旨在避免昂贵的法庭科学专家对抗：允许法院采纳律师宣誓书，声明未使用生成式 AI 技术，或所使用的技术未对原始材料进行篡改或添加内容。

莫拉・格罗斯曼教授、保罗・格里姆法官及其多位同事提出了一套详细程序，用于提出和解决针对 AI 证据的异议。他们主张：法院还必须考虑，如果证据最终被证明是伪造、无效或不可靠后，其可能产生的潜在风险、负面影响或不良后果。换言之，当证据导致不公正或错误裁判的风险很高，而证据真实性不足时，该证据就应当排除。

在另一篇文章中，格罗斯曼、格里姆及其同事提出：即便依据第 401 条和第 901 条 (a) 项，法官认为陪审团可以合理认定证据具有相关性与可靠性，审理法官仍有权依据第 403 条排除可能的深度伪造证据。只要视频存在不真实的风险，且错误允许陪审团观看深度伪造对案件引发的后果足够严重 ——即便陪审团事后认定视频并非真实，也很难 “当作没看过”—— 法官就可以排除这类视频。

格罗斯曼与格里姆还在两项第 901 条修订建议中详细阐述了这一思路。这些建议尚未被采纳，相关讨论仍在继续。

全美越来越多的法官已发布命令，要求律师证明法庭文书中 AI 的使用情况与准确性。但据我们所知，这些命令中只有一项涵盖了使用 AI 或生成式 AI 制作、展示作为示意证据或说明性辅助材料的视听内容。

技术性解决方案包括：要求举证人通过提供“电子认证签章”来证明照片或视频的真实性。这可以采取哈希值或其他元数据形式，以确保图像的真实性与来源。

当然，技术也被用于检测伪造内容。例如，Amped Authenticate 可帮助法庭科学调查人员判断照片与视频的真实性。这一快速发展领域中的工具，是对数十年来用于检测数字伪造的传统图像分析方法的强化。

然而，当前的深度伪造检测技术仍存在较高误判率，并且与人工判断者一样，往往将伪造视频误判为真实。因此，无论采用何种程序机制来辅助检验，在深度伪造时代，确保作为实质证据提交的视频的可信性，仍然是一项重大挑战。

陆凌燕

美国律师如何使用AI（6）—《法庭上的AI证据》译

（欢迎关注）