一份AI回答被法院不予采信后,我重新思考了这个问题近日,上海宝山法院审结了一起装修纠纷案。谭先生家的地暖制热不达标,起诉了安装公司。庭审时,他掏出了一张截图——是他问AI「该型号锅炉适合多少面积」,AI回答「适用于80-120平方米住宅」。法院没买账。理由是,AI引用的资料主要来自网络营销信息,不够权威。而且法官当庭又问了另外两款AI,得到的答案都不太一样。判决一出,网上吵翻了。有人说法院保守,有人说AI本来就不靠谱。但我看完判决书,脑子里冒出的第一个念头是:法院的审查逻辑,好像哪里没说完。作为一名有过不少创新类实践或者接受过咨询的律师,我太清楚这种「新事物撞旧规则」时的尴尬了。法院想审慎,但现行法律根本没给AI生成内容准备一套可操作的审查标准。结果就是,判决指出了问题,却没建立标准;保持了审慎,却为类案留下了更大的模糊。这篇文章,我想从法律实务的角度,聊聊这个案子背后那些没被说透的事。
一、法院的「三重审查」,缺了点什么
第一,看AI引用了什么资料。法院发现,回答里引用的主要是产品介绍、营销信息,没有行业标准、国家标准这种「硬货」。第二,做交叉验证。法官现场打开另外两款AI,问同一个问题,得到的答案不一致,有的范围更宽泛。第三,综合判断。法院认为,不同AI因为算法、训练数据、检索来源不同,本来就会给出不同答案,所以单一AI回复不能单独作为认定事实的依据。听起来挺合理对吧?但细想一下,这套逻辑有几个明显的断裂。【第一个断裂:从「算法黑箱」到「证据不可采」,中间跳了一大步。】法院说AI有「算法黑箱」「算法偏差」这些技术属性,所以它的回答不可靠。但问题是,这个案子里的AI回答,到底是因为数据源不靠谱,还是推理过程出了错?法院没说清楚。这就像是说,因为人类专家的思考过程我们看不到,所以专家证言一律不能采信。显然不对吧?在我经手的案件里,专家证言的审查有一套成熟的标准:资质审查、方法审查、结论审查。但面对AI,法院似乎还没来得及建立对应的审查维度,只能用「综合判断」这种模糊表述带过。法院用三款AI做对比,发现答案不一致,就否定了原证据。但反过来想,如果三款AI里有两款答案一致,是不是就该采信了?共识不等于真理,多数意见不等于事实。这是科学方法论的基本常识。法院的验证方法,其实回避了一个核心问题:到底什么样的标准,才能确认AI输出的可靠性?法官说,AIGC作为新事物,审查方式要体现技术特征,不能一概否定。这话听着很对,但问题是——到底什么条件下,AI生成内容可以被采信?判决没说。它把AI证据推进了一个灰色地带:理论上不是绝对不能采,但按照现在的审查框架,实际上几乎不可能被采信。我理解法院的审慎。面对新技术,确实不能贸然下结论。但这种「理论上可能、实践中不可能」的悬置状态,既给不了当事人合理预期,也给不了其他法院裁判指引。AI发展太快,现行法律根本没给AI生成内容准备一套可操作的审查标准。这也是我在实务中遇到的困境:当事人拿着AI生成的分析报告来找我,问我「这能当证据用吗」,我只能回答「理论上可以,但法院大概率不采信」——这种模棱两可的答案,对当事人没什么帮助。二、为什么AI的回答,天生就带着「不确定性基因」
去年我参加一个技术法律研讨会,听一位算法工程师讲技术栈的分层结构,当时就觉得,这可能就是AI证据审查的突破口。后来研究了不少案例,愈发确认这一点。人工智能技术栈可以分成四层,每一层都在给最终的输出叠加不确定性。【第一层是微处理硬件】GPU、TPU这些芯片负责算力。不同芯片的浮点运算精度有差异,这些微小的数值误差在大规模计算中会累积。同一套模型,在A芯片和B芯片上跑,结果可能有一点点不一样。【第二层是云计算】模型和数据都存放在服务器上。云环境的内存配置、网络延迟、分布式计算的同步机制,甚至数据传输中的丢包,都可能影响输出。同一模型在不同云环境下,对同一个问题可能给出微妙不同的答案。【第三层是算法模型】算法模型大致上可以分为三个子层。数据层。AI的主要输入是数据,存放在「数据湖」里。训练数据覆盖哪些领域、采样有没有偏差、标注质量如何、多久更新一次,直接决定了模型的认知边界。一个从来没见过某行业国家标准(存在与否不确定)的AI,不可能在这个领域给出符合标准的答案。宝山法院那个案子里,AI引用「网络营销信息」而不是「国家标准」,根源就在这里。模型层。Transformer架构、参数规模、训练策略,这些决定了模型的推理能力和局限。模型访问层。开发者可以通过API参数控制模型行为。temperature、top_p这些设置,还有系统提示词,都会显著影响输出。同一模型在不同参数下,对同一个问题的回答可能截然不同。【第四层是应用层】这是用户直接接触的部分,也是不确定性最大的一层。用户怎么提问、措辞精不精确、会不会追问,都会影响AI的回答质量。应用层是技术栈里唯一和「人的因素」深度交互的层级。你看,从硬件到应用,每一层都在前一层的「输出」基础上叠加新的不确定性。当用户拿到一个AI回答时,这个回答已经穿越了四重不确定性的叠加。这就是宝山法院用「另外两款AI」做交叉验证时,发现结论不一致的技术根源——不是某一款AI出了错,而是不同的技术栈路径,天然就会产生不同的输出。所以我说,AI生成内容的不确定性不是「例外」,而是「常态」;不是「缺陷」,而是「特征」。传统的证据审查以「真实性」为核心——证据是否客观反映了案件事实。但AI的「真实性」不能简单理解为「与客观事实一致」,而应该理解为「在特定技术条件下生成该内容的可靠性」。这意味着,法院审查AI证据时,不能只看「AI说了什么」,还得审查「AI是怎么说出这些的」——回溯技术栈,检验每一层是否满足可靠性要求。但问题是,在现在的诉讼程序里,这种回溯审查几乎不可能完成。算法是商业秘密,训练数据是「数据湖」而非可审查的「证据链」,模型推理过程是不可解释的「黑箱」。这就是AI证据的根本困境:技术原理决定了它天生携带不确定性,而司法程序又缺乏审查这种不确定性的工具和标准。三、AI到底算不算「人」?这个问题卡住了证据规则
关于AI监管的辩论越来越激烈。算法偏见、虚假信息、劳动替代、AI的法律人格……议题一大堆。其中对于司法裁定而言,「AI的法律人格」最要命。如果承认AI有某种拟制法律人格,那它的生成内容可以被视为「法律主体」的意思表示,证据审查就参照证人证言或鉴定意见的规则。如果不承认,那AI生成内容只是「工具产出」,就参照物证或书证的规则。实际上我国对于人工智能给予拟制法律人格的可能性是没有的。因此,宝山法院的判决隐含了后一种立场——把AI回复视为「参考信息或观点」,而非「主体意思表示」。但还是可以从这两个维度引申一下,分别带来两个新问题:如果AI是「工具」,那工具的使用者(就是向AI提问的人)要不要对AI输出承担什么责任?如果AI是「主体」,那它要不要承担虚假陈述的法律后果?更深层的悖论是:如果赋予AI法律人格,那它的「证言」应该接受交叉询问——但AI没法被交叉询问,因为它没有「意图」,没法解释自己为啥给出某个回答。如果不赋予AI法律人格,那AI生成内容只是「物证」——但物证的特征是客观性,而AI生成内容最大的特征恰恰是主观性(由算法和训练数据决定的主观性)。现行《民事诉讼法》列举了八种证据类型:当事人陈述、书证、物证、视听资料、电子数据、证人证言、鉴定意见、勘验笔录。说是「电子数据」吧,电子数据强调的是存储形式,不是生成方式。人写的邮件和AI生成的回复,存储形式没区别,但可靠性审查逻辑完全不同。说是「鉴定意见」吧,鉴定意见的主体是「具有专门知识的人」,不是算法模型。说是「证人证言」吧,AI不具备证人资格——它没法宣誓、没法接受交叉询问、没法承担伪证责任。所以AI生成内容在现行证据法体系里处于「无名状态」——它不是任何一种法定证据类型的完全对应物。这就是法院只能笼统地「综合判断」,却给不出明确审查标准的制度根源。检索发现《中国应用法学》2026年第2期专门把《AI生成分析报告证据效力》列为“法答网问题精粹”第13号,足见最高司法机关也注意到这个制度空白了。但从发现问题到建立规则,中间还有漫长的路要走。四、平台把锅甩给法院,这合理吗
现在的AI平台,基本上都在用户协议里埋了类似的条款:「AI生成内容仅供参考,不构成专业建议」「用户应自行判断内容的准确性和适用性」。翻译成人话就是:我们用免责声明把风险转嫁给用户,如果用户拿AI回答去打官司、做决策,出了问题别找我们,找法院去。宝山法院这个案子,某种程度上就是这种风险转嫁的结果。用户真的把AI回答当证据提交了,法院不得不面对这个烫手山芋。平台在享受AI技术红利的同时,把内容可信度的责任推给司法系统。法院缺乏技术审查能力,只能凭经验「综合判断」,最后往往是「不予采信」——既不解决问题,也不建立规则,只是把这个球踢回给用户。我觉得,平台的合理审慎义务需要重构。从技术向善的角度,至少应该包括这么几层义务:【透明度义务】平台应该披露AI的技术局限,比如训练数据的截止日期、知识覆盖范围、已知的幻觉问题。用户有权知道,这个AI在哪些领域靠谱,在哪些领域不靠谱。【场景适配义务】对于法律、医疗、金融这些高风险场景,平台应该设置明显的风险提示,甚至限制AI在这些领域的「信口开河」。不是说AI不能回答法律问题,而是应该明确标注「本回答不构成法律意见,请咨询专业律师」。【溯源义务】当AI生成内容涉及重要事实陈述时,平台应该提供信息来源的追溯路径。宝山法院那个案子里,如果AI能清楚标注「该结论基于某某品牌的产品介绍页面」,法院审查起来就会容易得多。这些义务不是要让平台承担无限责任,而是要在技术创新和社会责任之间找到平衡点。五、伦理规范来了,但落地需要时间
2025年3月,国家互联网信息办公室等四部门联合发布了《人工智能生成合成内容标识办法》,要求对AI生成内容进行显式标识。这是制度回应的重要一步。同年,IEEE、ISO等国际组织也密集发布了AI伦理和治理标准。核心议题包括透明度、可解释性、公平性、问责机制等。2026年4月,工信部等十部门联合印发《人工智能科技伦理审查与服务办法(试行)》,立法目的很明确,规范人工智能科技活动伦理治理、促进公平、公正、和谐、安全和负责任创新,推动人工智能产业健康发展。标识办法解决的是「这是AI生成的」这个问题,但法院面临的是「这个AI生成内容是否可靠」的问题。前者是形式问题,后者是实质问题。伦理规范提供了价值导向,但缺乏可操作的审查标准。法院需要知道的是:面对一份AI生成内容,我应该检查什么、怎么检查、检查到什么程度才能采信?这些问题,有明确的核心伦理原则如保持公开透明、保护隐私安全、确保可控可信、坚持公平公正等等,但是面对社会对人工智能的多样化使用问题,现在的规范回答不了或者回答不全。写在最后
宝山法院这个案子,表面上是一个简单的「AI回答能不能当证据」的问题,实际上牵扯出一连串深层次的矛盾。技术层面,AI的不确定性是系统性的,不是某一款产品的缺陷。法律层面,现行证据规则没有给AI生成内容预留位置,它处于「无名状态」。制度层面,平台把风险转嫁给用户和法院,却没有承担相应的审慎义务。从新闻报道而言,面对新兴情况,法院的判决可以理解,但不够完整。它指出了问题,却没有建立标准。它保持了审慎,却留下了更大的模糊,从模糊到确定,需要的是时间。作为一名长期关注技术与法律交叉领域的律师,我觉得解决这些问题需要多方协作。技术界需要提升AI的可解释性和可追溯性,法律界需要建立适配AI特征的审查规则,平台需要承担更多的透明度义务,监管部门需要加快制度建设的步伐。但有一点是确定的:AI正在进入我们生活的每一个角落,包括法庭。我们不能假装它不存在,也不能用旧框架硬套新事物。原来我们从法律应用科技的角度,现在我们面临是人工智能进入社会生活方方面面之后的实际法律问题,这些值得每一位法律人思考并身体力行践行对于科技和创新的拥抱和迎接。我们需要新的规则,而不仅仅是新的态度。而这种规则的建立,需要的是各界对此的合力,更重要的是在快速奔跑的同时,如何保持科技伦理的平衡,有为和有不为之间的平衡。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~本微信文章仅为交流目的,不代表本公众号及律师出具任何法律意见或对法律、司法判例的解读。本文作者不对任何主体因任何因本文内容而导致损失承担责任。仅仅依照本文的全部或部分内容而做出的作为或不作为决定及因此造成的后果由行为人自行负责。