一份合同审查 AI 演示,可能失真的5个地方 | 法律 AI 可信度评测系列(二)

本文是「法律 AI 可信度评测」系列文章的第二篇，作者常金光。
上一篇讨论的是：没有评测，就没有真正可用的法律 AI。

本篇讨论一个更具体的问题：为什么一场合同审查 AI 演示，看起来效果很好，也不能直接说明它可以进入企业真实流程？

很多企业第一次接触合同审查 AI，都是从演示开始的。

上传一份合同，几分钟后，系统生成一份审查报告。报告有风险点，有修改建议，有条款定位。演示现场很容易让人产生一种直观感受：这件事好像已经能做了。

演示当然有价值。它能让人们快速看到产品形态、交互方式、输出风格和基本能力。但演示解决的是“能不能做出来”的问题，评测要回答的是“能不能稳定使用”的问题。

这两个问题之间，隔着真实业务。

企业真正上线合同审查 AI 时，面对的是大量来源复杂、格式不一、立场不同、风险隐藏很深的真实合同，而非一份干净、简短、结构清楚的样板合同。

所以，法务负责人看演示时，重点要关注：与企业自身业务结合的情况下，智能合同审查的效果如何，以及是否能稳定运行。

下面这五个地方，是演示可能失真的地方。

演示合同太干净，真实合同往往没那么干净

演示合同通常是被选择甚至设计过的。

它不会太长，结构相对完整，条款标题清楚，风险点也比较典型。这样的合同很适合展示产品能力：系统容易解析，风险容易命中，输出也容易显得完整。

但企业真实合同很少这么友好。

真实业务里，合同可能来自不同业务线、不同供应商、不同客户、不同项目阶段。有些合同是扫描件，有些有附件，有些有补充协议，有些是历史模板反复修改后的版本；有些条款写在正文里，有些关键义务藏在附件、报价单、技术方案或邮件确认里。

更常见的情况是：合同本身并不“标准”。条款之间可能互相牵连，定义条款影响付款条款，验收条款影响违约责任，附件里的交付物范围影响知识产权归属。

如果演示只用一份短合同、标准合同、干净合同，就很难说明产品能处理真实业务合同。

法务负责人可以提供几份自己企业真实的合同，多次测试观察，获得对该软件的初步认识。且在没有定量的评测之前，也要意识到：一个合同审查 AI 的能力，必须在真实合同分布里看。样板合同表现好，只能说明它通过了入门题。

意见给得多，未必审得好

合同审查报告很容易给人一种错觉：意见越多，能力越强。

有些 AI 工具会输出十几条、几十条意见。乍一看非常勤奋，风险覆盖很全面。但法务真正使用时，很快会遇到另一个问题：这些意见里，有多少真的重要？

合同审查不能变成意见数量竞赛。

如果一份报告提出很多泛化意见，比如“建议明确违约责任”“建议完善保密义务”“建议补充争议解决条款”，但没有指出具体缺失在哪里、为什么影响我方利益、该怎么改，这类意见会增加法务筛选负担。

更麻烦的是，大量低价值意见会掩盖关键风险。

比如一份采购合同，AI 提醒了十几条格式性问题，却没有指出“供应商延期交付后，我方解除权触发条件过高”；或者一份技术服务合同，AI 提醒“验收标准需要细化”，却没有指出“视为验收条款可能让付款义务提前触发”。这类报告看起来丰富，实际帮助有限。

企业法务真正需要的，是重要问题被稳定发现，低价值噪音被控制在可接受范围内。

所以，看演示时不要只问“输出了多少条意见”，还要关注：这些意见中，哪些是真正意义上的高风险？哪些能直接影响合同谈判？哪些只是通用提醒？如果法务要逐条核查这些意见，节省的时间是否会被噪音抵消？

评测里有一个很重要的指标，叫误报负担。它衡量的是 AI 有没有把不必要的判断压力重新交还给法务。比如：一份30页的合同，AI 提出28条意见，其中7条高风险、6条中风险、15条低风险或泛化建议。法务需要逐条核实，大约花25分钟过滤噪音，而真正值得立刻修改的只有3条。如果这个比例在多份合同中重复出现，法务对工具的信任就会快速衰减。

说得像律师，仍可能判断错

大模型容易让人放松警惕的地方，是它很会组织语言。

它知道用“风险提示”“修改建议”“法律依据”这样的结构，也知道使用“建议贵司”“应当明确”“为避免争议”等法律文本常见表达。对于非专业读者来说，这种表达本身就会带来专业感。

但法律工作最终要看判断。

同样一条限制责任条款，站在供应商一方，可能希望责任上限尽量明确、范围尽量可控；站在客户一方，则可能希望核心违约、保密、知识产权、数据安全等责任不受上限限制。AI 如果没有理解审查立场，建议写得越像律师，越容易把方向带偏。

再比如，合同里写“乙方提交成果后5个工作日内甲方未提出书面异议的，视为验收通过”。AI 可能给出一条很标准的意见：“建议明确验收标准和验收流程。”这句话没错，但太浅。真正的问题可能是：成果范围还没有明确，默认验收机制却已经触发付款义务。

这就是合同审查 AI 的关键难点：它不能只识别单个条款，还要理解条款之间的关系、交易立场和风险后果。

演示时，专业表达很容易被误当成专业判断。企业法务可以要求供应商展示 AI 对同一条款在不同立场下的不同审查结果，也可以要求它说明每条高风险意见对应的证据片段和判断理由。

真正值得信任的合同审查 AI，应该能把结论落回条款、证据和业务立场。

样板合同通过，不代表复杂合同可上线

很多演示会选择典型合同：采购合同、销售合同、服务合同、保密协议。这样的样本适合入门展示，但不能代表上线能力。

企业真实业务里的合同审查，经常会遇到更复杂的场景。

例如：一份主合同加多个附件；一个框架协议下面挂多份订单；合同正文和技术方案互相引用；补充协议修改了原合同关键条款；合同条款与企业内部审批口径不一致；项目涉及跨境数据、知识产权、个人信息保护或行业监管要求。

复杂合同的难点通常不在某一个条款，而在关系。

附件和正文有没有冲突？付款条件和验收机制是否匹配？责任上限是否覆盖了核心义务？交付范围是否足以支撑知识产权归属？争议解决条款是否和交易主体、履行地、适用法律匹配？

这些问题很难靠一份样板合同展示出来。

因此，企业做 POC 或采购测试时，不应只拿标准模板。更好的做法是准备一组分层样本：短合同、长合同、标准合同、非标合同、扫描件、多附件合同、高风险合同、历史争议合同。每类样本都不需要很多，但要覆盖真实业务中最容易出问题的场景。

合同审查 AI 如果只能在样板合同上表现好，它更适合做演示；要进入企业流程，必须通过复杂样本的检验。

单次演示看不出稳定性

AI 产品还有一个很容易被忽视的问题：单次结果不代表稳定能力。

同一份合同，同一条指令，模型有时会给出不同结果。一次演示命中了高风险，不代表下一次一定命中。产品版本升级、提示词调整、知识库更新、合同解析方式变化，都可能影响最终输出。

这也是为什么企业不能只看一次演示。

合同审查 AI 的使用价值，不只取决于“某一次表现好”，更取决于它在一批真实合同中是否稳定。尤其是高风险问题，企业不能接受今天能识别、明天识别不了；这个版本能识别，下个版本悄悄退步。

评测在这里的价值非常直接。

上线前，要建立能力基线。企业至少要知道工具在当前样本上的召回、准确性、误报负担和高风险漏报情况。

迭代中，要做回归测试。每次模型、规则、知识库或工作流升级后，过去能识别的关键问题还要继续测。

日常使用中，要积累失败样本。真实业务中出现的漏报、误报、争议反馈和专家复核意见，应该进入评测集，推动系统持续改进。

没有这些机制，企业很容易陷入“演示很好、上线后说不清”的状态。

结语：演示看可能性，评测看可用性

企业当然应该看演示。演示能帮助法务负责人快速理解产品形态，判断交互是否顺畅，输出是否符合团队习惯。

但演示只能作为开始。

合同审查 AI 要进入真实流程，企业还需要看到评测证据：真实场景样本、统一审查任务、专家标注标准、风险命中结果、误报负担、高风险漏报清单、版本回归测试。

一场好的演示，可以让人了解产品特征。一套严谨的评测，才能让企业决定是否采购、如何上线、边界在哪里、出了问题怎样复盘。

本篇和前一篇聊的是评测的必要性，后续具体展开介绍评测的更多细节。欢迎对此话题感兴趣的朋友交流。

本文是「法律 AI 可信度评测」系列文章的第二篇，作者常金光。上一篇讨论的是：没有评测，就没有真正可用的法律 AI。