本文是「法律 AI 可信度评测」系列文章的第二篇,作者常金光。 上一篇讨论的是:没有评测,就没有真正可用的法律 AI。
本篇讨论一个更具体的问题:为什么一场合同审查 AI 演示,看起来效果很好,也不能直接说明它可以进入企业真实流程?
很多企业第一次接触合同审查 AI,都是从演示开始的。
上传一份合同,几分钟后,系统生成一份审查报告。报告有风险点,有修改建议,有条款定位。演示现场很容易让人产生一种直观感受:这件事好像已经能做了。
演示当然有价值。它能让人们快速看到产品形态、交互方式、输出风格和基本能力。但演示解决的是“能不能做出来”的问题,评测要回答的是“能不能稳定使用”的问题。
这两个问题之间,隔着真实业务。
企业真正上线合同审查 AI 时,面对的是大量来源复杂、格式不一、立场不同、风险隐藏很深的真实合同,而非一份干净、简短、结构清楚的样板合同。
所以,法务负责人看演示时,重点要关注:与企业自身业务结合的情况下,智能合同审查的效果如何,以及是否能稳定运行。
下面这五个地方,是演示可能失真的地方。

演示合同太干净,真实合同往往没那么干净
演示合同通常是被选择甚至设计过的。
它不会太长,结构相对完整,条款标题清楚,风险点也比较典型。这样的合同很适合展示产品能力:系统容易解析,风险容易命中,输出也容易显得完整。
但企业真实合同很少这么友好。
真实业务里,合同可能来自不同业务线、不同供应商、不同客户、不同项目阶段。有些合同是扫描件,有些有附件,有些有补充协议,有些是历史模板反复修改后的版本;有些条款写在正文里,有些关键义务藏在附件、报价单、技术方案或邮件确认里。
更常见的情况是:合同本身并不“标准”。条款之间可能互相牵连,定义条款影响付款条款,验收条款影响违约责任,附件里的交付物范围影响知识产权归属。
如果演示只用一份短合同、标准合同、干净合同,就很难说明产品能处理真实业务合同。
法务负责人可以提供几份自己企业真实的合同,多次测试观察,获得对该软件的初步认识。且在没有定量的评测之前,也要意识到:一个合同审查 AI 的能力,必须在真实合同分布里看。样板合同表现好,只能说明它通过了入门题。

意见给得多,未必审得好
合同审查报告很容易给人一种错觉:意见越多,能力越强。
有些 AI 工具会输出十几条、几十条意见。乍一看非常勤奋,风险覆盖很全面。但法务真正使用时,很快会遇到另一个问题:这些意见里,有多少真的重要?
合同审查不能变成意见数量竞赛。
如果一份报告提出很多泛化意见,比如“建议明确违约责任”“建议完善保密义务”“建议补充争议解决条款”,但没有指出具体缺失在哪里、为什么影响我方利益、该怎么改,这类意见会增加法务筛选负担。
更麻烦的是,大量低价值意见会掩盖关键风险。
比如一份采购合同,AI 提醒了十几条格式性问题,却没有指出“供应商延期交付后,我方解除权触发条件过高”;或者一份技术服务合同,AI 提醒“验收标准需要细化”,却没有指出“视为验收条款可能让付款义务提前触发”。这类报告看起来丰富,实际帮助有限。
企业法务真正需要的,是重要问题被稳定发现,低价值噪音被控制在可接受范围内。
所以,看演示时不要只问“输出了多少条意见”,还要关注:这些意见中,哪些是真正意义上的高风险?哪些能直接影响合同谈判?哪些只是通用提醒?如果法务要逐条核查这些意见,节省的时间是否会被噪音抵消?

评测里有一个很重要的指标,叫误报负担。它衡量的是 AI 有没有把不必要的判断压力重新交还给法务。比如:一份30页的合同,AI 提出28条意见,其中7条高风险、6条中风险、15条低风险或泛化建议。法务需要逐条核实,大约花25分钟过滤噪音,而真正值得立刻修改的只有3条。如果这个比例在多份合同中重复出现,法务对工具的信任就会快速衰减。

说得像律师,仍可能判断错
大模型容易让人放松警惕的地方,是它很会组织语言。
它知道用“风险提示”“修改建议”“法律依据”这样的结构,也知道使用“建议贵司”“应当明确”“为避免争议”等法律文本常见表达。对于非专业读者来说,这种表达本身就会带来专业感。
但法律工作最终要看判断。
同样一条限制责任条款,站在供应商一方,可能希望责任上限尽量明确、范围尽量可控;站在客户一方,则可能希望核心违约、保密、知识产权、数据安全等责任不受上限限制。AI 如果没有理解审查立场,建议写得越像律师,越容易把方向带偏。
再比如,合同里写“乙方提交成果后5个工作日内甲方未提出书面异议的,视为验收通过”。AI 可能给出一条很标准的意见:“建议明确验收标准和验收流程。”这句话没错,但太浅。真正的问题可能是:成果范围还没有明确,默认验收机制却已经触发付款义务。
这就是合同审查 AI 的关键难点:它不能只识别单个条款,还要理解条款之间的关系、交易立场和风险后果。
演示时,专业表达很容易被误当成专业判断。企业法务可以要求供应商展示 AI 对同一条款在不同立场下的不同审查结果,也可以要求它说明每条高风险意见对应的证据片段和判断理由。
真正值得信任的合同审查 AI,应该能把结论落回条款、证据和业务立场。

样板合同通过,不代表复杂合同可上线
很多演示会选择典型合同:采购合同、销售合同、服务合同、保密协议。这样的样本适合入门展示,但不能代表上线能力。
企业真实业务里的合同审查,经常会遇到更复杂的场景。
例如:一份主合同加多个附件;一个框架协议下面挂多份订单;合同正文和技术方案互相引用;补充协议修改了原合同关键条款;合同条款与企业内部审批口径不一致;项目涉及跨境数据、知识产权、个人信息保护或行业监管要求。
复杂合同的难点通常不在某一个条款,而在关系。
附件和正文有没有冲突?付款条件和验收机制是否匹配?责任上限是否覆盖了核心义务?交付范围是否足以支撑知识产权归属?争议解决条款是否和交易主体、履行地、适用法律匹配?
这些问题很难靠一份样板合同展示出来。
因此,企业做 POC 或采购测试时,不应只拿标准模板。更好的做法是准备一组分层样本:短合同、长合同、标准合同、非标合同、扫描件、多附件合同、高风险合同、历史争议合同。每类样本都不需要很多,但要覆盖真实业务中最容易出问题的场景。
合同审查 AI 如果只能在样板合同上表现好,它更适合做演示;要进入企业流程,必须通过复杂样本的检验。

单次演示看不出稳定性
AI 产品还有一个很容易被忽视的问题:单次结果不代表稳定能力。
同一份合同,同一条指令,模型有时会给出不同结果。一次演示命中了高风险,不代表下一次一定命中。产品版本升级、提示词调整、知识库更新、合同解析方式变化,都可能影响最终输出。
这也是为什么企业不能只看一次演示。
合同审查 AI 的使用价值,不只取决于“某一次表现好”,更取决于它在一批真实合同中是否稳定。尤其是高风险问题,企业不能接受今天能识别、明天识别不了;这个版本能识别,下个版本悄悄退步。
评测在这里的价值非常直接。
上线前,要建立能力基线。企业至少要知道工具在当前样本上的召回、准确性、误报负担和高风险漏报情况。
迭代中,要做回归测试。每次模型、规则、知识库或工作流升级后,过去能识别的关键问题还要继续测。
日常使用中,要积累失败样本。真实业务中出现的漏报、误报、争议反馈和专家复核意见,应该进入评测集,推动系统持续改进。
没有这些机制,企业很容易陷入“演示很好、上线后说不清”的状态。

结语:演示看可能性,评测看可用性
企业当然应该看演示。演示能帮助法务负责人快速理解产品形态,判断交互是否顺畅,输出是否符合团队习惯。
但演示只能作为开始。
合同审查 AI 要进入真实流程,企业还需要看到评测证据:真实场景样本、统一审查任务、专家标注标准、风险命中结果、误报负担、高风险漏报清单、版本回归测试。
一场好的演示,可以让人了解产品特征。一套严谨的评测,才能让企业决定是否采购、如何上线、边界在哪里、出了问题怎样复盘。
本篇和前一篇聊的是评测的必要性,后续具体展开介绍评测的更多细节。欢迎对此话题感兴趣的朋友交流。

相关阅读
夜雨聆风