AI 合同审查测评:ChatGPT、Claude、豆包、DeepSeek,哪个好?-夜雨聆风

AI 合同审查测评:ChatGPT、Claude、豆包、DeepSeek,哪个好?

武泽钰

iCourt 法律 AI 研究员

越来越多的律师、法务以及法学生开始尝试借助大模型辅助合同审查。从实际使用情况来看，这些模型在基础能力层面已经能够提供较为稳定的支持，尤其是在风险识别和文本分析方面，整体表现已经具备一定实用价值。

但在进一步使用过程中，不同模型之间的差异也逐渐显现：有的更侧重全面覆盖与细节展开，有的更强调结构与重点把握，也有的在条款修改和法律分析上更具优势。

不同模型在识别和分析方面存在差别，直接影响了其在具体审查场景中的使用体验。

这与合同审查本身的工作特性密切相关。合同审查并非单一维度的任务，而是围绕交易背景、双方谈判地位、责任分配、风险控制以及委托方立场所展开的综合判断过程。

这一过程既要求对法律和商业规则的准确理解，也依赖对具体业务场景的把握。因此，不同能力侧重的模型，在这一过程中自然会呈现出不同的适配程度。

基于此，本文不再从技术原理出发讨论模型能力，而是聚焦一个更实际、更贴近律师工作的问题：在同一份合同、同一套提示词之下，哪款 AI 审查合同的水平，更接近人类律师？

我们选择了 ChatGPT、Claude、豆包、DeepSeek 四款模型，做了一次详细的测评。

测评规则一览

本次选取四款具有代表性、且在法律从业者中讨论度较高的大模型进行对比测试，分别为：

– Claude-4-6

– ChatGPT-5.4

– Doubao-Seed-2.0-pro

– DeepSeek-V3.2-think

上述模型在当前法律 AI 应用场景中均有一定使用基础，具有可比性。之后我们也会增加 DeepSeek-V4 的测评，请各位持续关注。

测试材料部分，我们选取了两份不同类型的合同作为样本，以覆盖基础商业合同与强监管法律场景下的审查需求。

测试合同一：采购合同，约 1800 字

审查视角：乙方（卖方）

合同概述：该合同对乙方（卖方）存在多处不利约定，例如：争议解决方式设置不利、付款期限不明、双方违约责任明显失衡，尤其是缺少甲方违约责任条款，而对乙方逾期交货的违约责任规定过高；同时验收机制也不明确。

测试目的：主要考察模型的基础风险识别能力，看其能否抓住合同中的核心商业和法律风险。

测试合同二：劳动合同，约 3000 字

审查视角：甲方（用人单位）

合同概述：合同中特意在试用期、加班管理、病假工资、劳动者违约责任等条款中「挖坑」，多处约定明显违反相关法律规定。相较于采购合同，该合同对审查的法律规范的准确适用与合规判断要求更高。

测试目的：本合同以用人单位视角进行审查，重点考察模型在劳动法语境下的合法性识别能力与规范适用能力。

为保证测试结果的可比性，本次测评对四款模型均采用同一套提示词，通过控制输入变量，尽可能将差异限定在模型本身的能力表现上。

提示词内容如下：

# 角色

你是一位拥有 20 年执业经验的资深律师，擅长合同审查。你能够精准捕捉合同中潜藏的合规风险、商业陷阱及逻辑漏洞。

# 人物

请站在你客户的立场对合同进行全面的审查，你需要坚定地维护客户利益。

# 执行逻辑

请阅读全篇合同，识别合同类型及核心法律按照以下审查维度逐项审查：

1. **合法合规性审查**：确保合同内容符合《民法典》及相关法律法规。

2. **核心条款审查**：结合合同的性质及内容分别从以下方面进行审查：

– **标的条款**：描述是否准确、清晰。

– **权利义务**：双方权利义务是否明确，是否存在「霸王条款」或责任缺失。

– **合同价款**：支付方式、期限、发票开具及税费承担是否明确。

– **履行条款**：履行期限、地点、标准及验收流程是否约定明细且具备可操作性。

– **违约责任**：违约金计算标准是否明确，是否足以覆盖我方潜在损失，是否存在对我方不利的违约责任。

3. **程序性条款审查**：

– **争议解决**：仲裁或诉讼管辖约定是否有效、是否对我方有利。

– **生效条款**：签署要求、生效条件及期限。

– **通知与送达**：联系方式及送达效力的约定。

4. **形式审查**：合同错别字、序号、前后表述的一致性。

# 输出

请在前面用一段话概括该合同的核心风险点，如存在不合法不合规的约定或是核心条款的风险点；再分别呈现审查点格式如下：

风险点 1：xxx；修改原因：xxx：修改建议：xxx/n

风险点 2…

# 要求

– 请使用规范的法律术语。

– 你给的建议需要具备针对性，不要只给宽泛的建议，要针对合同具体内容进行分析。

– 只需要输出审查建议，不需要给出建议或其他内容。

为尽可能还原律师在实际合同审查中的工作逻辑，本次测评从以下五个维度对模型表现进行综合评价：

1、风险识别与重点把握能力：考察模型是否能够从整体交易结构出发，识别合同中的核心风险点，并对关键条款进行优先提示，而非停留在零散或表层问题。

2、风险分析的专业性：考察模型是否能够说明风险产生的法律原因，并结合现行法律规定或司法实践，对潜在法律后果进行明确分析，而非泛泛而谈。

3、修改建议的可操作性考察：模型是否能够提出具体、可执行的修改方案，包括条款重写、数值补充或机制设计，而非停留在原则性建议层面。

4、立场意识：考察模型是否能够在审查过程中始终坚持特定当事人立场（如乙方或用人单位），对不利条款进行针对性识别与调整，而非保持「形式中立」。

5、场景适配与基础文本审校能力：考察模型输出是否符合实际场景，并具备基础文本审校能力，包括识别明显错别字、序号错误等形式问题或表述瑕疵。

实测对比：四款模型，差别到底在哪里？

我们先看第一份合同审查结果的评分。

Claude-4-6

优点：风险识别较全面（15 个风险点），立场意识强烈，每个风险点均明确说明对乙方的不利后果。特别擅长识别隐蔽风险（如间接赔偿责任无上限、知识产权条款范围过宽），修改建议具体且可操作。

问题：个别修改建议略显冗长，部分条款（如质保期、保密条款）属于锦上添花而非核心风险。

ChatGPT-5.4

优点：风险点数量最多（50 个风险点），覆盖面极广，文本审查尤其是细节把控能力突出（发现「NY0T」错误、开户许可证过时等细节问题），场景适配性强。

问题：风险点过于分散，部分风险重复或重要性不高（如包装物责任、计量方式等），导致重点不够突出，可能让客户抓不住核心矛盾。

Doubao-Seed-2.0-pro

优点：抓住了核心的风险条款（争议解决条款无效、权利义务失衡），修改建议简洁明了，适合快速决策场景。

问题：遗漏了多个重要风险，如发票条款、知识产权条款对己方不利、安全责任的间接损失等，专业深度不足。

DeepSeek-V3.2-think

优点：法律分析最专业（引用《民法典》具体条文、司法解释），修改建议最具可操作性（提供具体数值示例如 20%、15 日等），律师工作流规范。

问题：风险点数量较少（8 个），对部分次要风险（如发票、保密等条款）关注不够。

接下来我们看第二份合同的评分。

Claude-4-6

优点：识别了 15 个风险点且分析较为专业，其中对试用期、加班工资等核心风险点均有提示，尤其是关于试用期延长的规定切中要点且修改的也很完美。

问题：存在明显的立场偏差问题，即忽视了己方用人单位的立场完全站在劳动者立场审查。

ChatGPT-5.4

优点：识别出 45 个风险点，既抓住核心违法条款，又关注程序性、操作性细节。特别是从甲方用人单位立场出发，系统性地指出了举证困难、制度衔接不足、送达机制缺失等实务痛点。文本审校细致，发现了多处编号错误和表述瑕疵。

问题：在审查建议中有细节错误，如提到「固定期限 3 年的劳动合同，试用期最长只能约定 2 个月」是错误的。

Doubao-Seed-2.0-pro

优点：表现中规中矩。识别了 12 个风险点，覆盖主要违法条款，法律分析基本准确，但修改建议相对原则化，部分条款的可操作性不足。

问题：立场意识不够突出，缺少从己方用人单位视角下对考核标准、录用条件等条款进行明确。

DeepSeek-V3.2-think

优点：只识别 7 个风险点，但每个都切中核心条款，分析深度到位，修改建议具体可落地，提供了完整的修改后文本。立场把握准确，从甲方角度充分考虑了法律风险和举证责任。

问题：风险覆盖面不够，部分条款的修改不够好（如审查建议中提到了法律规定试用期只有一次，但是在修改内容中仍然提出可以延长试用期）。

合同审查 AI，律师该怎么选、怎么用？

1、模型之间的差异，本质是「风格差异」。

从整体测评结果来看，四款模型在合同审查这一场景下，基础能力已经较为接近。在两份合同中，各模型基本都能够识别出主要风险点，这说明在「发现问题」这一层面，大模型已经可以提供较为稳定的支持。

如果用更直观的方式来理解，可以把不同模型的表现类比为不同类型的律师：

ChatGPT-5.4 与 Claude-4-6 整体更偏「高完成度」风格，审查更细致、覆盖更全面。

其中，ChatGPT-5.4 在细节把控和覆盖范围上表现突出，但有时也会因为展开过多，导致重点不够集中；Claude 则在结构和立场表达上更鲜明，部分审查意见和修改建议会相对「主动」和「有判断」，呈现出更强的个人风格，当然也会存在一些修改建议比较「大胆」和「有想法」的情况。

DeepSeek-V3.2-think与 Doubao-Seed-2.0-pro 整体风格则相对稳健和基础。两者都能够完成核心审查任务，风险识别也较为准确，但在表达风格和分析展开上相对克制，没有特别突出的「个性」，更接近于按规范完成工作的状态。其中，DeepSeek 在专业分析和条款执行方面的表现仍然较为亮眼。

综合来看，如果从专业性与完成度角度评价，ChatGPT-5.4 与 Claude的表现更为突出；DeepSeek 在关键问题上的处理同样具备较强水准；而豆包则更偏向于提供一个稳定、基础的审查结果。

需要强调的是，这种差异更接近于「执业风格的不同」，而不是简单的优劣划分。不同模型的输出方式，对应的是不同的使用场景和偏好。