法务的日子其实挺难过。
一家中型公司,法务团队5个人,每天要过20到30份合同——采购合同、销售合同、保密协议、劳动合同……每份都得逐条看,找风险点,写审阅意见。
"最烦的不是看合同,是重复劳动。"每份合同都要看那几个老位置:违约责任、保密义务、管辖法院,80%的工作是重复的。一份合同几十页,精力好的时候没问题,疲了之后很容易漏掉。
AI现在能做这件事了。
合同审核和发票审核,差在哪里
我在上一篇文章里讲过AI怎么审核发票——用多模态大模型直接"看"图片,提取字段,按规则校验。但合同不能这么处理。
发票通常就一两页,图片直接丢给大模型,它能完整识别。合同动辄几十页、上百页,直接用多模态模型看,成本高、效果差,而且上下文窗口根本放不下。
还有一个更关键的问题:合同审核不只是找问题,还要精准定位问题在哪里。
你发现了一个风险条款,得能告诉对方:第23页第4段,第二句话有问题。这样对方才能直接去改,而不是让他重新通读一遍去找。
这就是为什么合同审核的技术路线完全不同:不用多模态大模型直接看,而是用OCR先把文档解析成带坐标的文本。
第一步:把合同"读"进去,留下坐标
OCR解析PDF或Word文件,这件事本身不新鲜。关键在于一个细节:解析出来的每段文字,都会附带它在原始文档中的精确坐标。
坐标的意思是:这段文字在第几页、在页面的哪个位置(上下左右各多少像素)。

有了坐标,后续就能做到一件重要的事:当AI找出某个风险条款,系统可以自动在原始PDF上高亮出那一块区域。你点击某条风险提示,直接跳到原文的对应段落——不是告诉你"第几章",而是精确到那几行字。
没有坐标,这件事做不到。
目前常用的解析工具有MinerU、PaddleOCR-VL等,都能在提取文本的同时保留这种元素级的坐标信息。
第二步:切块,但不丢坐标
文档解析完之后不能直接送给大模型审核。一份合同几千到几万字,直接塞进去太长了,而且批量逐条审核的效率很低。
所以需要先做"智能切分":按标题层级把文档切成若干个块,每块大约800个token左右。
但这里有个难点:切分之后,每个块要继续保留原始的坐标信息。
具体做法是:切分的时候,每个大块里不只存文本内容,还存着这块文字中每个小段对应的原始坐标列表。这样,当某个大块被标记为有问题,系统还能进一步定位到是这块里哪几行出了问题,并找到对应的坐标。
这就是"带坐标的智能切分"——切完之后可以精确溯源。

第三步:逐块匹配规则,输出风险报告
切分完成之后,就进入真正的审核阶段。
系统会针对每一个文本块,和预先定义好的审核规则逐一匹配,判断是否触发风险。规则通常覆盖几个维度:用词是否符合法律术语规范、关键条款是否完整、合同前后有没有矛盾、违约责任等条款有没有合规问题,以及表述是否足够清晰有没有歧义。
每个文本块审核完,输出的结果是结构化的:属于哪类规则、发现了什么问题、原文是哪句话、建议怎么修改、属于高/中/低风险,以及对应的法律风险说明。

输出格式是固定的JSON结构,这样系统在前端展示时才能统一渲染——点击每条风险,跳到原文对应位置,看到具体描述和修改建议。
一份劳动合同的测试结果
拿一份劳动合同解除通知书做了测试。
审核完成后,系统给出结论:整体风险等级高,共发现10个问题。
高风险问题包括:法律术语使用不当(用了非规范说法描述解除合同的类型)、关键主体信息缺失。
中风险包括:权利义务对等性问题,部分条款约定对一方明显不利。
低风险包括:部分表述不够清晰,建议具体化。
每条问题都有对应的:原文引用 + 修改建议 + 法律依据。
整个审核过程不到三分钟。
能解决什么问题,不能解决什么
重复性高、规则明确的合同审核,这套方案能自动化处理大半。标准采购合同、NDA、劳动合同这类格式相对固定的文件,自动化率能到70%以上。定位也准,哪条款有问题、问题是什么、怎么改,直接看报告,不用人去通读找位置。几十份合同同时跑,人力成本大幅压缩。
但有些地方替代不了。复杂谈判合同需要理解商业背景、判断利弊权衡,AI给的是规则层面的提示,最终怎么谈还是人来。规则库覆盖不到的新型条款或非标准场景,AI不会主动发现问题。高风险项目的终审,目前成熟的做法都是AI初筛加人工复核,没有团队完全依赖自动化。
如果你要落地,注意这几点
规则库要自己来定义。这套系统的审核效果直接取决于预定义规则的质量。通用规则模板可以拿来用,但针对自己行业、自己公司的具体场景,需要法务团队参与定义和维护,不能完全照搬。
OCR质量是前提。扫描件质量差、排版混乱的合同,OCR识别出来的文本本身就有错,后续审核再精准也没用。这部分需要在数据接入环节就处理好。
单独跑一个脚本和真正落地到工作流是两回事。和内部合同管理系统、OA系统打通,让法务直接在现有工具里使用,才算真正用起来。否则还是要多一道手动操作,推广难度会很大。
量大的场景价值更明显。每月合同数量上百份,这套方案的边际效益才真正体现出来;数量少的团队,用通用大模型对话式审核可能更灵活。

合同审核这件事,不需要AI特别聪明——它需要的是有耐心、守规矩、不会漏。规则定清楚之后,这些反而是AI最擅长的部分。
夜雨聆风