验证 AI 一年:三种走法已经分化

去年此刻，UCSD 和 NVIDIA 联合发布了一个 8B 参数的开源模型 PRO-V-R1，在 VerilogEval-v2 上以 57.7% 的成绩超过 GPT-4o（43%）和 Claude Sonnet 4（45.5%）。当时这个故事足够性感——"8B 小模型打败闭源大模型"，被当成开源派对闭源派的又一次胜利。
但一年过去，风向变了。

三条路线已经分化

PRO-V-R1 走的是"自训小模型"路线——拿 Qwen3-8B 做 SFT + RL，单节点 H100 训完，开源给大家用。思路清晰：小模型 + 专用数据 + 强化学习，在垂直任务上压住通用大模型。

这个思路在 2025 年 6 月是新东西，到 2026 年中已经被三组工作盖了过去。分歧不在"要不要做验证 AI"，而在"怎么做验证 AI"。一年下来，主流路线分成了三派。

自训派再升级：NVIDIA 自己下场的 ACE-RTL，把 8B 拉到 32B，再配上 Agent 反思机制。

编排派崛起：东南大学的 UVMarvel，完全不训模型，靠结构化 IR + 多 LLM 投票做子系统级 UVM 自动化。

模板派锁死 LLM：HAVEN 干脆不让 LLM 直接写 SystemVerilog，用 Jinja2 模板 + DSL 把生成约束在结构化框架里。

下面分别看。

路线一：ACE-RTL —— NVIDIA 自己下场

PRO-V-R1 之后最重的信号，是 NVIDIA 自己在 2026 年 2 月发了 ACE-RTL（arxiv 2602.10218）。挂名的是 Brucek Khailany 和 Haoxing Ren——前者是 NVIDIA 系统架构的 VP 级别人物，后者是 NVIDIA AI 芯片设计研究的核心。NVIDIA 自己把验证 AI 当成一等一的方向，这就是最大的风向标。

ACE-RTL 想解决的问题是：模块级基准（VerilogEval-v2、RTLLM v2.0）已经被刷得差不多了，但真实验证场景里，工程师做的不是"从 spec 生成单个模块"，而是"代码补全、spec 到 RTL、代码修改、代码调试"这四件事的混合。他们提出了 CVDP 基准（Chip Verification/Design Pipeline），用 4 个分类覆盖真实工作流。

结果是这样的：

CVDP 任务	Claude4-Sonnet	GPT-5	ACE-RTL
代码补全（cid002）	39.36%	39.36%	80.85%
Spec 到 RTL（cid003）	51.28%	47.44%	96.15%
代码修改（cid004）	49.09%	45.45%	90.91%
代码调试（cid016）	54.29%	60.00%	91.43%

四项任务平均 APR 比基线高出 41 个百分点。

怎么做到的？三件事：

1. 自训 Generator：基于 Qwen2.5-Coder-32B-Instruct 微调，训练样本 1.7M，从 5M 条 RTL 脚本里去重、去基准污染（Jaccard 相似度 >0.8 全删），用 GPT-OSS-120B + DeepSeek-R1 合成 spec-代码对，LLM-as-Judge 评分（1-5 分制，丢弃 <3 分的样本）。256 块 GPU 训 10K GPU-hours。

2. Reflector 用 Claude4：Generator 出草稿，仿真反馈（iverilog）交给 Claude4-Sonnet 分析错误、生成修复 patch。

3. Coordinator 也用 Claude4：负责演化上下文、决定何时重启、5 路并行扩展——把迭代次数降到原来的 1/2.77。

ACE-RTL 的架构是"专用小模型生成 + 通用大模型反思"的混合体。Generator 训出来便宜，调用也便宜；Reflector 用最强的 Claude4 兜底。这是工业级 Agent 的标准套路。

唯一遗憾：代码没开源。NVIDIA 这条路线现在是闭源。

路线二：UVMarvel —— 编排派的中国代表作

如果 ACE-RTL 还是"训一个专用模型"的老路，UVMarvel 走的是完全不同的方向：不训模型。

UVMarvel 是东南大学的工作（arxiv 2605.04704，通讯作者 Zhe Jiang），将在 2026 年 7 月的 DAC 上正式公布。这周写它，等于抢先看 DAC 2026。

UVMarvel 解决的问题比 PRO-V-R1 和 ACE-RTL 都更工业：子系统级 UVM 验证。前两者还在"模块级"颗粒度（生成一个 ALU、一个 FIFO），UVMarvel 直接做带总线协议的 IP 子系统——APB、AHB、AXI、Q-Channel、P-Channel 全覆盖。

这是工业验证工程师每天打交道的颗粒度。模块级刷得再高，离工业落地还隔着一层；子系统级一上来就是真活儿。

UVMarvel 在 6 个真实设计上的覆盖率：

设计	总线协议	代码覆盖率	功能覆盖率
Watchdog	APB	98.84%	100%
Pwrctrl	APB	93.66%	90.64%
Cordic	AHB	100%	100%
IdleControl	Q-Channel	94.90%	96.12%
LPctrl	P-Channel	90.83%	89.33%
Busremap	AXI	95.66%	98.27%

平均代码覆盖率 95.65%。时间上，UVMarvel 跑完一个子系统 4.5 小时，对比人工"几天到一周"，加速 20.17 倍。

不训模型，靠什么？三个核心组件：

1. 5 段中间表示（IR）：模块名、接口描述、寄存器配置、时序特性、功能描述。LLM 不直接生成 SV，先填 IR，IR 检查通过再走下一步。

2. 三 LLM 投票：默认 GPT-4.1，可选 Claude 4.5 和 Gemini 2.5 Pro。三个模型独立生成，多数投票，减少单模型偏差。

3. 总线协议库 + 信号追踪器：协议库存 UVM 骨架，信号追踪器用两个算法（单文件 + 跨文件递归）做覆盖率分析，定位未覆盖信号。

UVMarvel 的隐含主张是：验证 AI 的瓶颈不在模型能力，在问题分解。把"生成 UVM"拆成 5 段 IR + 协议匹配 + 信号追踪 + 补丁库，每段都是结构化任务，模型只要做填空。这种思路对工业公司特别友好——不依赖自训模型，不依赖大算力，靠工程化把闭源 LLM 用到极致。

代码开源在 github.com/SEU-ACAL/reproduce-UVMarvel-DAC-26。这是中国学术界在验证 AI 上目前最有分量的工作之一。

路线三：HAVEN —— 把 LLM 锁进模板里

第三派更激进：让 LLM 完全不写 SystemVerilog。

HAVEN（arxiv 2604.27643）的核心观察是：LLM 直接写 SV，编译失败率太高——语法、接口、时序任何一个细节错都编译不过，反复重试成本太高。HAVEN 把整个生成流程拆成两段：

• 第 1 阶段：LLM 填 Jinja2 模板（蓝图提取）。模板本身是确定性的 SV 骨架，LLM 只填关键参数。这一步就把覆盖率拉到 84.6% / 79.8%。

• 第 2 阶段：LLM 写协议感知序列 DSL（10 种步骤类型），由规则化 CodeGen 翻译成 SV。LLM 不接触最终代码，只接触受约束的 DSL。3 次迭代（K=3）后收敛。

结果在 19 个开源 IP 上：100% 编译成功率，平均代码覆盖率 90.6%、功能覆盖率 87.9%。每个设计平均 6 次 LLM 调用，消耗 68k tokens，$0.38 一个。

成本的杀伤力很大。NVIDIA 自训 ACE-RTL 用了 256 块 GPU × 10K GPU-hours，光训练成本就是六位数美元。HAVEN 不训模型，单设计 0.38 美元，跑完全部 19 个设计不到 8 美元。

HAVEN 还有一个隐藏优势：确定性。Jinja2 模板和规则化 CodeGen 的输出可复现，同样的输入永远生成同样的代码。这对工业 CI/CD 太重要了——LLM 直接生成 SV 是概率过程，今天和明天结果可能不一样，集成进验证流程会很痛苦。

代价是灵活性。模板 + DSL 的方法覆盖不了所有验证场景，复杂自定义协议、特殊时序、跨模块状态机这类需求，HAVEN 还得回退到人工或 LLM 直写。HAVEN 在 9 项重叠设计上跟 UVM2 做了直接对比：代码覆盖率 91.0% vs 87.44%，功能 90.7% vs 89.58%——略胜，但差距不大。

三派对比

维度	PRO-V-R1（2025/6）	ACE-RTL（2026/2）	UVMarvel（2026/5）	HAVEN（2026/4）
路线	自训小模型	自训 + Agent	Agent 编排	模板 + DSL
模型	Qwen3-8B	Qwen2.5-Coder-32B	GPT-4.1 + Claude4.5 + Gemini2.5	GPT-5.2
任务粒度	模块级	模块级（4 类任务）	子系统级（含总线）	模块级（19 个 IP）
训练成本	单节点 H100	256 GPU × 10K GPU-h	无训练	无训练
推理成本	极低（8B）	中（自训 + Claude4）	高（3 大模型投票）	极低（$0.38/设计）
确定性	中	低	中	高
工业落地难度	中	中（需训模型）	低（不训模型）	低（结构化）
开源	是	否	是	否

三派谁会赢？

短期看 ACE-RTL。NVIDIA 的算力 + 数据 + 工程能力，加上 Khailany 这种级别的研究者亲自挂帅，"自训 + Agent"路线最容易出工业级 SOTA。代价是不开源，生态封闭。

中期看 UVMarvel。子系统级是真实工业需求，东南大学的开源 + DAC 2026 曝光，会吸引一批工业公司跟进。"不训模型 + 结构化编排"对中国 IC 公司特别友好——不需要 256 GPU，不需要训模型，只要工程化能力。

长期看 HAVEN。模板 + DSL 的方法论一旦覆盖到主流协议库，工业落地最容易。"不写 SV"的思路会被工业验证团队拥抱——确定性和成本是验证工程师最在意的两个维度。

华人贡献与产业承接

最后说一个细节。UVMarvel 的通讯作者 Zhe Jiang 是东南大学 ASIC 工程中心的负责人，团队长期做 IC 设计自动化。这次 DAC 2026 论文，加上 github.com/SEU-ACAL 的开源仓库，是中国学术界在 IC 验证 AI 方向目前最有冲击力的一次出手。

PRO-V-R1 的资深作者 Jishen Zhao 是 UCSD 的华人教授，团队里也有大量中国学生。ACE-RTL 的第一作者 Chenhui Deng 同样是华人背景。

验证 AI 这个方向，华人在算法和工程层面的贡献是结构性的。 差异在产业化——美国有 NVIDIA、Synopsys、Cadence 这种工业巨头承接学术界的工作，把研究变成产品；中国目前还缺这一环。东南大学把 UVMarvel 开源出来，能不能吸引国产 EDA 厂商（华大九天、概伦电子）做产业承接，是接下来 12-18 个月值得观察的事情。

一年的变化

去年此刻我们说"8B 模型打败 GPT-4o"。今年此刻的故事是：验证 AI 已经从"能不能做"走到"怎么做"。三种走法已经分化，工业落地的竞争刚开始。

接下来三个月看什么？

• DAC 2026（7 月长滩）：UVMarvel 正式公布，看完整版数据。Synopsys、Cadence、Siemens 几家 EDA 巨头会拿出什么新东西回应。

• ACE-RTL 后续：NVIDIA 会不会开源 Generator 的部分能力，或者通过 NGC 服务商业化。

• 国产 EDA 厂商：华大九天、概伦电子、芯华章这几家，会不会跟学术界合作把类似 UVMarvel 的能力产品化。

模块级基准刷榜的时代结束了。子系统级、确定性、成本——这三个维度是接下来一年的主战场。

作者：方寸智见。芯片行业老兵，关注 AI 如何改变半导体的每一个角落。