去年此刻,UCSD 和 NVIDIA 联合发布了一个 8B 参数的开源模型 PRO-V-R1,在 VerilogEval-v2 上以 57.7% 的成绩超过 GPT-4o(43%)和 Claude Sonnet 4(45.5%)。当时这个故事足够性感——"8B 小模型打败闭源大模型",被当成开源派对闭源派的又一次胜利。
但一年过去,风向变了。
三条路线已经分化
PRO-V-R1 走的是"自训小模型"路线——拿 Qwen3-8B 做 SFT + RL,单节点 H100 训完,开源给大家用。思路清晰:小模型 + 专用数据 + 强化学习,在垂直任务上压住通用大模型。
这个思路在 2025 年 6 月是新东西,到 2026 年中已经被三组工作盖了过去。分歧不在"要不要做验证 AI",而在"怎么做验证 AI"。一年下来,主流路线分成了三派。
自训派再升级:NVIDIA 自己下场的 ACE-RTL,把 8B 拉到 32B,再配上 Agent 反思机制。
编排派崛起:东南大学的 UVMarvel,完全不训模型,靠结构化 IR + 多 LLM 投票做子系统级 UVM 自动化。
模板派锁死 LLM:HAVEN 干脆不让 LLM 直接写 SystemVerilog,用 Jinja2 模板 + DSL 把生成约束在结构化框架里。
下面分别看。
路线一:ACE-RTL —— NVIDIA 自己下场
PRO-V-R1 之后最重的信号,是 NVIDIA 自己在 2026 年 2 月发了 ACE-RTL(arxiv 2602.10218)。挂名的是 Brucek Khailany 和 Haoxing Ren——前者是 NVIDIA 系统架构的 VP 级别人物,后者是 NVIDIA AI 芯片设计研究的核心。NVIDIA 自己把验证 AI 当成一等一的方向,这就是最大的风向标。
ACE-RTL 想解决的问题是:模块级基准(VerilogEval-v2、RTLLM v2.0)已经被刷得差不多了,但真实验证场景里,工程师做的不是"从 spec 生成单个模块",而是"代码补全、spec 到 RTL、代码修改、代码调试"这四件事的混合。他们提出了 CVDP 基准(Chip Verification/Design Pipeline),用 4 个分类覆盖真实工作流。
结果是这样的:
| ACE-RTL | |||
|---|---|---|---|
| 80.85% | |||
| 96.15% | |||
| 90.91% | |||
| 91.43% |
四项任务平均 APR 比基线高出 41 个百分点。
怎么做到的?三件事:
1. 自训 Generator:基于 Qwen2.5-Coder-32B-Instruct 微调,训练样本 1.7M,从 5M 条 RTL 脚本里去重、去基准污染(Jaccard 相似度 >0.8 全删),用 GPT-OSS-120B + DeepSeek-R1 合成 spec-代码对,LLM-as-Judge 评分(1-5 分制,丢弃 <3 分的样本)。256 块 GPU 训 10K GPU-hours。
2. Reflector 用 Claude4:Generator 出草稿,仿真反馈(iverilog)交给 Claude4-Sonnet 分析错误、生成修复 patch。
3. Coordinator 也用 Claude4:负责演化上下文、决定何时重启、5 路并行扩展——把迭代次数降到原来的 1/2.77。
ACE-RTL 的架构是"专用小模型生成 + 通用大模型反思"的混合体。Generator 训出来便宜,调用也便宜;Reflector 用最强的 Claude4 兜底。这是工业级 Agent 的标准套路。
唯一遗憾:代码没开源。NVIDIA 这条路线现在是闭源。
路线二:UVMarvel —— 编排派的中国代表作
如果 ACE-RTL 还是"训一个专用模型"的老路,UVMarvel 走的是完全不同的方向:不训模型。
UVMarvel 是东南大学的工作(arxiv 2605.04704,通讯作者 Zhe Jiang),将在 2026 年 7 月的 DAC 上正式公布。这周写它,等于抢先看 DAC 2026。
UVMarvel 解决的问题比 PRO-V-R1 和 ACE-RTL 都更工业:子系统级 UVM 验证。前两者还在"模块级"颗粒度(生成一个 ALU、一个 FIFO),UVMarvel 直接做带总线协议的 IP 子系统——APB、AHB、AXI、Q-Channel、P-Channel 全覆盖。
这是工业验证工程师每天打交道的颗粒度。模块级刷得再高,离工业落地还隔着一层;子系统级一上来就是真活儿。
UVMarvel 在 6 个真实设计上的覆盖率:
平均代码覆盖率 95.65%。时间上,UVMarvel 跑完一个子系统 4.5 小时,对比人工"几天到一周",加速 20.17 倍。
不训模型,靠什么?三个核心组件:
1. 5 段中间表示(IR):模块名、接口描述、寄存器配置、时序特性、功能描述。LLM 不直接生成 SV,先填 IR,IR 检查通过再走下一步。
2. 三 LLM 投票:默认 GPT-4.1,可选 Claude 4.5 和 Gemini 2.5 Pro。三个模型独立生成,多数投票,减少单模型偏差。
3. 总线协议库 + 信号追踪器:协议库存 UVM 骨架,信号追踪器用两个算法(单文件 + 跨文件递归)做覆盖率分析,定位未覆盖信号。
UVMarvel 的隐含主张是:验证 AI 的瓶颈不在模型能力,在问题分解。把"生成 UVM"拆成 5 段 IR + 协议匹配 + 信号追踪 + 补丁库,每段都是结构化任务,模型只要做填空。这种思路对工业公司特别友好——不依赖自训模型,不依赖大算力,靠工程化把闭源 LLM 用到极致。
代码开源在 github.com/SEU-ACAL/reproduce-UVMarvel-DAC-26。这是中国学术界在验证 AI 上目前最有分量的工作之一。
路线三:HAVEN —— 把 LLM 锁进模板里
第三派更激进:让 LLM 完全不写 SystemVerilog。
HAVEN(arxiv 2604.27643)的核心观察是:LLM 直接写 SV,编译失败率太高——语法、接口、时序任何一个细节错都编译不过,反复重试成本太高。HAVEN 把整个生成流程拆成两段:
• 第 1 阶段:LLM 填 Jinja2 模板(蓝图提取)。模板本身是确定性的 SV 骨架,LLM 只填关键参数。这一步就把覆盖率拉到 84.6% / 79.8%。
• 第 2 阶段:LLM 写协议感知序列 DSL(10 种步骤类型),由规则化 CodeGen 翻译成 SV。LLM 不接触最终代码,只接触受约束的 DSL。3 次迭代(K=3)后收敛。
结果在 19 个开源 IP 上:100% 编译成功率,平均代码覆盖率 90.6%、功能覆盖率 87.9%。每个设计平均 6 次 LLM 调用,消耗 68k tokens,$0.38 一个。
成本的杀伤力很大。NVIDIA 自训 ACE-RTL 用了 256 块 GPU × 10K GPU-hours,光训练成本就是六位数美元。HAVEN 不训模型,单设计 0.38 美元,跑完全部 19 个设计不到 8 美元。
HAVEN 还有一个隐藏优势:确定性。Jinja2 模板和规则化 CodeGen 的输出可复现,同样的输入永远生成同样的代码。这对工业 CI/CD 太重要了——LLM 直接生成 SV 是概率过程,今天和明天结果可能不一样,集成进验证流程会很痛苦。
代价是灵活性。模板 + DSL 的方法覆盖不了所有验证场景,复杂自定义协议、特殊时序、跨模块状态机这类需求,HAVEN 还得回退到人工或 LLM 直写。HAVEN 在 9 项重叠设计上跟 UVM2 做了直接对比:代码覆盖率 91.0% vs 87.44%,功能 90.7% vs 89.58%——略胜,但差距不大。
三派对比
| 子系统级(含总线) | ||||
| 极低($0.38/设计) | ||||
| 高 | ||||
三派谁会赢?
短期看 ACE-RTL。NVIDIA 的算力 + 数据 + 工程能力,加上 Khailany 这种级别的研究者亲自挂帅,"自训 + Agent"路线最容易出工业级 SOTA。代价是不开源,生态封闭。
中期看 UVMarvel。子系统级是真实工业需求,东南大学的开源 + DAC 2026 曝光,会吸引一批工业公司跟进。"不训模型 + 结构化编排"对中国 IC 公司特别友好——不需要 256 GPU,不需要训模型,只要工程化能力。
长期看 HAVEN。模板 + DSL 的方法论一旦覆盖到主流协议库,工业落地最容易。"不写 SV"的思路会被工业验证团队拥抱——确定性和成本是验证工程师最在意的两个维度。
华人贡献与产业承接
最后说一个细节。UVMarvel 的通讯作者 Zhe Jiang 是东南大学 ASIC 工程中心的负责人,团队长期做 IC 设计自动化。这次 DAC 2026 论文,加上 github.com/SEU-ACAL 的开源仓库,是中国学术界在 IC 验证 AI 方向目前最有冲击力的一次出手。
PRO-V-R1 的资深作者 Jishen Zhao 是 UCSD 的华人教授,团队里也有大量中国学生。ACE-RTL 的第一作者 Chenhui Deng 同样是华人背景。
验证 AI 这个方向,华人在算法和工程层面的贡献是结构性的。 差异在产业化——美国有 NVIDIA、Synopsys、Cadence 这种工业巨头承接学术界的工作,把研究变成产品;中国目前还缺这一环。东南大学把 UVMarvel 开源出来,能不能吸引国产 EDA 厂商(华大九天、概伦电子)做产业承接,是接下来 12-18 个月值得观察的事情。
一年的变化
去年此刻我们说"8B 模型打败 GPT-4o"。今年此刻的故事是:验证 AI 已经从"能不能做"走到"怎么做"。三种走法已经分化,工业落地的竞争刚开始。
接下来三个月看什么?
• DAC 2026(7 月长滩):UVMarvel 正式公布,看完整版数据。Synopsys、Cadence、Siemens 几家 EDA 巨头会拿出什么新东西回应。
• ACE-RTL 后续:NVIDIA 会不会开源 Generator 的部分能力,或者通过 NGC 服务商业化。
• 国产 EDA 厂商:华大九天、概伦电子、芯华章这几家,会不会跟学术界合作把类似 UVMarvel 的能力产品化。
模块级基准刷榜的时代结束了。子系统级、确定性、成本——这三个维度是接下来一年的主战场。
作者:方寸智见。芯片行业老兵,关注 AI 如何改变半导体的每一个角落。
夜雨聆风