一年前,NVIDIA 发了 783 道题,最强的模型答对了 34%。一年后,同一条基准上,SOTA 已经到了 59%——而搭配 Agent 框架后,最高达到 96%。芯片设计 AI 的水位线,正在快速上移。
一年后的成绩单
先回顾原点。2025 年 6 月,NVIDIA 研究院发布了 CVDP——Comprehensive Verilog Design Problems,"全面的 Verilog 设计问题集"。783 道题,35 名资深硬件工程师手工编写,博士级专家审核,初始 1313 道题经 40% 淘汰后保留。覆盖 RTL 代码生成、修改、调试、Testbench 编写、断言生成、设计理解等 13 个类别。
发布时,最强模型 Claude 3.7 Sonnet 的 pass@1 只有 33.56%。一年过去了,这条基准上发生了什么?
2026 年初,三篇独立论文在 CVDP 上做了新一轮评测。先看裸模型 pass@1(单轮生成,无工具、无迭代):
| 58.61% | ||
一年时间,裸模型 SOTA 从 34% 跳到了 59%。 接近翻倍。而且进步不仅来自闭源巨头——开源模型 DeepSeek-R1 也达到了 34.89%,追平了去年的冠军 Claude 3.7 Sonnet。
但更有戏剧性的变化在 Agent 模式。
从 34% 到 96%:Agent 的力量
2025 年 CVDP 论文预留了 Agentic 评测模式,但当时没有公开结果。一年后,NVIDIA 原团队自己交出了答卷。
2026 年 2 月,NVIDIA 发表 ACE-RTL(Agentic Context Evolution for RTL),一个专为芯片设计打造的 Agent 框架,搭配自研的 RTL 专用 32B 模型。核心思路:让 LLM 生成代码后,自动编译、仿真、看报错、修 bug,循环迭代直到通过。
结果:
| 96.15% | |||
| 90.91% | |||
| 91.43% | |||
| 80.85% |
Agent 模式下,Spec-to-RTL 的 APR(经过多轮修复后的通过率)达到了 96.15%。 Code Modification 达到 90.91%,Debugging 达到 91.43%。
从 34% 到 96%,差距不是"更好一点",而是从"几乎不可用"到"接近生产可用"。
但这里有一个重要的注脚。ACE-RTL 的 96% 是 APR——即允许模型在初始代码失败后自动修复。它更接近真实工作流(工程师写完代码也会反复调试),但和"一次写对"的 pass@1 不是同一个指标。一个更准确的说法是:在允许迭代修复的条件下,AI 已经能解决绝大多数中等复杂度的 Verilog 设计问题。
Agent 不是万能药
ACE-RTL 的成绩很漂亮,但另一篇论文泼了一盆冷水。
2026 年 3 月,纽约大学发表了"Exploring the Agentic Frontier of Verilog Code Generation",首次系统性评估了 Agent 模式在 CVDP 上的表现。结论出人意料:
| 58.61% | |||
| 49.67% | |||
| 50.66% |
朴素的 Agent 包装反而降低了性能。 Gemini 3.1 Pro 从 58.61% 跌到 42.39%,跌幅超过 16 个百分点。Claude Opus 4.6 从 50.66% 跌到 36.74%,几乎砍掉三分之一。
为什么会这样?NYU 的分析揭示了几个原因:Agent 框架引入了更多的系统提示词和工具描述,占用了有效 context 窗口;模型在调用工具时经常"崩溃"(生成无效的工具调用格式);工具返回的错误信息模型解读不准确,反而引入新的错误。
这说明:Agent 不是简单地把 LLM 套一个循环就能起飞。 ACE-RTL 能达到 96%,是因为它做了大量精心设计——RTL 专用的 context evolution 策略、结构化的编译-仿真-修复流水线、专门训练的小模型。而简单粗暴地给通用 LLM 加一个"试试看、修一修"的循环,效果适得其反。
LLM 在 Verilog 上怎么错的
虽然分数在涨,但 LLM 在 Verilog 上的错误模式没有根本改变。CVDP 的失败分析揭示的四种系统性缺陷,在 2026 年的最新评测中依然存在。
错误一:时序逻辑混淆
Verilog 有两种赋值方式:=(blocking,阻塞赋值)和 <=(non-blocking,非阻塞赋值)。在软件里,这两者几乎没有区别。但在硬件里,= 是顺序执行,<= 是并行执行——在同一时钟边沿同时生效。
LLM 经常混用这两种赋值。在一个排序网络的实现中,模型用 = 代替了 <=,导致数据在一个 cycle 内被错误地串联修改——LLM 理解了"做什么",但没理解"什么时候做"。
错误二:位索引方向
Verilog 的位选择是 MSB-first:data[7:0]。Python 的切片是 offset-based:data[0:8]。方向刚好相反。LLM 在比特级操作中经常按 Python 习惯来写 Verilog,产生间歇性故障——最难追踪的 bug 类型。
错误三:协议处理
AXI、APB、AHB 等协议定义了严格的握手时序。LLM 的问题不是"不知道规则",而是无法精确遵守——经常遗漏握手信号的同步逻辑、忘记处理 ready 为低时的等待状态。
错误四:边界条件
数组越界、状态机死锁、计数器溢出、复位时序——这些在软件中已有成熟防御模式的场景,LLM 在 Verilog 中经常遗漏。
验证仍然是最难的
2025 年 CVDP 的一个核心发现——验证比生成更难——在 2026 年的细分数据中得到了更精确的验证。
| 96.15% | |||
| 90.91% | |||
| 91.43% | |||
| 80.85% | |||
| Testbench Checker | 6-23% | ||
| Assertion(断言生成) | 19-28% |
生成类任务(Spec-to-RTL、Code Modification)进步显著——裸模型从 35-45% 提升到 49-65%,Agent 模式下达到 90-96%。
但验证类任务(Testbench Checker、Assertion)仍然没有公开的新数据。ACE-RTL 论文没有报告这两个类别的结果。这说明即便在 Agent 框架下,验证自动化可能仍然是最大的短板。
CVDP 原始论文的判断依然成立:验证比生成更难,因为验证需要完全理解设计的意图——不仅要读懂代码,还要推断"什么样的输出算正确"。
商业与现实:两个叙事 reconciled
2026 年上半年的行业动态:
• Cadence 发布 ChipStack AI SuperAgent,Altera、NVIDIA、Qualcomm、Tenstorrent 已在使用
• ChipAgents 获 $74M 融资,80 个客户,ARR 增长 140 倍
• Ricursive Intelligence 获 $335M 融资、$4B 估值
• Siemens EDA 发布 Questa One Agentic Toolkit
• NVIDIA 发布 ACE-RTL,CVDP Agent APR 达到 96%
• 2026 年涌现十多个新基准(HWE-Bench、CktEvo、LocalV、Pluto 等)
一年前,"34%"和"10 倍效率提升"看起来是矛盾的。现在 CVDP 本身的 Agent 数据(96%)为商业叙事提供了支撑:当 AI 有机会多轮迭代时,它确实能在芯片设计上达到很高的成功率。
但关键在于"有机会迭代"这五个字。ACE-RTL 的 96% 需要专用的 Agent 框架、RTL 专用模型、结构化的编译-仿真-修复流水线。这不是简单地把 ChatGPT 扔进芯片设计流程就能实现的。Cadence、ChipAgents、Siemens 的产品本质上都在构建类似的"迭代修复"能力——它们解决的不是"AI 能不能写 Verilog"的问题,而是"AI 怎么在真实的芯片设计工程流程中可靠地工作"的问题。
两个叙事不是矛盾的。裸推理(34→59%)描述的是 AI 的原始能力边界;Agent 化(→96%)描述的是工程化后的可用水平。 两者之间的差距,正是当前芯片设计 AI 公司的核心价值所在。
2026 年的几个信号
裸模型进步显著,但还在加速。 从 34% 到 59%,一年时间涨了 25 个百分点。Gemini 3.1 Pro 是新的冠军,Claude Opus 4.6 和 GPT Codex-5.3 紧随其后。但注意:59% 仍然意味着四成以上的题目一次写不对。
Agent 是分水岭,但不是万能药。 ACE-RTL 证明了精心设计的 Agent 框架可以把通过率推到 96%;NYU 的研究证明了粗暴的 Agent 包装反而有害。中间的差距就是工程质量。
专用模型 + Agent 是王道。 ACE-RTL 用一个 32B 的 RTL 专用小模型 + Agent 框架,在多数任务上超越了 Claude 4 Sonnet 和 GPT-5。这意味着芯片设计 AI 的最优解可能不是更大的通用模型,而是"小而精的专用模型 + 结构化的 Agent 流程"。
验证仍然是黑洞。 生成类任务已经从"不可用"迈向"可用",但验证类任务(Testbench Checker、Assertion)至今没有公开的 Agent 评测结果。这个沉默本身说明问题依然严峻。
评测标准在成熟。 从 VerilogEval 的 156 道"简单题"到 CVDP 的 783 道"全场景题",再到 2026 年的 HWE-Bench(仓库级 bug 修复)、CktEvo(仓库级 RTL 演化)、Pluto(综合效率评测),行业正在从"能不能写代码"进化到"能不能在真实项目里可靠工作"。
写在最后
一年前的 34%,是 NVIDIA 给行业画的一条诚实的水位线。一年后的 59%(裸模型)和 96%(Agent),是同一条基准上的最新刻度。
进步是真实的。从"三分之二的概率拿到有 bug 的结果"到"超过一半的概率一次写对",从"几乎不可用"到"迭代修复后接近生产级"——这些变化不是营销话术,是同一条基准上的可复现数据。
但同样真实的是:59% 的裸模型 pass@1 意味着 AI 独立写 Verilog 仍然有四成以上的失败率;96% 的 Agent APR 需要精心设计的工程系统来支撑;验证自动化仍然是最大的未解难题。
芯片设计 AI 正在从"能不能"的阶段,过渡到"怎么才能可靠地"的阶段。这个过渡本身,就是 2026 年最重要的信号。
NVIDIA 发 CVDP,不是在承认失败,而是在设定起跑线。一年后,同一条线上已经跑出了 96%。下一个问题是:从 96% 到"可以流片",还有多远?
夜雨聆风