AI 能写 RTL 了吗?一年数据说明一切

一年前，NVIDIA 发了 783 道题，最强的模型答对了 34%。一年后，同一条基准上，SOTA 已经到了 59%——而搭配 Agent 框架后，最高达到 96%。芯片设计 AI 的水位线，正在快速上移。

一年后的成绩单

先回顾原点。2025 年 6 月，NVIDIA 研究院发布了 CVDP——Comprehensive Verilog Design Problems，"全面的 Verilog 设计问题集"。783 道题，35 名资深硬件工程师手工编写，博士级专家审核，初始 1313 道题经 40% 淘汰后保留。覆盖 RTL 代码生成、修改、调试、Testbench 编写、断言生成、设计理解等 13 个类别。

发布时，最强模型 Claude 3.7 Sonnet 的 pass@1 只有 33.56%。一年过去了，这条基准上发生了什么？

2026 年初，三篇独立论文在 CVDP 上做了新一轮评测。先看裸模型 pass@1（单轮生成，无工具、无迭代）：

模型	代码生成 pass@1	来源
Gemini 3.1 Pro Preview	58.61%	NYU, 2026.03
GPT Codex-5.3	49.67%	NYU, 2026.03
Claude Opus 4.6	50.66%	NYU, 2026.03
Claude 4 Sonnet	37.94%	NVIDIA, 2026.02
GPT-5	36.17%	NVIDIA, 2026.02
o4-mini	35.10%	NVIDIA, 2026.02
DeepSeek-R1	34.89%	NVIDIA, 2026.02
Claude 3.7 Sonnet（2025）	33.56%	NVIDIA, 2025.06

一年时间，裸模型 SOTA 从 34% 跳到了 59%。 接近翻倍。而且进步不仅来自闭源巨头——开源模型 DeepSeek-R1 也达到了 34.89%，追平了去年的冠军 Claude 3.7 Sonnet。

但更有戏剧性的变化在 Agent 模式。

从 34% 到 96%：Agent 的力量

2025 年 CVDP 论文预留了 Agentic 评测模式，但当时没有公开结果。一年后，NVIDIA 原团队自己交出了答卷。

2026 年 2 月，NVIDIA 发表 ACE-RTL（Agentic Context Evolution for RTL），一个专为芯片设计打造的 Agent 框架，搭配自研的 RTL 专用 32B 模型。核心思路：让 LLM 生成代码后，自动编译、仿真、看报错、修 bug，循环迭代直到通过。

结果：

任务	Claude 3.7 Sonnet(2025 pass@1)	Claude 4 Sonnet(2026 pass@1)	ACE-RTL Agent(2026 APR)
NL Spec → RTL（规格到代码）	~35-45%	49.74%	96.15%
Code Modification（代码修改）	~30-40%	65.09%	90.91%
Code Debugging（调试）	~30-40%	56.00%	91.43%
Code Completion（代码补全）	~50-60%	39.57%	80.85%

Agent 模式下，Spec-to-RTL 的 APR（经过多轮修复后的通过率）达到了 96.15%。 Code Modification 达到 90.91%，Debugging 达到 91.43%。

从 34% 到 96%，差距不是"更好一点"，而是从"几乎不可用"到"接近生产可用"。

但这里有一个重要的注脚。ACE-RTL 的 96% 是 APR——即允许模型在初始代码失败后自动修复。它更接近真实工作流（工程师写完代码也会反复调试），但和"一次写对"的 pass@1 不是同一个指标。一个更准确的说法是：在允许迭代修复的条件下，AI 已经能解决绝大多数中等复杂度的 Verilog 设计问题。

Agent 不是万能药

ACE-RTL 的成绩很漂亮，但另一篇论文泼了一盆冷水。

2026 年 3 月，纽约大学发表了"Exploring the Agentic Frontier of Verilog Code Generation"，首次系统性评估了 Agent 模式在 CVDP 上的表现。结论出人意料：

模型	Non-Agentic pass@1	Agentic (带工具)	Agentic (无工具)
Gemini 3.1 Pro	58.61%	42.39% ↓	47.39% ↓
GPT Codex-5.3	49.67%	45.65% ↓	41.96% ↓
Claude Opus 4.6	50.66%	43.48% ↓	36.74% ↓

朴素的 Agent 包装反而降低了性能。 Gemini 3.1 Pro 从 58.61% 跌到 42.39%，跌幅超过 16 个百分点。Claude Opus 4.6 从 50.66% 跌到 36.74%，几乎砍掉三分之一。

为什么会这样？NYU 的分析揭示了几个原因：Agent 框架引入了更多的系统提示词和工具描述，占用了有效 context 窗口；模型在调用工具时经常"崩溃"（生成无效的工具调用格式）；工具返回的错误信息模型解读不准确，反而引入新的错误。

这说明：Agent 不是简单地把 LLM 套一个循环就能起飞。 ACE-RTL 能达到 96%，是因为它做了大量精心设计——RTL 专用的 context evolution 策略、结构化的编译-仿真-修复流水线、专门训练的小模型。而简单粗暴地给通用 LLM 加一个"试试看、修一修"的循环，效果适得其反。

LLM 在 Verilog 上怎么错的

虽然分数在涨，但 LLM 在 Verilog 上的错误模式没有根本改变。CVDP 的失败分析揭示的四种系统性缺陷，在 2026 年的最新评测中依然存在。

错误一：时序逻辑混淆

Verilog 有两种赋值方式：=（blocking，阻塞赋值）和 <=（non-blocking，非阻塞赋值）。在软件里，这两者几乎没有区别。但在硬件里，= 是顺序执行，<= 是并行执行——在同一时钟边沿同时生效。

LLM 经常混用这两种赋值。在一个排序网络的实现中，模型用 = 代替了 <=，导致数据在一个 cycle 内被错误地串联修改——LLM 理解了"做什么"，但没理解"什么时候做"。

错误二：位索引方向

Verilog 的位选择是 MSB-first：data[7:0]。Python 的切片是 offset-based：data[0:8]。方向刚好相反。LLM 在比特级操作中经常按 Python 习惯来写 Verilog，产生间歇性故障——最难追踪的 bug 类型。

错误三：协议处理

AXI、APB、AHB 等协议定义了严格的握手时序。LLM 的问题不是"不知道规则"，而是无法精确遵守——经常遗漏握手信号的同步逻辑、忘记处理 ready 为低时的等待状态。

错误四：边界条件

数组越界、状态机死锁、计数器溢出、复位时序——这些在软件中已有成熟防御模式的场景，LLM 在 Verilog 中经常遗漏。

验证仍然是最难的

2025 年 CVDP 的一个核心发现——验证比生成更难——在 2026 年的细分数据中得到了更精确的验证。

任务类别	2025 最强 pass@1	2026 Claude 4 Sonnet	2026 ACE-RTL APR
NL Spec → RTL	~35-45%	49.74%	96.15%
Code Modification	~30-40%	65.09%	90.91%
Code Debugging	~30-40%	56.00%	91.43%
Code Completion	~50-60%	39.57%	80.85%
Testbench Checker	6-23%	—	—
Assertion（断言生成）	19-28%	—	—

生成类任务（Spec-to-RTL、Code Modification）进步显著——裸模型从 35-45% 提升到 49-65%，Agent 模式下达到 90-96%。

但验证类任务（Testbench Checker、Assertion）仍然没有公开的新数据。ACE-RTL 论文没有报告这两个类别的结果。这说明即便在 Agent 框架下，验证自动化可能仍然是最大的短板。

CVDP 原始论文的判断依然成立：验证比生成更难，因为验证需要完全理解设计的意图——不仅要读懂代码，还要推断"什么样的输出算正确"。

商业与现实：两个叙事 reconciled

2026 年上半年的行业动态：

• Cadence 发布 ChipStack AI SuperAgent，Altera、NVIDIA、Qualcomm、Tenstorrent 已在使用

• ChipAgents 获 $74M 融资，80 个客户，ARR 增长 140 倍

• Ricursive Intelligence 获 $335M 融资、$4B 估值

• Siemens EDA 发布 Questa One Agentic Toolkit

• NVIDIA 发布 ACE-RTL，CVDP Agent APR 达到 96%

• 2026 年涌现十多个新基准（HWE-Bench、CktEvo、LocalV、Pluto 等）

一年前，"34%"和"10 倍效率提升"看起来是矛盾的。现在 CVDP 本身的 Agent 数据（96%）为商业叙事提供了支撑：当 AI 有机会多轮迭代时，它确实能在芯片设计上达到很高的成功率。

但关键在于"有机会迭代"这五个字。ACE-RTL 的 96% 需要专用的 Agent 框架、RTL 专用模型、结构化的编译-仿真-修复流水线。这不是简单地把 ChatGPT 扔进芯片设计流程就能实现的。Cadence、ChipAgents、Siemens 的产品本质上都在构建类似的"迭代修复"能力——它们解决的不是"AI 能不能写 Verilog"的问题，而是"AI 怎么在真实的芯片设计工程流程中可靠地工作"的问题。

两个叙事不是矛盾的。裸推理（34→59%）描述的是 AI 的原始能力边界；Agent 化（→96%）描述的是工程化后的可用水平。 两者之间的差距，正是当前芯片设计 AI 公司的核心价值所在。

2026 年的几个信号

裸模型进步显著，但还在加速。 从 34% 到 59%，一年时间涨了 25 个百分点。Gemini 3.1 Pro 是新的冠军，Claude Opus 4.6 和 GPT Codex-5.3 紧随其后。但注意：59% 仍然意味着四成以上的题目一次写不对。

Agent 是分水岭，但不是万能药。 ACE-RTL 证明了精心设计的 Agent 框架可以把通过率推到 96%；NYU 的研究证明了粗暴的 Agent 包装反而有害。中间的差距就是工程质量。

专用模型 + Agent 是王道。 ACE-RTL 用一个 32B 的 RTL 专用小模型 + Agent 框架，在多数任务上超越了 Claude 4 Sonnet 和 GPT-5。这意味着芯片设计 AI 的最优解可能不是更大的通用模型，而是"小而精的专用模型 + 结构化的 Agent 流程"。

验证仍然是黑洞。 生成类任务已经从"不可用"迈向"可用"，但验证类任务（Testbench Checker、Assertion）至今没有公开的 Agent 评测结果。这个沉默本身说明问题依然严峻。

评测标准在成熟。 从 VerilogEval 的 156 道"简单题"到 CVDP 的 783 道"全场景题"，再到 2026 年的 HWE-Bench（仓库级 bug 修复）、CktEvo（仓库级 RTL 演化）、Pluto（综合效率评测），行业正在从"能不能写代码"进化到"能不能在真实项目里可靠工作"。

写在最后

一年前的 34%，是 NVIDIA 给行业画的一条诚实的水位线。一年后的 59%（裸模型）和 96%（Agent），是同一条基准上的最新刻度。

进步是真实的。从"三分之二的概率拿到有 bug 的结果"到"超过一半的概率一次写对"，从"几乎不可用"到"迭代修复后接近生产级"——这些变化不是营销话术，是同一条基准上的可复现数据。

但同样真实的是：59% 的裸模型 pass@1 意味着 AI 独立写 Verilog 仍然有四成以上的失败率；96% 的 Agent APR 需要精心设计的工程系统来支撑；验证自动化仍然是最大的未解难题。

芯片设计 AI 正在从"能不能"的阶段，过渡到"怎么才能可靠地"的阶段。这个过渡本身，就是 2026 年最重要的信号。

NVIDIA 发 CVDP，不是在承认失败，而是在设定起跑线。一年后，同一条线上已经跑出了 96%。下一个问题是：从 96% 到"可以流片"，还有多远？