AI Agent 能写代码能控机器人,却在芯片设计＂最后一英里＂翻了车

明尼苏达大学最近发了篇论文，给当下最热的 Agentic EDA 浇了一盆冷水。

他们做了个叫 PostEDA-Bench 的基准测试，专门评估 LLM Agent 在芯片设计"最后一英里"的能力——修 DRC 违规、调 PPA 参数。结果不太好看：合成任务上 Agent 表现还行，一换到实际场景，成功率直接腰斩。多目标 PPA 优化更惨，最好的模型也就 20%。

这篇论文的价值不在于说"AI 不行"，而在于它第一次给出了可量化的基线。之前大家都在喊 LLM 能改变芯片设计，但到底能改到什么程度，没人说得清。现在有数字了。

什么叫"最后一英里"？

芯片设计流程跑完自动布局布线，不会干净利落地吐出一个完美的 GDSII。实际情况是：sign-off DRC 还会残存一堆违规，PPA 指标也往往达不到目标。工程师得花大量时间手动迭代——改几何结构、调工具参数、重新跑流程，一遍一遍，直到签核通过。

这就是"最后一英里"。自动化走了 99%，剩下这 1% 最费人工、最耗时间。

LLM Agent 被看好，因为它们能理解工具文档、生成 TCL 脚本、分析错误日志。于是过去两年冒出来一堆工作：ChatEDA、AutoEDA、Chipnemo、iEDA-bench、MCP4EDA……

但问题是：这些 Agent 到底行不行？

PostEDA-Bench 做了什么？

明尼苏达大学给了个系统性答案。145 个任务，两个维度：

DRC-Bench：评估 Agent 修设计规则违规的能力。两条线——DRC-Essential 用合成场景测规则知识，DRC-Reasoning 用真实残存违规测几何推理。

PPA-Bench：评估 Agent 收敛 PPA 目标的能力。PPA-Mono 测单目标，PPA-Multi 测多目标权衡。

支持开源（OpenROAD）和商业（DC + Innovus）工具链，评估结果机器可检查。

结果有多难看？

合成任务和实际任务的落差，是论文最核心的发现。

DRC-Essential 上，最好的 Agent 成功率 85.50%。还行。但换到 DRC-Reasoning，最高只有 36.66%。

PPA 更夸张。PPA-Mono 最佳 64.56%，PPA-Multi 直接掉到 20.00%。

原因更值得琢磨：多目标 PPA 优化的瓶颈不是 Agent 不懂参数怎么调，而是它不会做权衡。多个模型在 PPA-Multi 上产生了负 NIS——为了优化一个指标，把其他约束搞得更差了。说白了，捡了芝麻丢了西瓜。

还有个好消息：给 Agent 加上视觉通道，让它能看到版图图像，对 DRC 任务从来没坏处，而且 consistently 提升成功率。纯文本模型最弱的场景，视觉增强带来的提升最大。

为什么合成和实际差这么多？

不奇怪。现有 EDA-LLM 基准几乎都是"文本到脚本"——给一段自然语言，让它生成 TCL 脚本。测的是 Agent 会不会说话，不是会不会做事。

PostEDA-Bench 的 DRC-Reasoning 不一样。给 Agent 的是真实跑完流程后的残存 GDS，违规是工具真实报出来的，不是人工标注的。Agent 得理解违规的几何含义、定位要修改的形状、执行编辑、重新跑 DRC、根据新结果继续迭代。这是闭环，不是开环的脚本生成。

合成任务像在考卷上做题，实际任务才是下车间。

"不会做权衡"是致命伤

多目标 PPA 只有 20% 成功率，比 DRC 修复还低。论文的分析很有意思：瓶颈不在参数知识，在权衡推理。

这恰恰是人类资深物理设计工程师最值钱的地方。新手知道某个参数会影响时序。资深工程师知道：调了之后时序会改善，但面积增加 3%，功耗增加 1.5%，对 setup 和 hold 的影响方向还相反——值不值得调，得看整个设计的约束优先级。

这种权衡需要对设计有整体理解，对各指标耦合关系有直觉。LLM Agent 离这个水平还有不小的距离。

这也是 IC Agent Hub 想做的事——让 Agent 不仅会执行单步操作，还能在设计流程里做更高层次的判断。结合行业知识库和工具链反馈，帮 Agent 建立对设计上下文的长期记忆，而不是每次都从零开始盲调。

视觉增强为什么管用？

DRC 本质上是几何问题。违规是形状之间的关系——间距不够、宽度不合规、通孔位置不对。纯文本模型只能通过坐标和规则描述来理解，相当于盲摸。给它看版图图像，等于给了它一双眼睛。

这指向一个趋势：多模态可能是 EDA Agent 的必经之路。芯片设计从 RTL 到版图，大量信息是视觉性的——原理图、时序图、版图热图、拥塞图。能看的 Agent，天然比只能读的更贴近工程师的工作方式。

Agentic EDA 现在什么段位？

拿自动驾驶做类比，大概还在 L2——辅助驾驶能用，复杂路况人还得接管。

看看这两年的进展：ChatEDA（TCAD'24）管 RTL 到 GDSII 全流程；AutoEDA（2025）基于微服务和 MCP 协议；Chipnemo（NVIDIA 2023）是芯片设计领域适配的 LLM；NVIDIA Marco 是多 Agent 协作框架；Cadence Agentic AI 号称能把设计周期缩短数月。

方向没错。但 36.66% 和 20.00% 说明，距离工业化可靠应用还有很长的路要走。

EDA 公司：窗口还开着

如果 Agent 在"最后一英里"确实只有这个水平，Synopsys、Cadence、Siemens EDA 三家巨头完全有时间把 AI 能力内化到工具链里。Cadence 已经在做了。

创业公司的机会在于：大厂 AI 集成速度一般不快，而开源社区（OpenROAD + PostEDA-Bench）提供了低门槛试验场。谁能先在某个细分场景把成功率从 36% 推到 80%，谁就拿到了入场券。

芯片设计公司：别急着裁人

有些管理者看到 LLM 能生成 EDA 脚本，就在盘算能不能用 Agent 替代初级物理设计工程师。数据给的答案是：至少目前还不行。

但 AI 不是没用。Agent 在单目标 PPA 上 64% 成功率，合成 DRC 修复 85%——这些场景已经可以当辅助工具用了。关键是把 Agent 放对位置：让它干擅长的事，复杂权衡交给资深工程师。

AI 社区：基线有了，方向也清了

PostEDA-Bench 最大的贡献是建了一个可复现、可量化、覆盖真实场景的评估基准。之前各论文各搞各的，任务不同、工具不同、评价标准不同，没法横向比。

现在有了统一标尺。论文指出的两个核心发现——合成与实际不对称、trade-off reasoning 是多目标瓶颈——直接标明了后续研究该攻什么山头。

写在最后

接下来盯三件事。

第一，多模态 Agent 在 EDA 的进展。视觉增强已经证明了价值，下一步会不会加入时序波形、拥塞热图、工艺角数据？多模态可能是突破 DRC-Reasoning 36% 天花板的关键。

第二，权衡推理能力的专项提升。这不是 EDA 独有的问题，是 Agent 通用短板。如果通用框架（ReAct、Proposer-Critic、ToT）能在多目标权衡上取得突破，对 EDA、对优化、对决策类任务都有溢出效应。

第三，工业级验证。PostEDA-Bench 目前用的是 ASAP7 工艺和公开 IP。真正的压力测试得在先进工艺（3nm、2nm）、大规模 SoC、真实项目约束下做。学术界和工业界的 Gap，往往这时候才会暴露。

PostEDA-Bench 不是一篇说"AI 在芯片设计上失败了"的论文。反过来，它是一个成熟信号——行业开始从"LLM 能不能做 EDA"的兴奋期，走向"到底能做到什么程度"的量化评估期。

36.66% 和 20.00% 不是终点，是起点。有了基线，才知道往哪追。

芯片设计的"最后一英里"可能是 LLM Agent 最硬核的挑战之一。但别忘了，难的事，才值得做。

作者：麒芯

参考来源：arXiv 2605.06936，SemiEngineering，NVIDIA Research

💬 加入 IC Agent 技术交流群

群里聚集了芯片设计工程师、IT/CAD 负责人和 AI+EDA 从业者，聊技术、聊工具、聊行业趋势。

👉 关注回复「加群」，拉你进群一起聊

👉 关注回复「合作」，如果你在做 AI+ 芯片/EDA 相关，欢迎来聊

后续会持续更新这个系列，关注不迷路。