

01
Die yield → System yield 的传导:你能流片回来一批好die,不等于你能把一批好板卡交付给客户。封装应力、TSV/Chiplet互连一致性、HBM焊接裕量——任何一个维度的分布尾巴都会变成RMA。
热密度跑赢了散热方案:AI推理/训练的负载特征是"高密度持续功耗",不是burst。热设计从"够不够冷"变成了"能不能不让它自己降频自保"。
供电完整性(PDN)不声不响吃掉你的margin:瞬态电流阶跃一大,VRM响应跟不上,你就看到计算正确性靠软件retry兜着走——客户管这叫"不稳定"。
固件/驱动/BSP栈才是真正的"第二颗芯片":算力在硅上,但可用算力在软件栈上。调度器、算子库覆盖度、内存搬运路径、DVFS策略——这些不写进交付基线,你的TOPS就永远停在PPT。
02
VRM瞬态响应不够快 → 电压跌落 → 逻辑时序margin被吃掉 → 表现成"偶发计算偏差/CRC fail/重启"
多相控制器相位平衡没调好 → 某相过热 → 限流 → 全局降频
PCB上的via电流密度、铜皮温升、去耦电容布局——任何一处偷工都会在你的量产批次里变成"为什么这批板子一到下午就掉速"的悬案
电流剖面实测数据(不是平均,是瞬态包络)
VRM相数/开关频率/LC选型建议(适配你那块板,不是通用参考设计)
PDN impedance target curve(让他们自己的AE跟你一起跑仿真,而不是丢个原理图就走)
算子库覆盖度(Conv、MatMul是容易的;LayerNorm、Softmax、Attention变体、动态shape、量化校准flow……这些才是客户的真实模型长什么样)
内存管理(显存/片上SRAM的分配策略、fragmentation、DMA搬运重叠——这些决定了你标称带宽能吃满多少)
DVFS策略(哪个频率点配哪个电压、idle→active切换延迟多少——直接影响tail latency)
BSP稳定性:内核驱动、设备树、PCIe链路训练稳定性、热插拔/复位路径——量产环境中这些不牢,TOPS再高也是"演示品"
03
"你们的持续功耗热设计点在什么工况下测的?机箱条件给一下。"
"供电方面,你们有没有做过PDN仿真、给过VRM相控建议?"
"量产的话,封装级yield和reliability screening怎么做的?批次追溯链到哪一层?"
"固件栈的roadmap——我的模型格式/框架版本你们cover到哪季?"
04
你真实workload的电流剖面/功耗预算(哪怕是个 rough 的),看对方眼睛亮不亮——亮了说明他们吃过量产苦; 你机箱的thermal envelope限制(封闭/风冷/液冷/户外?),看对方给的是通用台词还是能谈具体ΔT; 你的框架版本和模型格式清单,看对方BSP team有没有人能坐下来跟你排calendar,而不是"我们支持PyTorch/TensorFlow"八个字打发你。
05
A. 热/功耗:机箱塞得下但烤机降频,客户不接受吞吐波动
B. 供电/稳定性:偶发抽风找不到规律,板级PDN你心里没底
C. 固件栈:算子覆盖/框架适配的工程人力黑洞比你预想深一倍
D. 良率/交付:die好拿但封装/测试/批次一致性这条链你还看不到底
夜雨聆风