字节跳动自研AI芯片:对标Groq,绕开HBM封锁的推理新路径

🔺点击上面蓝字关注我，设置星标不迷路🔺

👇能源科技产业深度观察，理性看热闹，思考辨趋势👇

《TheInformation》独家报道，字节跳动正在开发一款用于推理的新型人工智能芯片，在全球AI算力竞赛中，字节没有选择和英伟达正面硬刚，而是瞄准了推理赛道的新机会，对标Groq的LPU架构，试图走出一条绕开HBM封锁的自主路径。

报道明确，字节正在开发一款新型AI芯片，结构对标美国Groq公司的语言处理单元（LPU），核心目标是低成本、高效率运行 AI 模型，尤其是推理任务。

字节的AI计算需求中，推理占了绝大部分，智能体、聊天机器人等场景的爆发，让推理工作负载呈指数级增长；

Groq LPU的思路是“用片上SRAM替代HBM”，把模型权重直接存在芯片内部，避免反复读写高带宽内存带来的延迟和功耗，这一设计思路正好切中了字节的痛点，字节的新芯片同样计划不依赖HBM，而是通过优化存储架构，规避美国对高端存储芯片的出口管制。

为什么是推理芯片，而不是训练芯片？

因为训练这个赛道，英伟达CUDA生态积累了十几年，不是一两款新芯片能动摇的，字节跳动不是不清楚这一点，过去几年它砸了约200亿美元买英伟达的卡，买的就是训练能力。

但推理是另一回事。

模型训练完之后，真正持续烧钱的阶段才开始，用户每发一条请求，内容每被推荐一次，广告每匹配一回，背后都是推理在实时运转，对字节跳动这种巨大规模的公司，把推理做得更快、更省，产品就能跑得更顺。

Groq的LPU在这个方向上做了一个很极端的选择：用片上存储代替对HBM的依赖，换来极低的推理延迟，这个思路，恰好也让字节跳动绕开了美国对高带宽内存出口的管制。

当然，字节想自己造芯片肯定不会轻松，前期投入大，周期长，供应链复杂，试错的钱随时可能打水漂。英伟达的地位之所以难撼动，不只是芯片本身够好，更是因为围绕它建起来的开发者生态，不是没有替代品，是迁移的麻烦太大，大多数人不愿动。

同时，字节跳动选择和InnoStar Semiconductor合作，而不是自己从头组团队，是在控制风险的方式上留了一点余地。但更深的判断其实在于：字节认为未来AI应用的胜负，不在模型有多大，而在推理跑得多快、多便宜。

我这个判断不一定准，但对字节跳动自己来说，它们有真实的数据依据，抖音、TikTok这些产品从来也不是靠"模型比你大"赢的，而是靠推荐比你快、比你准。

当然，想这么干的公司，不只字节跳动一家，阿里有含光，华为有昇腾，百度有昆仑，腾讯也在做。这一轮自研芯片的热潮，表面上是各家在搞技术升级，往里看，是对供应链被掐断这件事的集体担忧。

美国的出口管制每收紧一次，这种担忧就多一分现实感。从A100到A800，从H100到H20，每一次"降配供货"都在说明同一件事：依赖别人的东西，随时可能没得用。

自研也不是没有卡脖子的地方，光刻机、先进制程、EDA工具，这些还是绕不开西方供应链，但能把哪个环节收回来，就少一个被动的口子。

有些问题现在还没答案，字节跳动的新芯片，推理速度能到Groq那个水平吗？成本能打得过吗？能在够短的时间内量产吗？

不知道。

但一家每天要为十几亿用户实时运算的公司，大概不会一直甘心租别人的算力。

字节跳动自研对标Groq的推理芯片，是国内AI企业在算力自主道路上的一次关键尝试。

它不只是为了摆脱外部依赖，更是在推理赛道的新机会窗口，探索出一条“架构创新+国产存储”的破局路径。

📘声明&互动

本文基于公开资料与作者独立分析，仅供行业观察与思考分享，如有不当之处，欢迎指正。若有所启发，欢迎点赞、转发、留言交流，也欢迎来知识星球「超级个体成长」一起来交流、讨论。

📘近期文章

2026-05-28

2026-05-27

2026-05-26

2026-05-25

2026-05-25

2026-05-24

2026-05-22

2026-05-21

2026-05-20

2026-05-19