🔺点击上面蓝字关注我,设置星标不迷路🔺
《TheInformation》独家报道,字节跳动正在开发一款用于推理的新型人工智能芯片,在全球AI算力竞赛中,字节没有选择和英伟达正面硬刚,而是瞄准了推理赛道的新机会,对标Groq的LPU架构,试图走出一条绕开HBM封锁的自主路径。
报道明确,字节正在开发一款新型AI芯片,结构对标美国Groq公司的语言处理单元(LPU),核心目标是低成本、高效率运行 AI 模型,尤其是推理任务。
字节的AI计算需求中,推理占了绝大部分,智能体、聊天机器人等场景的爆发,让推理工作负载呈指数级增长;
Groq LPU的思路是“用片上SRAM替代HBM”,把模型权重直接存在芯片内部,避免反复读写高带宽内存带来的延迟和功耗,这一设计思路正好切中了字节的痛点,字节的新芯片同样计划不依赖HBM,而是通过优化存储架构,规避美国对高端存储芯片的出口管制。

为什么是推理芯片,而不是训练芯片?
因为训练这个赛道,英伟达CUDA生态积累了十几年,不是一两款新芯片能动摇的,字节跳动不是不清楚这一点,过去几年它砸了约200亿美元买英伟达的卡,买的就是训练能力。
但推理是另一回事。
模型训练完之后,真正持续烧钱的阶段才开始,用户每发一条请求,内容每被推荐一次,广告每匹配一回,背后都是推理在实时运转,对字节跳动这种巨大规模的公司,把推理做得更快、更省,产品就能跑得更顺。
Groq的LPU在这个方向上做了一个很极端的选择:用片上存储代替对HBM的依赖,换来极低的推理延迟,这个思路,恰好也让字节跳动绕开了美国对高带宽内存出口的管制。
当然,字节想自己造芯片肯定不会轻松,前期投入大,周期长,供应链复杂,试错的钱随时可能打水漂。英伟达的地位之所以难撼动,不只是芯片本身够好,更是因为围绕它建起来的开发者生态,不是没有替代品,是迁移的麻烦太大,大多数人不愿动。
同时,字节跳动选择和InnoStar Semiconductor合作,而不是自己从头组团队,是在控制风险的方式上留了一点余地。但更深的判断其实在于:字节认为未来AI应用的胜负,不在模型有多大,而在推理跑得多快、多便宜。
我这个判断不一定准,但对字节跳动自己来说,它们有真实的数据依据,抖音、TikTok这些产品从来也不是靠"模型比你大"赢的,而是靠推荐比你快、比你准。
当然,想这么干的公司,不只字节跳动一家,阿里有含光,华为有昇腾,百度有昆仑,腾讯也在做。这一轮自研芯片的热潮,表面上是各家在搞技术升级,往里看,是对供应链被掐断这件事的集体担忧。
美国的出口管制每收紧一次,这种担忧就多一分现实感。从A100到A800,从H100到H20,每一次"降配供货"都在说明同一件事:依赖别人的东西,随时可能没得用。
自研也不是没有卡脖子的地方,光刻机、先进制程、EDA工具,这些还是绕不开西方供应链,但能把哪个环节收回来,就少一个被动的口子。
有些问题现在还没答案,字节跳动的新芯片,推理速度能到Groq那个水平吗?成本能打得过吗?能在够短的时间内量产吗?
不知道。
但一家每天要为十几亿用户实时运算的公司,大概不会一直甘心租别人的算力。
字节跳动自研对标Groq的推理芯片,是国内AI企业在算力自主道路上的一次关键尝试。
它不只是为了摆脱外部依赖,更是在推理赛道的新机会窗口,探索出一条“架构创新+国产存储”的破局路径。
📘声明&互动
2026-05-28

2026-05-27

2026-05-26

2026-05-25

2026-05-25

2026-05-24

2026-05-22

2026-05-21

2026-05-20

中国存储双雄冲刺上市:长存、长鑫资本化落地,将引爆半导体上游大周期
2026-05-19

夜雨聆风