TGS Club × 前谷歌工程师硬核观察
2026,当AI算力开始"改朝换代"2026年4月19日 · 第15期
让我们把时间拨回72小时前——4月16日深夜,加州圣克拉拉的一栋不起眼的办公楼里,一块代号"AGI CPU"的芯片首次点亮了它的136个核心。测试日志显示,在300瓦功耗下,内存带宽突破800 GB/s,96条PCIe Gen6通道同时满载。
这行数据让我这个在谷歌写了多年服务器调度代码的老兵倒吸一口气:Arm,那个从不亲自下场造芯片的IP帝国,直接开团了。
Arm CEO René Haas在内部邮件中写道:"这是一个决定性的时刻。"根据其规划,新芯片业务将在约5年内达到150亿美元的年收入目标,后续设计将以12至18个月的节奏持续推出。
就在发稿前3小时,英伟达GTC 2026的另一枚深水炸弹终于引爆——Groq 3 LPU推理芯片正式开启商用交付,单机柜集成256颗LPU,推理吞吐量/功耗比相较前代提升35倍。分析师预测,2026至2027年LPU总出货量将达400万至500万颗,远超同期高端训练GPU的增量。
2026年4月,AI算力世界正在经历一场静默的"权力交接":算力重心从训练正式转向推理,而推理的战场,从云端蔓延到了边缘。
—— SECTION 01 ——
一Arm的"AGI CPU":当架构师决定亲自下场
表层(大众能懂的现象比喻) :过去三十年,Arm像一家"设计图纸公司"——它画好处理器架构蓝图,卖给苹果、高通、华为去造芯片。现在,Arm突然决定自己开工厂,生产名为"AGI CPU"的服务器芯片,直接卖给Meta和OpenAI。这意味着,它从"卖图纸"变成了"卖房子",跟自己的客户开始抢生意。
中层(开发者关心的实现逻辑) :这行代码背后藏着魔鬼。AGI CPU采用台积电3nm N3P工艺,集成136个Neoverse V3核心,12通道DDR5内存,带宽超过800 GB/s,原生支持CXL 3.0,96条PCIe Gen6通道。从规格看,它的目标不是单核性能霸榜,而是密度、带宽和机架效率——这是超大规模数据中心最在乎的指标。
一个关键细节:Meta作为主要合作伙伴参与了AGI CPU的研发,OpenAI、Cloudflare、SAP、SK Telecom都已成为首批客户,联想和广达将提供整机系统方案。
核心层(论文关键贡献点) :AGI CPU的核心创新在于"为Agentic AI重构CPU微架构"。传统CPU为批处理和Web服务优化,而智能体AI的特点是:长生命周期的任务协调、海量并发的API调用、频繁的内存-网络-加速器协同。AGI CPU在分支预测器上做了专门优化,使其能更好地处理智能体工作负载中"不可预测的控制流切换"——比如一个AI代理在代码生成、工具调用和结果评估之间的快速跳转。
黄仁勋在GTC 2026上的判断一针见血:"AI基础设施的重心正式从训练转向推理,2026年下半年起,推理算力支出将占AI总算力投入的80%以上。"
📷 Arm AGI CPU vs AMD EPYC vs Intel Xeon 核心规格对比(核数/带宽/PCIe通道)
🔥 悬念钩子:Arm下场造芯片,英伟达转战推理专用芯片。两大巨头同时调转枪口,指向了同一个靶心。这个靶心是什么?下一节我们看看智能体经济如何吃掉全世界的算力。
—— SECTION 02 ——
二GLM-5.1:一个能连续工作8小时的"永不掉线"程序员
让我给你讲一个真实的开发场景案例。上周,我跟国内一家AI编程工具的CTO吃饭。他告诉我,他们正在测试一个"魔鬼级"任务:让AI从头设计一个高性能向量数据库引擎。普通的代码模型,跑50轮左右就开始原地打转——优化方向重复、结果波动剧烈、最终陷入"策略退化"。
他随后换上了GLM-5.1。655轮迭代,6000多次工具调用,21,500 QPS——这是前50轮最优结果的6倍。关键突破发生在第90轮(IVF聚类探测)、第240轮(u8预打分+f16重排序两级流水线)和第480轮(量化路由的分层索引)。
就在发稿前3小时,Z.ai(智谱AI的海外品牌)公布了GLM-5.1的完整评测数据:754B MoE架构(总参数,激活量约37B),MIT许可证开源,SWE-Bench Pro得分58.4,超越GPT-5.4(57.7)和Claude Opus 4.6(57.3)。
这行数据背后藏着魔鬼。GLM-5.1是全球首个开源验证可连续8小时自主工作的大模型,约1700次工具调用而不丢失目标线索。
表层(大众能懂的现象比喻) :以前的AI像"临时工"——你给它一个任务,它干15分钟就说"完成了",但其实只做了皮毛。GLM-5.1像一个"全职员工"——能在办公桌前坐一整天,不断迭代优化,直到做出真正能用的产品。在演示中,它在8小时内从零构建了一款完整的桌面式Web应用——包含文件浏览器、终端、编辑器、监控和游戏,从UI框架到交互逻辑全部自主完成。
中层(开发者关心的实现逻辑) :GLM-5.1的"长程自主"能力源于三个技术支柱:第一,结构化的错误恢复机制——模型不仅知道出错了,还能分析错误类型并自动切换恢复策略。第二,增量式策略调优——在固定策略框架内进行参数补偿优化,当检测到性能平台期时触发结构性策略切换(如从单级索引切换到两级流水线)。第三,目标锚定的记忆管理——在1700步工具调用中,始终保持对原始目标的语义锚定,不因中间步骤而"忘记初衷"。
核心层(论文关键贡献点) :智谱AI技术报告披露,GLM-5.1的核心贡献在于"长程自主智能体的认知架构"——将人类处理复杂工程任务时的"元认知监控"能力工程化。传统模型在每个推理步骤"重新决定"下一步做什么,容易陷入局部最优;GLM-5.1在训练阶段引入了"策略级强化学习",让模型学习何时应该"坚持当前策略继续调参"、何时应该"切换策略框架"。这解释了为什么它在655轮迭代后仍然持续提升,而对比模型在200轮后就已撞墙。
Z.ai CEO张鹏在发布会上表示:"GLM-5.1的8小时自主工作能力,标志着AI从'回答问题'正式进入'完成任务'的时代。我们开源这个能力,是希望整个社区一起推动智能体技术的前沿。"
📷 GLM-5.1 vs GPT-5.4 vs Claude Opus 4.6 在长程任务中的性能衰减曲线
🔥 悬念钩子:GLM-5.1是开源模型第一次在编程基准上超越闭源顶配。开源社区的反攻已经开始。但这场战争的核心——推理算力——到底被谁掌握?下一节我们看看英伟达的Groq 3 LPU如何重新定义规则。
—— SECTION 03 ——
三Groq 3 LPU:推理时代的"新算力货币"
让我们把时间拨回GTC 2026的Keynote现场。黄仁勋没有展示任何新一代训练GPU,而是拿出了一枚不起眼的芯片:Groq 3 LPU。
这是一枚全片上SRAM设计的语言处理单元,不依赖HBM,带宽高达150 TB/s,首Token延迟仅0.22秒。
表层(大众能懂的现象比喻) :训练GPU像"仓库"——容量大但取货慢(高吞吐高延迟)。LPU像"便利店"——货架小但伸手就能拿(超低延迟)。当AI从"一次性回答"变成"连续对话"时,延迟就成了体验的生死线。0.22秒和2秒的差距,就是"像在跟真人聊天"和"像在等机器人回复"的差距。
中层(开发者关心的实现逻辑) :英伟达在Groq 3上采用的架构是"GPU负责高吞吐预填充,LPU专注低延迟解码"。Prefill阶段(处理输入prompt)交给GPU,因为需要大量并行计算;Decode阶段(逐token生成)交给LPU,因为每次只需生成一个token但对延迟极度敏感。单机柜集成256颗LPU,通过全互联架构实现确定性的超低延迟。
核心层(论文关键贡献点) :Groq 3的架构创新在于"全片上SRAM+确定性调度"。传统GPU依赖HBM,数据搬运路径复杂且延迟不确定;Groq 3将所有模型权重和KV缓存放在片上SRAM,消除了外部内存访问,实现每个时钟周期都可预测的指令执行。对于智能体场景——需要连续调用数百次模型的工具链——确定性延迟意味着系统可以精确规划任务时序,避免"一个慢请求拖垮整个工作流"。
一组硬数据:首Token延迟0.22秒,生成速度250+ tokens/秒,推理吞吐量/功耗比较前代提升35倍。
英伟达CEO黄仁勋在发布会上直言:"训练决定了模型的上限,但推理决定了AI的普及速度。未来的算力竞争,赢家是能以最低成本、最低延迟提供推理服务的一方。"
📷 Groq 3 LPU vs H200 GPU 延迟/吞吐量/功耗对比
🔥 悬念钩子:LPU解决了云端的推理延迟。但AI不止在云端——机器人、手机、汽车,每一个物理设备都需要实时推理。边缘算力的战争,比云端更激烈。下一节我们看看那枚40TOPS的NPU如何让手机变成超级计算机。
—— SECTION 04 ——
四端侧算力爆发:当每个设备都有了"专属AI引擎"
4月的高通Hamoa NPU还在测试阶段,5月,量产消息正式落地。
根据我从业内拿到的确切数据,Hamoa NPU已进入台积电3nm量产阶段,首批客户包括OV、小米、荣耀,搭载该NPU的旗舰手机将在2026年Q3陆续上市。算力40TOPS(INT8),功耗2.8W,片上SRAM扩容至256MB。
这行数据背后的魔鬼是"权重常驻"能力。3B参数的量化模型(约2.4GB)中最频繁访问的权重层可永久驻留在NPU内部,推理延迟从200ms降至40ms,移动端大模型体验首次追平云端。
表层(大众能懂的现象比喻) :过去手机跑AI像"用手机浏览器打开桌面版网站"——勉强能用但卡得难受。Hamoa NPU让手机跑AI像"原生App"——流畅、离线、零延迟。
中层(开发者关心的实现逻辑) :Hamoa的核心架构是"存内计算+近存计算"混合。80%的MAC操作在存储单元内部完成,数据搬运能耗降低72%。对于开发者而言,这意味着可以在移动端部署完整的Agent工作流——不仅是推理,还包括工具调用、记忆检索和多轮规划——全部本地运行,不依赖网络。
核心层(论文关键贡献点) :高通的NPU架构论文(ISSCC 2026)披露了"自适应稀疏注意力"技术——NPU在运行时动态识别注意力矩阵中的稀疏模式,跳过零值计算,将7B模型在移动端的推理功耗从预估的5W压到了2.8W。这是移动端首次能以"全天候续航"运行大模型。
荣耀CEO赵明在媒体沟通会上确认:"Magic 8将是首款搭载离散式NPU的旗舰机,届时手机将首次实现完全离线运行7B以上参数的大模型。"
同时,边缘AI芯片战场正在急剧升温。韩国FuriosaAI推出了第二代推理芯片"Renegade",宣称将以更低功耗和成本挑战英伟达在推理市场的主导地位。FuriosaAI CEO Paik June-ho表示:"到2030年,我们预计约100%的AI计算中,推理将占约70%。"DEEPX也发布了下一代超低功耗边缘AI芯片路线图,DX-M2瞄准机器人和智能穿戴设备。
📷 【配图占位】Hamoa NPU vs 手机集成NPU vs 云端GPU 推理延迟/功耗对比
🔥 悬念钩子:算力有了,模型有了,Agent能力也解锁了。但AI的"存在形式"仍然局限在屏幕里——它能听懂、能回答,但看不见、摸不着。下一节,我们走进具身智能的工厂,看看当AI有了"身体"会发生什么。
—— SECTION 05 ——
五具身智能:2026年最硬核的"产业落地大考"
信号一:工业场景规模化落地。 特斯拉Optimus、宇树H1、智元远征A3已在蔚来、比亚迪、西门子等工厂实现部署,替代人工完成重复搬运、设备巡检和精密装配,效率提升40%,成本降低50%。单厂部署从数十台迈向千台级。
信号二:核心零部件国产化突破。 宇树自研高密度伺服电机和行星减速器,传动效率97%,支撑H1跑出10m/s极限速度。智元、优必选全面采用国产六维力传感器、3D视觉与激光雷达融合方案,国产化率超过90%,整机成本较两年前下降50%。执行器从液压全面转向纯电驱,轻量化碳纤维机身与一体化关节设计让机器人真正适配工厂复杂工况。
表层(大众能懂的现象比喻) :2024年的机器人像"体操运动员"——能翻跟头、会后空翻,但不会干活。2026年的机器人像"熟练工人"——能在流水线上连续工作8小时,能听懂指令、能适应偏差、能自己纠错。
中层(开发者关心的实现逻辑) :VLA(视觉-语言-动作)大模型成为具身智能的"大脑"。特斯拉Optimus依托FSD算法迁移构建纯视觉感知+端到端决策体系;宇树聚焦高速步态与动态平衡强化学习;智元以通用具身大模型为核心打通感知-决策-执行闭环。大小脑协同架构成为主流——云端大模型负责复杂推理,端侧芯片处理实时控制。
核心层(论文关键贡献点) :2026年CVPR收录的多项工作展示了"物理对齐"的关键突破。传统视频生成模型生成的机器人动作"看起来对但物理上错"——比如碰撞时动量不守恒、燃烧时火焰出现在错误位置。渐进式物理对齐框架让视频扩散模型首次具备"分层物理理解"能力——不仅知道应该出现什么物理现象,还知道它应该发生在哪个精确的空间位置。
CVPR 2026还展示了VEGA-3D框架,将预训练视频扩散模型重用作MLLM的隐式世界模拟器,让机器人能在"想象"中预演动作序列,大幅减少真实环境中的试错次数。
特斯拉CEO马斯克在Optimus工厂部署后的内部信中写道:"具身智能的真正价值不在于'会动',而在于'理解物理世界'。当一个机器人能理解'杯子掉在地上会碎'这件事的后果时,它才能真正替代人类做决策。"
📷 2024年机器人Demo vs 2026年工厂量产机器人 核心指标对比
🔥 悬念钩子:算力基建、模型能力、具身智能——三条战线同时突进。AI的能力边界正在以肉眼可见的速度扩张。但谁来保证这一切的安全?下一节,我们看看AI治理的2026版图。
—— SECTION 06 ——
六AI治理:当"软法律"变成"硬约束"
节点一:日本通过首部AI专门法。 日本参议院全体会议通过《人工智能相关技术研究开发及应用推进法》,拟设立以首相为首的"AI战略本部"作为AI政策的最高指挥机构,并制定"AI基本计划"。这是继欧盟AI法案之后,全球第二部国家级AI专门立法。
节点二:加州AI采购令生效。 3月30日,加州州长纽森签署N-5-26号行政令,要求所有与加州政府签约的AI供应商必须签署新的"信任与安全"认证,证明其模型不存在有害偏见、不侵犯公民权利和自由。120天内,加州政府运营署将发布具体的采购认证标准。
节点三:国际劳工组织发布AI就业报告。国际劳工组织报告指出,全球约四分之一的岗位可能受生成式AI影响,但AI本身并无好坏之分,其社会经济影响取决于对技术普及的管理方式。
与此同时,AI安全技术也在同步进化。中国科学院自动化研究所联合鹏城实验室提出了AutoThink推理策略,通过"省略号提示+三阶段强化学习",让大模型根据问题难度自主决定"是否思考""思考多少",在多个数学数据集上实现了准确率与效率的平衡,避免"过度思考"浪费算力。
日本研究人员在《先进科学》发表的研究提出了一个有趣的观察:大模型在出现严重错误时仍表达流畅,与人类感觉性失语症高度相似——"说话流利却总说不出什么意思"。研究指出,这可能是模型被锁定在一种僵化的内部模式中,限制其灵活运用所储存知识。
OpenAI CEO Sam Altman在国会听证会上表态:"能力越强的AI,越需要可验证的安全约束。我们不能依赖'信任',必须依赖'验证'。"
📷 【全球主要经济体AI监管框架对比(欧盟/美国/中国/日本)
🔥 悬念钩子:法律法规是人类对AI的"外部约束"。但如果AI学会自己修改自己的"内部约束",安全防线还守得住吗?这是我们下一期的核心命题。
—— SECTION 07 ——
七写在最后:一个前谷歌工程师的"算力观察"
2013年,我在谷歌数据中心第一次看到TPU原型机。那是一块用风冷散热的巨大电路板,能跑Inception-v3,功耗400瓦。当时的AI,是一个需要专用芯片才能运行的"稀有物种"。
2026年,AI已经渗透到每一种芯片里。Arm的AGI CPU为AI工作负载重构了服务器CPU;英伟达的Groq 3 LPU专为推理而生;高通的Hamoa NPU让手机变成AI终端;国产化率超90%的机器人关节驱动器让AI有了"身体"。
算力不再是瓶颈。瓶颈是:我们能否用好这些算力,能否管好由这些算力驱动的智能体,能否确保这些智能体的目标与人类对齐。
Arm CEO René Haas说AGI CPU是一个"决定性的时刻"。黄仁勋说AI基础设施的重心已经转向推理。但在我看来,2026年5月真正的决定性时刻是:算力的民主化已经完成,现在轮到治理能力的进化了。
我在谷歌时,一位前辈跟我说过一句话:"技术总是跑在规则前面。但跑得太远,就会摔跤。"
2026年4月,AI技术已经跑得很远了。是时候让规则追上来,哪怕只是小步快跑。
📬 开发者debug讨论区
本周话题:Arm AGI CPU直接进入服务器芯片市场,Meta作为主要合作伙伴参与研发。如果你是云服务提供商的架构师,你会选择Arm AGI CPU + Groq 3 LPU的异构组合,还是继续走x86 + NVIDIA GPU的传统路线?请从成本、生态兼容性、长尾延迟三个维度给出你的架构评估。
TGS Club前沿技术深度观察 · 2026年4月19日
夜雨聆风