Agentic AI时代,国产GPU如何走进千家万户?

Token爆炸驱动算力需求持续攀升，为国产化浪潮提供了结构性窗口。

摩尔线程最近在北京举办的年度发布会信息量不小：夸娥万卡集群更新了训练指标，MT Lambda具身智能仿真平台首次公开，基于自研"长江"SoC的MTT AICUBE家庭AI中枢即将预售、面向开发者的MTT AIBOOK进行了全面升级。加上MUSA SDK 5.1.0的生态进展，摩尔线程试图描绘的版图很清晰：用同一套全功能GPU架构，打通云、边、端算力基础设施。

摩尔线程创始人、董事长兼CEO张建中一开场就提出一个概念：过去谈论IoT是Internet of Things，而今天的IoT应该叫Intelligence of Things。这个判断为整场发布会定下了基调——当一家国产GPU企业提出万物智能，传递出哪些讯号？我们又可以有哪些期待？

—

端侧AI爆火背后——

Token膨胀与算力迁移

国家数据局2026年3月披露的数据显示，中国日均Token调用量已突破140万亿，较2024年初增长超过1000倍。张建中在发布会上援引了这一数据，并指出Agentic AI时代，为产业提供多元的算力底座成为当前重点。

这一判断基本符合当前趋势。今年年初爆火的龙虾（OpenClaw），快速推动行业进入Agentic AI时代，同时也改变了算力消耗的结构性分布。虽然普通人仍在大量使用AI进行日常对话,但在整体的Token消耗占比中，智能体占比正在迅速扩大。值得注意的是，AI对话与智能体单次任务，所消耗的Token资源对比悬殊，极端复杂任务下，智能体消耗的Token数量甚至达到普通对话推理的 1000倍。这意味着，推理算力峰值正在从云端训练向高并发、长时段的端侧调用转移。

而真正将这股趋势转化为硬件刚需的，是三类云端无法完美覆盖的场景：隐私数据不能上云（人脸、语音、家庭影像）、弱网或断网环境必须离线可用、以及高频交互场景下云端API的边际成本会超过硬件的一次性购置成本。换句话说，Token迁移为端侧打开了空间，并且，隐私、时延与成本的三重约束，最终锁定了端侧AI的必要性。

—

国产全功能GPU，

布局端侧AI有何优势？

摩尔线程的端侧AI布局，是以自研智能SoC“长江”为算力支撑、以“小麦”智能体为核心的全场景、系统性展开。

首次亮相的智能家庭AI中枢MTT AICUBE，将智能体、AI PC和AI NAS三类能力集成于单一设备，用于解决家庭场景下算力分散、数据割裂的问题。围绕“家庭AI中枢”这一定位，AICUBE实现了三项能力的深度整合：

内置的“小麦”智能体预装60余项技能，可跨应用控制超36款APP，承担家庭的主动服务角色；全闪存AI NAS模块将人脸、语音等隐私数据留在本地，同时提供智能管理与检索能力；完整的桌面AI PC能力则覆盖观影、办公、学习、云游戏以及本地大模型运行等日常需求。6月18日，AICUBE将于在京东摩尔线程旗舰店开启预售。

如何看待摩尔线程面向家庭场景推出AICUBE？其实，除了前文所说的Token消耗结构变化所驱动，还有全功能GPU架构与全场景AI的天然适配，以及云边端闭环的驱动逻辑。

并非所有云端GPU公司都适合做端侧。摩尔线程的MUSA架构从一开始就走全功能GPU路线，同一套芯片承载AI计算、图形渲染、视频处理等多元任务，恰好能覆盖客厅场景中推理、云游戏、数字人并发的复杂需求。全功能架构的价值，进入端侧能够被更充分检验。

此外还有Token价值链的战略布局。随着Token经济时代的到来，终端入口正成为分配算力价值的关键节点。AICUBE根本上定位为家庭Token入口——让用户的AI消费在本地产生、本地消耗，同时从云边端闭环中获取推理服务与数据隐私的双重收益。云端负责规模化训练，端侧覆盖日常Agent调用，两端互补，完成算力版图双拼图。

面向开发者端，端侧AI终端MTT AIBOOK算力本也完成了全面升级。这款产品定位清晰——为智能体开发提供原生硬件平台。在MTT AIOS原生Linux系统下，AIBOOK预装“龙虾”智能体（OpenClaw），支持多智能体协作，覆盖从开发、调试到部署的完整闭环。值得关注的是其“工具直达”设计：提供90余个工具调用接口，大幅压缩开发者的环境配置成本；同时支持原生Linux、虚拟化Windows及容器化Android三套系统，并集成LLM、ASR、TTS、OCR等端侧感知模型，一台设备即可满足跨场景的开发与使用需求。

这些产品背后，是摩尔线程以“长江”智能SoC为核心的统一端侧算力平台。

不同于云端产品的尖端性能比拼，端侧的竞争逻辑不是造出最强芯片再入场，而是先用可量产的甜点级芯片定义产品和体验，迅速进入市场。长江SoC的50 TOPS异构算力就是当前工艺条件下可快速量产、容易被开发者适配的节点，不论是成本和功耗的可控性，还是跨过百亿参数大模型本地化的关键门槛，它都精准抓住了定义端侧体验的窗口期。

除AICUBE与AIBOOK外，还有面向嵌入式边缘场景的MTT E300 AI模组。E300支持混合精度计算，在严苛环境下可稳定运行，目标场景覆盖工业质检、能源巡检、智慧教室、具身智能、智能汽车及低空经济等领域，提供高效、低延迟、强可靠的边缘AI能力。至此，从个人开发到家庭智能再到行业边缘，基于“长江”SoC的端侧和边缘产品矩阵已基本成型。

—

具身智能：

物理AI的全栈闭环

端侧AI可以把智能体带到生活中，不过，更进一步的问题是：如何让智能体进入物理空间，与人在真实环境中协作？这就是物理AI要回答的问题。

万物智能的时代，需要训练出能够理解物理规律的具身智能——无论它的载体是人形机器人、机器狗，还是其他移动装置。这次会上，摩尔线程给出的方案，是从模型训练、技能学习到动作生成的全链路平台，并在仿真环境中完成验证，确保虚拟训练与真实表现对齐。用张建中的话说，“不只要训练好，还要在仿真里真正跑一遍”。这构成了摩尔线程在具身智能领域的核心能力布局：一个可训练、可仿真、可验证的物理AI训练底座。

最新发布的MT Lambda仿真平台，是国内首个全栈国产化具身智能仿真平台，直击行业当前三大痛点——数据稀缺、真机训练风险高、场景不可泛化，通过整合物理、渲染、AI引擎，让机器人在虚拟环境中完成从训练到验证的全流程。

物理仿真层面，集成MuJoCo Warp MUSA等开源后端与自研AlphaCore引擎，典型负载下仿真吞吐效率提升约30倍；图形渲染层面，融合光线追踪、混合渲染与3DGS高斯溅射技术，搭载自研MT AGR生成式渲染，实现高保真实时渲染；AI层面，深度适配PyTorch的Torch-MUSA框架，全面支持VLA模型开发与强化学习、模仿学习双范式，为具身智能体的感知、决策与自主学习提供训练推理底座。

这一技术平台的稀缺性在于，多数AI芯片公司只能在训练环节发力，仿真依赖国外GPU，端侧部署又另需一套方案，三套异构系统割裂导致开发效率低下、Sim2Real差距难以弥合。而MT Lambda凭借全功能GPU的统一架构，在同一芯片上同时承载AI计算、图形渲染与物理仿真，首次实现了“训练—仿真—部署”在同一体系下的闭环。

—

万卡之上，

国产算力的硬指标是什么？

对于国内模型公司而言，大模型训练是刚需，但让他们将训练任务从用了3-5年的国外集群迁移出去，挑战极大。张建中在会上点出了一个关键问题：“软件并不是真正的原因，兼容也不是真正的原因，关键是能不能有一个稳定的集群。”集群能否7×24小时稳定运行，是一切的前提。

这正是摩尔线程打造夸娥万卡集群时最关心的核心指标。最新数据显示，该集群浮点运算能力达到10 Exa-Flops，在Dense大模型训练中的模型算力利用率（MFU）为60%，在MoE大模型上40%，有效训练时长达90%，训练线性扩展效率达95%，并在原生FP8精度下完整复现了顶尖大模型的训练流程。

这些数据其实直接回答了行业对国产算力最大的两个质疑：稳定性够不够、训练精度对齐了没有。因为只有确保每一个训练步骤能够和国际主流产品保持精度对齐，才能实现模型不光训得好、还能稳定、可靠，从而让大模型放心地迁移到国产集群上进行训练。

而再切换到推理角度，问题又有不同——推理更像一个解决方案、一个系统工程，而非单颗芯片的较量。

面对语言模型、视觉模型、多模态模型、MoE、Dense乃至VLA等千差万别的模型类型，很难用一颗芯片同时满足算力、带宽、存储的全部需求，因此，推理必须依靠异构方案来覆盖不同场景。

张建中谈到，更重要的是如何通过基础设施去适配千差万别的应用场景。摩尔线程重点保障软件的兼容性。目前，DeepSeek、GLM、Kimi、MiniMax、Qwen等国内主流开源模型均能在夸娥推理集群上稳定运行，且支持范围从语言模型延伸至视觉模型、多模态模型，覆盖了从云端集群到终端设备的多元推理需求。

—

结语：

国产算力的主场竞争，刚刚开始

摩尔线程的云、边、端版图已清晰可见，更重要的是，作为贯穿摩尔线程全功能GPU硬件与全栈软件体系的底层架构，MUSA已全面实现对业界主流CUDA生态的深度兼容。据介绍，最新发布的MUSA SDK 5.1.0，对标CUDA 12.8，从驱动与运行时新增248个API，兼容接口数达到761，到核心数学库的100%对齐，从覆盖55类核心AI算子，到完整支持PyTorch全部3194个算子，MUSA软件栈全链路覆盖了底层驱动、编译器、算子加速库、训练与推理框架，让国产GPU真正具备“即插即用”的开放能力。

当然，除了全栈变换和深度兼容，国产算力蓬勃发展的背后还有一个更大的产业图景。Token爆炸驱动算力需求持续攀升，为国产化浪潮提供了结构性窗口。在这个历史性节点上，国产算力的真正竞争力，不仅要看云端万卡集群能否跑通大模型训练，也要看端侧设备能否真正走进千家万户、赋能千行百业——真正的竞争才刚刚开始。

欢迎添加「dongxin2050ai」.