AI ≠ 大模型
从人形机器人、自动驾驶到AI for Science——被误读最多的AI概念
2026.05.22 · 行研猿
核心判断: "大模型"正在成为AI的泛指代名词,但这是危险的误解。人形机器人的智能核心是强化学习+运动控制+视觉架构,跟GPT、Claude这类语言模型几乎无关。自动驾驶用的是视觉Transformer,不是文本Transformer。AI for Science的核心创新是物理编码和对称性约束,不是更大的语料库。本文重点把这几个概念分开讨论。
问一个问题:
当你说"我认为人形机器人需要搭配大模型才有竞争力",你认为的"大模型"是什么?
如果你回答"GPT、Claude、DeepSeek这类语言大模型"——那你就被当前的话语体系带偏了。人形机器人的核心智能,跟大语言模型关系不大。
这不是咬文嚼字。"AI=大模型"这个等式一旦被默认接受,会产生一连串的实际后果:
- 企业把经费全砸向LLM,忽视了同样重要的AI方向
- 政策围绕语言模型制定,自动驾驶、机器人、科研AI成了盲区
- 战略判断失误——以为"大模型能解决一切",忽略了每个领域真正需要的AI技术栈完全不同
一张图看清:AI ≠ 大语言模型
很多人把"AI"等同于"大语言模型(LLM)",但LLM只是AI家族树上的一个分支。整个AI生态远比这个丰富:
AI 家族谱系(简化)
├─ 计算机视觉
│ ├─ CNN → 物体检测、图像分类、工业质检
│ └─ Vision Transformer → BEV感知、3D理解
├─ 图神经网络(GNN) → 材料发现、蛋白质设计、分子动力学
├─ 扩散模型 → 分子生成、图像视频生成、运动轨迹规划
├─ 传统机器学习
│ └─ SVM/随机森林/GBDT → 风控、推荐、时序预测
├─ 神经算子(Neural Operator) → 气象预测、流体模拟
└─ 大语言模型(LLM) ← 这只是其中一条线
├─ GPT/Claude/DeepSeek → 对话、代码、文本生成
└─ 多模态LLM → 图文理解、视频分析
每个分支的输入格式、计算逻辑、优化目标完全不同。把"AI"等同于LLM,等于把"交通工具"等同于"飞机"——飞得快是真的,但运煤炭不可能靠飞机。
人形机器人:最容易被误读的AI领域
"具身智能""人形机器人"是2025-2026年最热的概念之一。但很多人对它的AI技术栈存在根本性的误解。
最常见的说法:"人形机器人接入大模型(如GPT-5),就能听懂人话、自主行动。"
这句话对了一半,错了一半。
对的一半:LLM确实可以用来做人机对话的接口——用户说"把桌子的杯子拿过来",LLM能理解意图。但这只是机器人智能链条中最顶层、最轻量的一环。
错的一半:从"理解了意图"到"走过去、避障、伸手、抓取、不把杯子捏碎",这个链条上的每一个环节,用的都不是LLM。
人形机器人的AI技术栈拆解
| 智能模块 | 核心技术 | 用LLM吗? |
|---|---|---|
| 人机交互/意图理解 | LLM / 语音识别 | ✅ 用 |
| 环境感知 | 3D视觉(CNN/ViT)+ 深度估计 + SLAM | ❌ 不用 |
| 运动控制 | 强化学习(RL)+ 模型预测控制(MPC) | ❌ 不用 |
| 避障/导航 | 语义SLAM + 3D occupancy prediction | ❌ 不用 |
| 灵巧操作/抓取 | 扩散策略(Diffusion Policy)+ RL + 触觉传感 | ❌ 不用 |
| 高层任务规划 | LLM / VLM(视觉语言模型)做任务分解 | ⚠️ 部分用 |
LLM在人形机器人中扮演的角色,大约相当于人类大脑的"前额叶"(理解语言、做高层次计划),但"小脑"(运动协调)和"体感皮层"(触觉反馈)一点关系都没有。
一个残酷的事实: 让人形机器人"走稳"的难度,远大于让它"听懂人话"。而"走稳"用的是RL(强化学习),不是LLM。全球顶尖的人形机器人公司——波士顿动力、特斯拉Optimus、Figure AI——他们的核心竞争力来自运动控制算法,不是来自ChatGPT。
这不是说LLM对人形机器人没有价值。Figure AI和OpenAI的合作就是典型案例——LLM让机器人能理解多步骤指令,提高了实用性和"智能感"。但如果你以为"人形机器人的AI进步等价于大语言模型的进步",那就搞反了因果:让机器人走好、拿稳、不摔,比让它说好话难十倍。
产业误导的最大风险就在这里:如果一家公司说"我们给机器人接入了大模型",听起来像在提升核心竞争力,实际上接入的只是一个非常表层的组件。真正的内核——运动控制算法、感知系统、触觉反馈——跟大模型无关。
自动驾驶:用了大模型,但不是那种大模型
"自动驾驶用不用大模型"这个问题的答案比人形机器人复杂一些。
Tesla FSD V12、华为ADS 3.0、Waymo的感知系统——这些确实在用 transformer架构,而且模型规模几亿到几十亿参数,勉强可以叫"大模型"。
但很多人一听到"大模型",就默认理解为"ChatGPT那种语言模型"——这是最大的误解。
核心区别:
• 语言模型处理的是 Tokenized Text(单词序列)
• 自动驾驶模型处理的是 BEV Feature(鸟瞰视角特征)+ 点云 + 时序轨迹
• 优化目标不同:语言模型做"下一个词预测",自动驾驶做"自车轨迹规划"
两者都用了transformer架构,但tokenization的方式、输入空间、优化目标完全不同。自动驾驶用的Transformer改名叫"感知Transformer"或"决策Transformer",不是语言模型。
一些厂商把LLM作为"辅助决策大脑"——比如用LLM判断"前方有特种车辆,该让行"这种需要常识推理的场景。但这是锦上添花,不是主干。去掉LLM,L2+级别的自动驾驶照常跑。去掉感知Transformer,整个系统原地瘫痪。两件事不在一个量级。
AI for Science:最不该用大模型的领域
如果说人形机器人和自动驾驶的误解是"用了大模型但不是LLM",那AI for Science的误解可能更严重——很多人以为AI for Science的进步来自更大的LLM。
事实恰恰相反。AI for Science领域真正的突破,几乎都来自把物理规律编码进模型架构——这是和"让模型读更多文本"完全不同的思路。
| 标志成果 | 核心技术 | 和LLM的关系 |
|---|---|---|
| AlphaFold 3 | 进化信息编码 + 物理约束transformer | 无关 |
| Pangu-Weather | 3D Vision Transformer + 傅立叶神经算子 | 无关 |
| GNoME(材料发现) | 图神经网络(GNN) | 无关 |
| 分子生成 | 扩散模型 + 等变神经网络 | 无关 |
| AlphaGeometry | 符号引擎 + 神经引导 | 仅作为引导模块 |
AlphaFold没有读过一个氨基酸的文本描述——它的输入是进化耦合矩阵,不是自然语言。气象模型的输入是经纬网格上的气压和温度,不是天气预报的文章。材料发现的输入是原子结构和晶体对称性,不是材料学的论文库。
LLM确实在AI for Science中扮演越来越重要的角色——帮助科学家读论文、写实验方案、分析数据。但那是辅助角色。真正发现科学规律的"硬计算",用的是图神经网络、扩散模型、神经算子——都不是LLM。
如果把AI for Science的经费重点投向"训练更大的语言模型",等于在火车时代把资源砸在更好的马鞭上。
为什么这个区分可能影响几十亿的投资方向?
资源错配风险
如果一个组织说"我们重点研究AI",然后把所有经费投向了LLM——等于无视了自动驾驶、人形机器人、药物发现、气候模型这些同等重要的领域。想象一下:2025年如果把本该投给RL和运动控制的人才预算,全部投给了LLM训练——那个人形机器人团队就废了。
政策盲区
如果AI政策围绕大模型来制定(算力补贴、数据合规、算法备案),会漏掉:自动驾驶的L3/L4责任认定、人形机器人的物理安全标准、AI for Science的开源科研数据共享机制。这些领域需要完全不同的监管框架。
产业误导
大量的"AI"产品在打擦边球——用CNN做工业质检的硬说自己在做"行业大模型",招到了懂Prompt Engineering但不了解动力学的人来做人形机器人。这种混淆让真正的专业讨论难以展开,也让资本流向不该去的地方。
认知偏差:"大模型能解决一切”
人形机器人需要的不是更好的文本生成,是更好的运动控制和触觉反馈。自动驾驶需要的不是更大的语料库,是更精准的3D感知和决策推理。AI for Science需要的不是更大的LLM,是更精确的物理建模。每个领域有其自身的技术瓶颈,语言模型不是万能钥匙。
给决策者的三条建议
在内部报告和战略讨论中,停止用"大模型"泛指"AI"。明确区分LLM、视觉模型、RL、GNN、扩散模型。当同事说"我们做AI",追问一句"具体哪个方向?"——这个追问是最低成本的投资回报率提升手段。
AI泡沫带来的最大负面影响不是过热,而是"挤出效应"——大量人才和资本涌入LLM,导致运动控制、图神经网络、神经算子、触觉传感等方向被相对忽视。这些被挤出的领域,往往是下一个突破的爆发点。
当一家机器人公司说"接入了大模型",查清楚接入的是什么。如果接入的是GPT的API做对话,那它改的不是核心竞争力。真正在运动控制和感知上有突破的公司,不需要用"大模型"这个词来包装自己。
— 结语 —
"让人形机器人走稳比让它说话难十倍。
把AI等同于大模型,是2026年最昂贵的认知偏差。"
大饶 · 2026.05.22
本文为行业分析,不构成投资建议。技术描述基于公开论文和产品信息整理。
夜雨聆风