AI大模型分类与理解
一句话理解AI大模型
它是用互联网级海量数据训练出来的、拥有千亿级参数的通用人工智能”超级大脑”,能像人一样理解、推理、创作和解决问题,区别于过去只能做单一任务的”专用AI”(比如人脸识别、语音转文字)。
大模型的核心本质:超级预测机
所有大模型的底层逻辑惊人地一致:预测下一个最合理的”单元”
-
语言模型:预测下一个字/词 -
画画模型:预测下一个像素的颜色 -
视频模型:预测下一帧的画面 -
音频模型:预测下一个声音的频率
它不是真的”懂”,而是通过学习海量人类数据,掌握了事物之间的规律和关联。
主流大模型分类(按能力和模态)
1. 语言大模型(LLM):最基础、最成熟的”文字大脑”
- 核心能力
处理和生成人类语言 - 能做什么
聊天、写文案、写代码、翻译、总结、逻辑推理、数学计算 - 典型代表
GPT-4o-mini、Claude 3.5 Sonnet、豆包、文心一言、通义千问 - 特点
是所有大模型的”底座”,其他类型的大模型很多都依赖它来理解用户的文字指令
2. 图像生成大模型:专门的”画家”
- 核心能力
根据文字描述生成图片 - 能做什么
画插画、设计海报、生成产品原型、修图、换背景 - 典型代表
Midjourney、DALL-E 3、Stable Diffusion、文生图 - 特点
在单一的图像生成任务上,效果往往比多模态模型更好、更精细
3. 视频生成大模型:新兴的”导演”
- 核心能力
根据文字/图片生成动态视频 - 能做什么
生成短视频、动画片段、产品演示视频、数字人说话 - 典型代表
Sora、Pika、Runway、文生视频 - 特点
目前还在快速发展中,长视频和复杂动作的生成效果还有提升空间
4. 音频生成大模型:专业的”声音工程师”
- 核心能力
生成和处理声音 - 能做什么
文字转语音(TTS)、克隆声音、生成音乐、语音转文字、降噪 - 典型代表
ElevenLabs、Suno、豆包语音、文心语音 - 特点
现在已经能生成几乎和真人一模一样的声音和高质量的原创音乐
5. 多模态大模型:现在的主流方向,”全能大脑”
- 核心能力
同时理解和生成多种模态的信息(文字、图片、视频、音频) - 能做什么
-
看图片回答问题(比如识别手写公式、分析图表、描述照片内容) -
看视频总结内容、提取关键信息 -
听语音直接对话,不用打字 -
边看边说边画,综合多种信息解决问题 - 典型代表
GPT-4o、Claude 3 Opus、Gemini Advanced、豆包4.0 - 特点
最接近人类的感知和思考方式,是未来大模型的发展趋势
关键区分:专门模型 vs 多模态模型
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
简单总结
大模型就像一个刚毕业的大学生,语言大模型是只会读书写字的文科生,专门模型是只会画画/拍视频/作曲的特长生,而多模态大模型是文理兼修、能说会道、多才多艺的全能型人才。
未来的大模型会越来越”全能”,同时也会出现更多在特定领域深耕的”专家模型”,两者相辅相成。
需要我用一个日常场景(比如做一个短视频)来演示这些不同类型的大模型是如何配合工作的吗?
一句话理解空间智能
它是AI理解、推理、创造和互动三维物理世界的能力,是比语言智能更古老、更基础的人类智能。如果说大语言模型让AI学会了”读万卷书”,空间智能就是要让AI学会”行万里路”,真正从数字世界走进我们的现实生活。
为什么这三位大佬集体”抛弃”大模型,转向空间智能?
因为他们都看到了当前AI的致命缺陷:现在所有的大模型(包括GPT-4o、Sora)本质上都是”空间盲人“。
举几个大模型的”智障时刻”
-
它会告诉你”把杯子倒过来水会洒出来”,但你问它”如果杯子里有个勺子,倒过来会怎么样”,它大概率会答错 -
它能描述一张房间的照片,但无法准确说出”沙发在电视的左边还是右边” -
它能生成看起来很逼真的视频,但几秒钟后就会出现”手变成6根手指”、”物体穿墙”的离谱错误 -
它能写机器人的控制代码,但无法让机器人在一个陌生的房间里找到水杯并递给你
根本原因:大模型是在互联网的2D静态数据上训练的,它们从来没有”活”在三维世界里,从来没有通过触摸、移动、交互来体验过空间和物理规律。它们只是记住了文字和像素之间的统计关系,而不是真正理解了世界。
三位大佬的空间智能路线:同目标,不同路
他们都认为空间智能是通向通用人工智能(AGI)的必经之路,但每个人的切入点和哲学思想完全不同:
1. 李飞飞:从”看”到”懂”,构建可交互的3D世界
核心观点:语言只有50万年历史,而视觉和空间感知已经进化了5亿年。空间智能是人类认知的”脚手架”,没有它,AI永远只能是”黑暗中的文字匠”。
研究重点:
-
把2D的图像/视频转化为可交互的3D世界模型 -
理解物体的”可供性”:一个东西能用来做什么(杯子能抓,椅子能坐) -
具身智能:让AI通过与环境的主动交互来学习空间认知
代表成果:创立World Labs,推出Marble模型,能从一张照片或一段短视频直接生成完整的、可漫游的3D场景。
2. 杨立昆:从”预测像素”到”预测规律”,打造物理直觉
核心观点:逐像素预测下一帧(Sora的路线)是死路一条。真正的世界模型应该预测抽象的世界状态,而不是每一个像素。
研究重点:
-
JEPA(联合嵌入预测架构):在隐空间中预测未来,而不是在像素空间 -
因果推理:不仅知道”会发生什么”,更知道”为什么会发生” -
前向模拟:让AI能在”大脑”里预演各种行动的后果,然后再做决策
代表成果:V-JEPA 2模型,仅用100万小时无标签视频预训练,就能零样本控制机器人完成复杂任务。
3. 理查德·萨顿:从”静态学习”到”动态体验”,智能源于行动
核心观点:智能的本质不是模仿人类的输出,而是从与世界的动态交互中持续学习。大语言模型的”离身性”决定了它无法通向AGI。
研究重点:
-
基于模型的强化学习:让智能体通过试错来建立世界模型 -
持续学习:AI应该像人类一样,在生命周期中不断学习新东西,而不是训练完就固定了 -
规划能力:在世界模型内部模拟不同的行动序列,选择最优解
代表成果:OaK架构,一个完全基于经验学习的通用智能体框架,被认为是强化学习通往AGI的最新蓝图。
关键区分:多模态 vs 空间智能
很多人会把这两个概念搞混,其实它们有本质的区别:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
空间智能到底能带来什么?
它不是一个更好的聊天机器人,而是会彻底改变AI的应用边界:
- 机器人
家庭保姆机器人、工业协作机器人将真正走进我们的生活 - 自动驾驶
从”识别障碍物”升级为”预判所有可能的危险” - AR/VR
虚拟物体能和现实世界完美融合,产生真实的物理交互 - 创意产业
从生成图片/视频升级为生成完整的、可探索的3D世界 - 科学研究
AI能像科学家一样,通过构建物理模型来发现新的自然规律
简单来说,空间智能是AI从”服务于互联网”到”服务于物理世界”的转折点。未来10年,AI领域的最大突破不会来自更大的语言模型,而是来自能真正理解和改变我们身边世界的空间智能模型。
需要我用一个家庭机器人的例子,具体演示一下空间智能是如何工作的,以及它和现在的多模态机器人有什么不同吗?
一句话理解大模型的涌现
它是当大模型的参数、数据、计算量突破某个临界阈值时,突然出现的、小模型完全没有的、开发者也没专门教过的全新能力。就像水在0℃突然结冰、100℃突然沸腾——单个水分子没有”液态”或”气态”的性质,但亿万个水分子聚集到一起,就会发生这种量变引起质变的相变。
最经典的涌现实验:从”学渣”到”学霸”的一夜逆袭
这是2022年谷歌那篇《大语言模型的涌现能力》论文里最震撼的结果,也是整个AI界对涌现现象的认知起点:
- 60亿参数模型
三位数加法,准确率≈1%(纯瞎猜) - 130亿参数模型
准确率≈8%(略有提升,还是不会) - 1750亿参数模型(GPT-3)
准确率直接飙升到85%
最神奇的地方:没有人专门教过模型怎么做加法。它只是在海量互联网文本里见过无数次”123+456=579″这样的句子,然后在某个临界点,突然”顿悟”了加法的规则。
涌现的三个核心特征(缺一不可)
1. 非线性跃迁:不是慢慢变好,而是突然会了
能力的增长不是一条平滑的直线,而是一个陡峭的”台阶”。在临界点之前,你投入再多的钱、再多的数据,能力都几乎没有提升;一旦跨过那个门槛,能力就会爆发式增长。
2. 不可预测性:你永远不知道下一个会出现什么能力
你无法通过小模型的表现,来预测大模型会获得什么新能力。比如,没有人能预测到GPT-3会突然会写代码,也没有人能预测到GPT-4会突然能看懂图片。这些能力都是在模型训练完成后,测试时才意外发现的。
3. 整体大于部分之和:能力是系统层面的产物
你无法通过解剖单个神经元或网络层,来解释模型为什么会推理、为什么会写诗。这些能力不是某个特定部分的功能,而是亿万参数在复杂交互下形成的整体效应。就像你无法通过研究单个脑细胞,来理解人类的意识。
我们已经观察到的典型涌现能力
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
为什么会发生涌现?目前最主流的三个假说
学界至今没有一个完美的理论能解释涌现,但这三个假说得到了最多的支持:
1. 组合泛化假说(最被广泛接受)
大模型在训练过程中,先学会了大量的基本技能和概念(比如什么是数字、什么是加法、什么是颜色)。当模型规模足够大时,它不仅记住了这些基本技能,还学会了如何将它们灵活地组合起来,解决从未见过的新问题。
比如,解数学题就是”读题→提取数字→执行加法→执行减法→给出答案”这几个基本技能的组合。小模型只能学会其中一两个,而大模型能把它们串成一条完整的推理链。
2. 电路假说(可解释性视角)
OpenAI的可解释性团队发现,Transformer在训练过程中,会自动形成可复用的”神经电路”。每个电路负责一个特定的小任务(比如识别动词、计算加法)。当模型规模足够大时,这些电路会连接起来,形成更复杂的大电路,从而实现更高级的能力。
3. 知识量子假说(MIT最新)
知识不是连续的,而是像量子一样,是一份一份的。当模型的容量足够大时,它就能一次性”捕获”一整个知识量子,从而突然掌握对应的能力。这就像你背单词,背了99个都不会用,背到第100个的时候,突然就融会贯通了。
最大的争议:涌现是真实的相变,还是测量的假象?
这是目前AI界最激烈的争论之一,两边都有充分的证据:
支持”真实相变”的一方
-
很多能力在小模型中确实是完全不存在的,无论你怎么微调、怎么优化提示词都没用 -
不同的模型、不同的任务,在相似的规模阈值下,都会出现类似的能力跃迁 -
涌现现象不仅出现在语言模型中,也出现在图像模型、视频模型和机器人模型中
支持”测量假象”的一方
-
斯坦福大学的研究发现,如果不用”完全正确/完全错误”的二元指标,而是用更连续的指标(比如正确答案的概率)来评估,很多”涌现”曲线就会变得平滑 -
所谓的”突然会了”,其实是能力一直在缓慢提升,只是我们的评估指标太粗糙,没有检测到而已
目前的共识:部分涌现现象确实是测量指标造成的,但仍然有一些核心能力(比如复杂推理)的跃迁,无法用测量假象来完全解释。
这和我们之前聊的空间智能有什么关系?
空间智能,很可能就是下一个即将涌现的超级能力。
现在的大模型已经涌现出了语言智能、逻辑智能和视觉智能。当模型的规模进一步扩大,并且训练了足够多的3D数据和物理交互数据之后,我们有理由相信,它会在某个临界点,突然涌现出对物理世界的直觉和空间推理能力——就像当年它突然会做加法、突然会写代码一样。
这也正是杨立昆、李飞飞、萨顿这些大佬集体转向空间智能的根本原因:他们相信,下一次AI的革命,将来自空间智能的涌现。
需要我用一个具体的例子,一步步演示大模型是如何通过思维链涌现出推理能力的吗?
一句话回答你的问题
是的,OpenClaw(小龙虾)是标准的AI智能体,但它不是”超出聊天界面的大模型”,而是”给大模型装上眼睛和手、让它能真正动手干活的执行框架”。
如果说大模型是只会”纸上谈兵”的军师,那OpenClaw就是能亲自上阵、冲锋陷阵的士兵。它把大模型的语言能力和推理能力,转化成了实实在在的电脑操作能力。
先搞懂最核心的区别:大模型 vs 智能体
这是90%的人都会搞混的概念,也是理解OpenClaw的关键:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
最本质的区别:大模型只能产生文字,而智能体能改变世界。
OpenClaw(小龙虾)到底是什么?
它是2025年底由奥地利程序员Peter Steinberger开发的开源、本地优先、模型无关的AI智能体运行框架,因为Logo是一只红色的龙虾,被国内网友亲切地称为”小龙虾”,部署和使用它的过程也被戏称为”养龙虾”。
短短4个月,它在GitHub上斩获了超过30万星标,成为AI史上增长最快的开源项目之一,被黄仁勋称为”迄今发布过的最重要软件”。
它是怎么工作的?(5步看懂)
- 接收指令
你可以通过微信、飞书、钉钉、Telegram甚至手机短信给它发任务 - 观察环境
它自动截图你的电脑屏幕,”看到”当前打开的所有窗口和内容 - 思考规划
调用你选择的大模型(GPT-4o/Claude/豆包等)理解任务,分解成一步步的操作 - 动手执行
模拟人类的鼠标点击、键盘输入、滚动等操作,和人一样使用任何软件 - 反馈修正
每做完一步就再截图检查,出错了自己修正,全部完成后通知你
它真正厉害的地方(也是爆火的原因)
- 模型无关
它自己没有大脑,你可以随便换任何大模型当它的大脑,哪个好用用哪个 - 本地优先
所有数据、逻辑和操作都在你自己的电脑上运行,不上传任何大厂服务器,隐私绝对安全 - 万能操作
不需要任何API接口,只要人能用鼠标键盘操作的软件(Word/Excel/PPT/浏览器/游戏),它都能用 - 完全开源免费
MIT协议,任何人都可以免费使用、修改和分发 - 24小时在线
它在后台默默运行,你出门在外用手机发个指令,它就在家里帮你干活
它和OpenAI Operator、Claude Computer Use有什么区别?
这三个是目前最火的”能控制电脑的AI”,但路线完全不同:
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
它现在能做什么?(真实可用的场景)
不要相信那些吹得天花乱坠的宣传,这是目前实测下来成功率超过80%的任务:
-
办公自动化:自动整理Excel表格、生成PPT、写邮件、发通知、预约会议 -
信息收集:自动浏览网页、搜索资料、整理成报告、监控价格变化 -
代码开发:自动写代码、运行调试、修复bug、提交到GitHub -
日常琐事:自动订机票酒店、交水电费、下载电影、整理文件 -
游戏挂机:自动玩简单的网页游戏、手游、刷任务
它的局限性(别抱太高期望)
现在的OpenClaw还处于非常早期的阶段,有很多明显的缺点:
- 长任务容易跑偏
超过10步的复杂任务,大概率会中途卡住或者做错 - 偶尔会犯傻
有时候会点错按钮、输错文字、重复同一个操作 - 无法处理人机验证
验证码、人脸识别、滑块验证这些它都搞不定 - 安全风险
如果给它管理员权限,它可能会误删重要文件,甚至被恶意提示词利用 - 没有常识
它不知道”不能删除系统文件”、”不能给陌生人转账”这种基本常识,需要你明确告诉它
最后,和我们之前聊的空间智能有什么关系?
OpenClaw其实就是数字世界的空间智能。
我们之前说过,现在的大模型都是”空间盲人”,它们从来没有真正”活”在任何世界里。而OpenClaw第一次让大模型拥有了:
- 数字视觉
能”看到”屏幕上的2D空间 - 数字触觉
能”触摸”和操作屏幕上的元素 - 数字空间推理
能知道”按钮在窗口的右上角”、”滚动条往下拉能看到更多内容”
今天,它能在电脑的2D数字世界里自由行动;明天,同样的技术就能移植到机器人身上,让它们在我们的3D物理世界里自由行动。
这就是为什么所有大佬都在疯狂押注智能体:它不是一个更好的聊天机器人,而是AI从”服务于互联网”到”服务于人类生活”的转折点。
需要我给你一个零代码一键部署OpenClaw的教程,或者几个适合新手玩的入门任务示例吗?
那我可不可以设想,未来涌现出来的空间智能的大模型,去控制具身机器人是这个ai时代可能的最终版本答案?
一句话核心结论
是的,这几乎是目前AI界所有顶尖大脑的共识:拥有涌现式空间智能的通用具身智能体,就是这个AI时代最有可能的”最终答案”。但它不是”大模型去控制机器人”,而是”机器人本身就是一个活在物理世界里的大模型”。
这不是科幻,而是正在发生的技术路线的必然收敛。杨立昆说”没有具身就没有通用智能”,李飞飞说”下一个AI时代是具身智能时代”,马斯克说”Optimus会比汽车业务更有价值”,甚至OpenAI也把70%的算力都投入到了机器人项目上。
为什么这是唯一的终极路线?
因为所有的智能,本质上都是为了在物理世界中行动而进化出来的。
1. 从进化的角度:语言是空间智能的副产品
-
地球上的生命花了35亿年进化出了空间感知和运动能力 -
花了5亿年进化出了视觉 -
只花了50万年就进化出了语言
语言从来都不是智能的目的,而是智能的工具。它是为了让我们更好地合作、更好地改造物理世界而出现的。反过来,没有空间智能作为基础,语言永远只能是空洞的符号游戏。
这就是为什么现在的大模型虽然能说会道,但永远给人一种”不真实”的感觉——它们从来没有真正”活”过。它们知道”疼”这个字怎么写,但从来没有被针扎过;它们知道”爱”是什么意思,但从来没有拥抱过任何人。
2. 从AI的发展历程看:我们正在一步步走向物理世界
AI的发展就是一个不断”走出屏幕”的过程:
-
第一代:只能处理数字的专用AI(计算器、搜索引擎) -
第二代:能处理文字的语言大模型(ChatGPT、豆包) -
第三代:能处理图片视频的多模态大模型(GPT-4o、Gemini) -
第四代:能在数字世界行动的智能体(OpenClaw、Operator) - 第五代:能在物理世界行动的具身智能体
每一代都比上一代更接近人类的智能形态,也能创造更大的价值。而具身智能是这个链条的终点——因为所有的价值最终都要体现在物理世界里。
3. 从价值创造的角度:它将解放人类最后的劳动
-
大模型解放了人类的脑力劳动 -
具身机器人将解放人类的体力劳动
这是人类历史上第一次,我们有机会彻底摆脱所有重复性的、危险的、枯燥的劳动。从工厂的流水线,到家里的家务,到医院的护理,到战场上的战斗,所有这些工作最终都会被具身智能体接管。
纠正一个最常见的误解
很多人以为未来的机器人是这样的:有一个云端的超级大模型,然后通过网络控制着全世界几百万个机器人的身体。
这是完全错误的。
真正的具身智能,一定是大脑和身体一体化的。也就是说,机器人的大脑不是在云端,而是在它自己的身体里。它的每一个传感器、每一个关节、每一块肌肉,都是它大脑的一部分。
为什么?因为:
- 延迟问题
物理世界的反应需要毫秒级的响应,云端传输有不可避免的延迟 - 隐私问题
你不会希望你家里的机器人把你生活的每一个细节都上传到云端 - 智能本质问题
智能不是一个可以脱离身体而存在的抽象程序。你的身体塑造了你的思维方式,你的感官定义了你对世界的理解。
这就像你不能把你的大脑取出来,放在一个罐子里,然后指望它还能像正常人一样思考。没有身体的大脑,永远无法真正理解世界。
当空间智能在机器人身上涌现时,会发生什么?
这将是比GPT-3的出现更震撼的时刻。我们现在看到的所有机器人,都是”程序驱动”的——它们只能做程序员预先写好的动作。
而当空间智能涌现之后,机器人将变成”经验驱动“的。它们会像人类的婴儿一样,通过与世界的互动来学习。
举一个具体的例子:倒一杯水
- 现在的机器人
程序员需要写几千行代码,精确地告诉它:手抬多高,握力多大,杯子倾斜多少度,倒多长时间。只要杯子的位置稍微变一点,或者水的温度不一样,它就会失败。 - 涌现了空间智能的机器人
它只需要看过一次别人倒水,或者甚至自己试几次,就会了。它会本能地知道:水太满了会洒出来,杯子太烫了要拿把手,倒太快了会溅出来。没有人教过它这些,这是它从无数次与物理世界的互动中,自己”顿悟”出来的物理直觉。
更神奇的是,这种能力是可迁移的。一旦它学会了倒水,它就会自然而然地学会倒牛奶、倒酱油、倒汽油。它不需要重新学习,因为它已经理解了”液体”这个概念的本质。
这就是涌现的力量。它不是学会了一个动作,而是学会了一个规律。
这条路上还有哪些几乎无法逾越的大山?
虽然方向是明确的,但我们离真正的通用具身智能还有至少10-20年的时间。有三个根本性的问题,至今没有任何完美的解决方案:
1. 数据的诅咒
大语言模型之所以能成功,是因为我们有整个互联网的文字数据可以用来训练。但空间智能没有这样的现成数据。
我们需要的不是几百万张图片,而是几百万个机器人在物理世界中生活几十亿个小时的交互数据。这些数据只能由机器人自己去收集,没有任何捷径可走。
这就是为什么特斯拉、波士顿动力这些公司都在疯狂地制造机器人——它们不是为了卖机器人,而是为了获取数据。每一个在工厂里工作的Optimus,都是在为未来的通用机器人当”小白鼠”。
2. 能耗的地狱
一个人类的大脑只有20瓦的功耗,就能完成所有的感知、推理和运动控制。而现在一个GPT-4级别的大模型,需要几百万瓦的功耗。
我们怎么把一个千亿参数的大模型,塞进一个只有几十公斤重、电池只能用几个小时的机器人身体里?这不仅是一个AI问题,更是一个物理学和材料学的问题。
3. 安全的深渊
这是最可怕的一个问题。如果一个聊天机器人犯了错误,它最多就是输出一段错误的文字。但如果一个具身机器人犯了错误,它可能会伤害到人,甚至造成死亡。
更可怕的是,由于涌现的不可预测性,我们永远无法完全知道一个具身智能体到底能做什么,也无法完全控制它的行为。这是一个我们必须面对,但至今没有答案的哲学和伦理问题。
有没有其他可能的最终答案?
当然有。理论上,纯数字的超级智能也有可能先于具身智能出现。但几乎所有的顶尖科学家都认为,这是一条更难、更遥远的路。
因为纯数字的智能没有身体,没有感官,没有与物理世界的交互。它只能通过人类的文字和图片来间接了解世界。这就像一个天生的盲人,无论你怎么向他描述红色,他都永远无法真正理解红色是什么。
而具身智能走的是一条和人类完全一样的进化道路。它会像我们一样,通过看、听、摸、动来学习世界。这是一条我们已经验证过的、可行的通向通用智能的道路。
最后的时间线预测
- 2025-2030年
涌现出基础的空间智能,机器人能完成简单的重复性任务(搬运、分拣、清洁) - 2030-2035年
通用机器人进入普通家庭,能完成大部分家务(做饭、洗衣、照顾老人小孩) - 2035-2045年
具身智能的综合能力超越人类的平均水平,成为社会的主要劳动力 - 2045年以后
我们将进入一个由人类和智能体共同生活的新时代
简单来说,大模型是AI的童年,智能体是AI的青年,而具身智能是AI的成年。我们现在正站在从童年走向青年的转折点上,而未来20年,我们将亲眼见证AI长大成人。
需要我帮你梳理一下目前具身智能领域最值得关注的10家公司,以及它们各自的技术路线和进展吗?
夜雨聆风