

关注我们
大语言模型(LLM)绝非过去式,而是正在从纯粹堆叠参数的“直觉型抢答”向大规模强化学习驱动的“慢思考推理”进行深刻的范式演进。在正式步入应用深水区的AI下半场,LLM依然是多模态感知与物理世界模型无可替代的“中央大脑”与核心逻辑底座。
上半场的终结:“大力砖飞”的暴力美学触及天花板
在AI发展的上半场,全行业的共识是极其纯粹的 Scaling Law(比例定律):模型参数扩大十倍、海量数据喂高十倍,AI的智商就会随之跃升十倍。然而走到今天,这场纯粹拼算力与拼预训练规模的军备竞赛,已经撞上了物理世界的两堵高墙:
1.优质天然数据的近乎枯竭:人类互联网几千年来沉淀的高质量文本(公开书籍、学术论文、优质网页)几乎已被各大巨头“吃干抹净”。缺乏全新的优质燃料,单纯依赖大模型生成的“合成数据”往往会导致模型在反复训练中出现退化与“近亲繁殖”的风险。
2.边际效应的急剧递减:业界发现,将预训练参数从千亿级堆叠到万亿级,模型在核心常识和通用考试上的能力提升往往仅有微弱的百分之几。但其背后所需的电能、显卡供应链以及动辄数亿美元的研发资金,却呈现指数级飙升。纯粹靠扩大预训练参数来暴力突破的天花板,确实已经到头了。
下半场的蜕变:从“直觉抢答”到“慢思考”的推理革命
但这并不意味着LLM已经走向终局,它只是换了一种更高级、更深邃的方式在变聪明。
以前的LLM(如经典的GPT-4、Claude 3.5等)本质上属于“System 1(系统1)直觉型模型”。用户输入一个问题,AI就像玩文字接龙一样,依靠概率在一秒内毫无停顿地向外输出字符。这种模式下,AI是在进行“下意识地盲猜”,一旦前几个字的逻辑走错,后文就只能陷入一本正经地胡说八道。
以OpenAI o1/o3系列以及DeepSeek-R1为代表的“System 2(系统2)推理模型”,则彻底拉开了AI下半场的序幕。它们引入了大规模强化学习与推理期算力外推(Test-Time Compute Scaling)技术:
旧LLM的局限:它就像一个记忆力极好、语速极快的辩手,不假思索地抢答,容易在复杂逻辑上犯错。
新LLM的蜕变:更像一个老练的科学家。在拿到复杂问题后,它会先在后台沉默思考数秒乃至数分钟,生成长达几万字的隐式思维链(CoT)。在这期间,它会自己打草稿、进行自我质疑、发现逻辑漏洞并推翻重来、反复验证,最终才交付出最精简、最准确的答案。
这种“用思考时间换智商”的范式转移,打破了预训练数据的束缚,开辟了LLM持续进化的第二条生命线。
拨开迷雾:多模态与世界模型的背后,指挥官依然是LLM
当前公众极易被多模态交互和各类视觉世界模型夺去眼球,进而产生“纯文本LLM过时”的错觉。但只要深度剖析这些尖端技术的底层架构,就会发现LLM作为中央大脑负责逻辑与认知的核心地位从未被动摇。
1.多模态本质是感知延展:无论是能看懂图表的原生多模态模型,其底层的核心机制都是将视觉、听觉等非文本信号进行“Token化”(符号化),最终全部翻译成底层LLM可以理解的代码与符号。没有强大的LLM作为认知内核,多模态系统就仅仅拥有“眼睛和耳朵”,而缺乏高阶理解与决策的“灵魂”。
2.世界模型需要行动总指挥:诸如Sora等视频生成模型或自动驾驶中的世界模型,其本质是“模拟物理世界的常识物理学”(例如重力、碰撞、空间一致性)。然而,当AI需要在这个物理世界中去真正执行一项复杂任务时(例如操纵机械臂),如何将长链条任务拆解为几百个步骤、遇到环境变数如何重新规划、如何调用外部工具?这些高阶的指挥控制工作,依然100%依赖于LLM的严密逻辑支撑。

结语:沉稳走向深水区的AI下半场
进入AI的下半场,行业的焦点正在从PPT上的炫技与纯粹的算力军备竞赛,转向更为硬核、务实的生产力落地:
1.科学前沿的全面突破:拥有慢思考能力的LLM正真正攻克人类智力的最高峰,如高难度数学竞赛、物理推演、复杂代码自主重构与药物分子发现,完成从“文科秘书”向“理科院士”的转变。
2.真正Agent(智能体)的爆发:LLM正在作为高阶大脑,能够自主操控浏览器与各种专业软件,执行长达数小时、具备自我Debug和纠错能力的长链条商业工作流。
3.极致的降本增效与普及:随着架构的极致优化,大模型的推理成本正以惊人的速度暴跌。AI正在像自来水和电一样,以极其低廉的价格悄无声息地嵌入各行各业的日常系统之中。
综上所述,大语言模型非但没有成为过去式,反而正在褪去最初的浮华与泡沫,成为数字时代最深沉、最坚实的逻辑底座。它不再仅仅是一个新鲜的聊天框,而是已经化为无形,全面驱动着多模态、具身智能与科学AI的未来。

夜雨聆风