10分钟看懂AI的历史与趋势

AI有太多的概念与名词，各种媒体有太多的夸张式描述，太多的错误引导，如何快速产生对AI的框架感？

一、我按照以下几个方法学习了AI

1. 找到合适的人，跟随他去学AI。要求这个人已经对AI有了框架式总结，尽可能理解他所建立的框架，这是事半功倍的。我选择了《白话大模型》的作者姜同学，通过对他短视频的学习，快速理解他的框架，并使之成为自己的框架。

2. 从AI最原始的起点去学习理解。越早的起点，思路越简单。因此我们选择从感知机开始，先理解单层网络，之后就是在其上不断叠加。

3. 从AI发展史去学特征。只有了解了AI的发展过程，才能知道每一个算法的由来。每一个算法，都是AI在发展过程中遇到了障碍，由某个人开悟得来的。

4. 从对象的角度学AI。只有把AI按照不同对象去思考，才能知道对象的整体性及其内部结构、关系、逻辑，对AI的理解才会更深刻。

5. 从应用场景角度理解AI。只有这样，才能理解：技术的发展到一定程度一定会放缓，而应用才是层出不穷的。这样也会更清楚AI的发展趋势。

二、大模型的研发

AI应该分为两部分去理解：一部分是大模型的打造环节，一部分是大模型的应用环节。

大模型的打造阶段历经上百年，最终选择了连接主义作为落地方向，以神经网络为模型，建出了一个类似人类神经元的硅基大脑。这个硅基大脑是以互联网上的数据训练出来的。

先理解大模型的核心：算法与参数。算法相当于公式，结构是不变的，只有参数会发生变化。输入已知结果的数据，用来训练并修改参数；输入未知问题，用固定的参数生成结果——这就是大模型的工作原理。

发展脉络

1957年，Frank Rosenblatt 提出了感知机。感知机是一个单层网络，是最原始的人工神经元，是所有神经网络的起点。他创造性地运用了梯度下降方法，实现了逐步调参，完成了人工智能开创性的突破。但由于单层网络的固有限制，感知机在竞争对手的强力攻击下逐渐沉寂。Rosenblatt 本人也于1971年因一场意外去世，令人惋惜。

1989年，杨立昆（YannLeCun）发明了识别手写数字的三层卷积神经网络。他整理了美国邮政的手写数字数据，构建出最基础的手写数字数据集。三层网络各层功能不同，引入了卷积和池化操作，实现了多层网络的突破。这一环节使用了反向传播算法，解决了神经网络中每个参数权重的计算问题。

2009年，李飞飞发布了ImageNet 数据集。这一数据集拥有详细的标注，为神经网络的发展奠定了基础，是人工智能历史上一个非常核心的里程碑，也是李飞飞被称为"AI教母"的原因。李飞飞在这件事上做对了关键的一步，但我们也要注意，在AI某一方向有重大贡献，并不等于就能预见AI未来发展的一切，这种神化是夸张的。

1999年，GPU 正式诞生；2006年，CUDA 出现，GPU 从此能做通用计算；到2012年，GPU 已具备了驱动深度学习所需的算力硬件基础。

同样是2012年，李飞飞举办了第三届 ImageNet 图像大赛。辛顿（Geoffrey Hinton）带着两位学生，搭建了一个名为AlexNet的8层神经网络，创造性地运用 GPU 解决了算力问题，并采用了新的激活函数，夺得冠军，重启了AI发展的快车道。

2015年，何恺明所在的团队开发了残差网络（ResNet），使神经网络的层次可以达到上千层，识别准确率也达到了惊人的程度。

以上都是基于图像的神经网络发展。而处理文字的神经网络——大语言模型（LLM）——则在这一系列突破的启发下，于2017年迎来了重大飞跃。当年，Google 提出了Transformer 模型，其核心创新包括注意力机制、多头注意力和位置编码，使文字类AI获得了突破性进展。这也是后来ChatGPT等文字生成型模型的技术来源。

GPT-1 约有1亿参数，只能进行简短对话；GPT-3 有1750亿参数，已能写诗、写代码，展现出"涌现"特性；GPT-4 的参数规模OpenAI未予公开，但其能够处理图文混合输入，具备了初步的多模态能力。

至此，大模型的打造已进入相对成熟的阶段。每个国家在通用大模型方向上，大约只会出现少数几个有竞争力的玩家，如美国的ChatGPT、Claude，中国的豆包、DeepSeek等。单纯地在这些成熟大模型上继续堆叠参数，意义已经越来越有限。

不过这并不意味着创新彻底停止。DeepSeekR1、OpenAIo 系列等新模型，探索的不再是"参数更多"，而是"让模型学会更深入地思考再回答"，代表了一条全新的技术路径。所以更准确的说法是：粗放式的军备竞赛阶段结束了，精细化的创新仍在持续。未来各大模型的方向，更多会向垂直行业演进，深耕特定领域的专业问题。

与此同时，大模型市场的格局也在持续变化，部分产品未来可能逐步退出竞争——这是值得持续关注的一个动态。

三、大模型的应用环节

有了这个无比复杂而聪明的硅基大脑，如何应用？典型场景包括：聊天陪伴的情绪价值、订机票等生活需求的满足、PPT制作与文字总结等日常工作辅助。

应用的演进历程

文字大模型刚出现时，只能做一问一答。此时大家开始关注提问的技巧，**提示词（Prompt）工程逐渐受到重视，也出现了系统提示词（System Prompt）**的概念。由于大模型是生成式的，"你敢问，他就敢答"，因此早期常出现让人啼笑皆非的低级错误。

随着参数增加与训练优化，大模型的回答越来越准确，但输出仍以文字为主。有人想到：它能不能不只是告诉你"怎么订票"，而是直接帮你把票订好？于是，以 Manus 为代表的**通用智能体（Agent）**应运而生。

在这个发展过程中，应用层面涌现出一系列技术创新：

1. 上下文管理（Context Manager）用户经常需要追问，这就要求大模型记住之前的对话内容。为此，发展出了上下文管理机制，让对话保持连贯。

2. Function Calling（函数调用）为了减少大模型的"胡编乱造"，让它在能查询的时候去调用真实数据（搜索、数据库、API等），而不是凭空生成内容。

3. RAG（检索增强生成）大模型的训练数据有时间截点，新信息无法自动获取。为此出现了"先检索、再生成"的技术路线，让大模型能够接入实时信息。

4. Agent（单一智能体）让大模型不只是给出文字建议，而是能够帮人执行任务。Agent 具备规划能力、工具调用能力和执行反馈能力。

5. Skill（可复用经验规则）把人的经验沉淀为可复用的规则库，供多个 Agent 调用，实现"一次定义，多次使用"。

6. 多智能体平台单一 Agent 的能力有限，复杂任务往往需要多个 Agent 协作——有负责执行的，有负责监督的。为此出现了统一管理多个 Agent 的平台。比如你要做一份市场分析报告：一个 Agent 负责搜集数据，一个负责写初稿，一个负责审核质量，整个过程由平台统一调度协调。

7. 标准接口（如 MCP）多 Agent 与多模型并存时，需要标准化的接口协议来降低集成复杂度，同时统一管理上下文记忆。

8. 自我优化机制（Harness）为防止 Agent 越跑越偏，引入持续评估与纠偏机制，相当于给马套上缰绳，让 Agent 能不断完善自身行为。

以上8个技术方向已有较为成熟的方案，但距离"像使用一个得力员工"那样自然地用 AI，仍有一段距离。我们期待的方向是：交代他经验，让他干一类事；干不好了就教他，越教越顺手，最终得心应手。目前这一模式在程序员写代码领域已基本得到验证，未来将在更多领域推广。

四、AI未来的发展判断

1. 大模型研发：粗放式竞争结束，精细化创新仍在继续。通用大模型的"参数军备竞赛"阶段基本结束，但技术本身并未停滞。DeepSeekR1、OpenAIo 系列等代表了新的方向——不是堆参数，而是让模型"想清楚再说"。垂直行业的专业大模型，也是未来值得关注的演进路径。

2. 应用层技术仍有很大优化空间。Function Calling、MCP、Agent、多智能体管理、智能体自我优化……这些功能已具备雏形，但易用性仍有很大提升空间。相信会有更友好、更易用的应用方式出现，就像向一个人交代工作一样简单。

3. 研发环节不是普通人的主战场。两个环节的底层技术，对普通人来说门槛较高。行业已在重金寻找这方面的人才，确实有人会在这一方向上获益，但这不是大多数人的机会。

4. 普通人的机会在应用场景。这里有两个方向：

•To C 方向：人的个性化需求是无穷无尽的，个人办公、个人生活、个人娱乐……有无数细分场景等待创新。

•To B 方向：华为盘古大模型已在矿山、炼钢、保险、金融等行业落地，是这一方向的典型样本。TO B 的 AI 应用往往与具体业务深度结合，壁垒更高，但价值也更持久。