AI有太多的概念与名词,各种媒体有太多的夸张式描述,太多的错误引导,如何快速产生对AI的框架感?
一、我按照以下几个方法学习了AI
1. 找到合适的人,跟随他去学AI。要求这个人已经对AI有了框架式总结,尽可能理解他所建立的框架,这是事半功倍的。我选择了《白话大模型》的作者姜同学,通过对他短视频的学习,快速理解他的框架,并使之成为自己的框架。
2. 从AI最原始的起点去学习理解。越早的起点,思路越简单。因此我们选择从感知机开始,先理解单层网络,之后就是在其上不断叠加。
3. 从AI发展史去学特征。只有了解了AI的发展过程,才能知道每一个算法的由来。每一个算法,都是AI在发展过程中遇到了障碍,由某个人开悟得来的。
4. 从对象的角度学AI。只有把AI按照不同对象去思考,才能知道对象的整体性及其内部结构、关系、逻辑,对AI的理解才会更深刻。
5. 从应用场景角度理解AI。只有这样,才能理解:技术的发展到一定程度一定会放缓,而应用才是层出不穷的。这样也会更清楚AI的发展趋势。
二、大模型的研发
AI应该分为两部分去理解:一部分是大模型的打造环节,一部分是大模型的应用环节。
大模型的打造阶段历经上百年,最终选择了连接主义作为落地方向,以神经网络为模型,建出了一个类似人类神经元的硅基大脑。这个硅基大脑是以互联网上的数据训练出来的。
先理解大模型的核心:算法与参数。算法相当于公式,结构是不变的,只有参数会发生变化。输入已知结果的数据,用来训练并修改参数;输入未知问题,用固定的参数生成结果——这就是大模型的工作原理。
发展脉络
1957年,Frank Rosenblatt 提出了感知机。感知机是一个单层网络,是最原始的人工神经元,是所有神经网络的起点。他创造性地运用了梯度下降方法,实现了逐步调参,完成了人工智能开创性的突破。但由于单层网络的固有限制,感知机在竞争对手的强力攻击下逐渐沉寂。Rosenblatt 本人也于1971年因一场意外去世,令人惋惜。
1989年,杨立昆(YannLeCun)发明了识别手写数字的三层卷积神经网络。他整理了美国邮政的手写数字数据,构建出最基础的手写数字数据集。三层网络各层功能不同,引入了卷积和池化操作,实现了多层网络的突破。这一环节使用了反向传播算法,解决了神经网络中每个参数权重的计算问题。
2009年,李飞飞发布了ImageNet 数据集。这一数据集拥有详细的标注,为神经网络的发展奠定了基础,是人工智能历史上一个非常核心的里程碑,也是李飞飞被称为"AI教母"的原因。李飞飞在这件事上做对了关键的一步,但我们也要注意,在AI某一方向有重大贡献,并不等于就能预见AI未来发展的一切,这种神化是夸张的。
1999年,GPU 正式诞生;2006年,CUDA 出现,GPU 从此能做通用计算;到2012年,GPU 已具备了驱动深度学习所需的算力硬件基础。
同样是2012年,李飞飞举办了第三届 ImageNet 图像大赛。辛顿(Geoffrey Hinton)带着两位学生,搭建了一个名为AlexNet的8层神经网络,创造性地运用 GPU 解决了算力问题,并采用了新的激活函数,夺得冠军,重启了AI发展的快车道。
2015年,何恺明所在的团队开发了残差网络(ResNet),使神经网络的层次可以达到上千层,识别准确率也达到了惊人的程度。
以上都是基于图像的神经网络发展。而处理文字的神经网络——大语言模型(LLM)——则在这一系列突破的启发下,于2017年迎来了重大飞跃。当年,Google 提出了Transformer 模型,其核心创新包括注意力机制、多头注意力和位置编码,使文字类AI获得了突破性进展。这也是后来ChatGPT等文字生成型模型的技术来源。
GPT-1 约有1亿参数,只能进行简短对话;GPT-3 有1750亿参数,已能写诗、写代码,展现出"涌现"特性;GPT-4 的参数规模OpenAI未予公开,但其能够处理图文混合输入,具备了初步的多模态能力。
至此,大模型的打造已进入相对成熟的阶段。每个国家在通用大模型方向上,大约只会出现少数几个有竞争力的玩家,如美国的ChatGPT、Claude,中国的豆包、DeepSeek等。单纯地在这些成熟大模型上继续堆叠参数,意义已经越来越有限。
不过这并不意味着创新彻底停止。DeepSeekR1、OpenAIo 系列等新模型,探索的不再是"参数更多",而是"让模型学会更深入地思考再回答",代表了一条全新的技术路径。所以更准确的说法是:粗放式的军备竞赛阶段结束了,精细化的创新仍在持续。未来各大模型的方向,更多会向垂直行业演进,深耕特定领域的专业问题。
与此同时,大模型市场的格局也在持续变化,部分产品未来可能逐步退出竞争——这是值得持续关注的一个动态。
三、大模型的应用环节
有了这个无比复杂而聪明的硅基大脑,如何应用?典型场景包括:聊天陪伴的情绪价值、订机票等生活需求的满足、PPT制作与文字总结等日常工作辅助。
应用的演进历程
文字大模型刚出现时,只能做一问一答。此时大家开始关注提问的技巧,**提示词(Prompt)工程逐渐受到重视,也出现了系统提示词(System Prompt)**的概念。由于大模型是生成式的,"你敢问,他就敢答",因此早期常出现让人啼笑皆非的低级错误。
随着参数增加与训练优化,大模型的回答越来越准确,但输出仍以文字为主。有人想到:它能不能不只是告诉你"怎么订票",而是直接帮你把票订好?于是,以 Manus 为代表的**通用智能体(Agent)**应运而生。
在这个发展过程中,应用层面涌现出一系列技术创新:
1. 上下文管理(Context Manager)用户经常需要追问,这就要求大模型记住之前的对话内容。为此,发展出了上下文管理机制,让对话保持连贯。
2. Function Calling(函数调用)为了减少大模型的"胡编乱造",让它在能查询的时候去调用真实数据(搜索、数据库、API等),而不是凭空生成内容。
3. RAG(检索增强生成)大模型的训练数据有时间截点,新信息无法自动获取。为此出现了"先检索、再生成"的技术路线,让大模型能够接入实时信息。
4. Agent(单一智能体)让大模型不只是给出文字建议,而是能够帮人执行任务。Agent 具备规划能力、工具调用能力和执行反馈能力。
5. Skill(可复用经验规则)把人的经验沉淀为可复用的规则库,供多个 Agent 调用,实现"一次定义,多次使用"。
6. 多智能体平台单一 Agent 的能力有限,复杂任务往往需要多个 Agent 协作——有负责执行的,有负责监督的。为此出现了统一管理多个 Agent 的平台。比如你要做一份市场分析报告:一个 Agent 负责搜集数据,一个负责写初稿,一个负责审核质量,整个过程由平台统一调度协调。
7. 标准接口(如 MCP)多 Agent 与多模型并存时,需要标准化的接口协议来降低集成复杂度,同时统一管理上下文记忆。
8. 自我优化机制(Harness)为防止 Agent 越跑越偏,引入持续评估与纠偏机制,相当于给马套上缰绳,让 Agent 能不断完善自身行为。
以上8个技术方向已有较为成熟的方案,但距离"像使用一个得力员工"那样自然地用 AI,仍有一段距离。我们期待的方向是:交代他经验,让他干一类事;干不好了就教他,越教越顺手,最终得心应手。目前这一模式在程序员写代码领域已基本得到验证,未来将在更多领域推广。
四、AI未来的发展判断
1. 大模型研发:粗放式竞争结束,精细化创新仍在继续。通用大模型的"参数军备竞赛"阶段基本结束,但技术本身并未停滞。DeepSeekR1、OpenAIo 系列等代表了新的方向——不是堆参数,而是让模型"想清楚再说"。垂直行业的专业大模型,也是未来值得关注的演进路径。
2. 应用层技术仍有很大优化空间。Function Calling、MCP、Agent、多智能体管理、智能体自我优化……这些功能已具备雏形,但易用性仍有很大提升空间。相信会有更友好、更易用的应用方式出现,就像向一个人交代工作一样简单。
3. 研发环节不是普通人的主战场。两个环节的底层技术,对普通人来说门槛较高。行业已在重金寻找这方面的人才,确实有人会在这一方向上获益,但这不是大多数人的机会。
4. 普通人的机会在应用场景。这里有两个方向:
夜雨聆风