浅谈 AI 发展对工作模式的影响

学习方式的变化

我的本科专业属于工科，在学习《高等数学》、《线性代数》、《概率论》和《自动控制原理》等课程时，我的学习方式主要是记住教材中的公式，定理和使用场景，但是不会深究这些公式与定理的来龙去脉。这种学习方式能够让我轻松应对各门考试。各科优异的成绩让我感觉自己的数学和专业知识扎实。

2011 年，我加入中国科学院自动化研究所模式识别国家重点实验室，攻读模式识别与智能系统专业的研究生学位。在入学之初，导师让我仔细学习Richard Duda 等人编著的《模式分类》。这本书被公认为模式识别、计算机视觉和机器学习领域的奠基性教材，侧重于严格的数学推导与经典的统计决策理论。在学习到《模式分类》的“第2章贝叶斯决策论”时，我便很难理解书中的公式推导。在课题组的周会中，师兄师姐们分享的主要内容是论文中的目标函数建模和优化算法，我也很难跟上他们的讲解节奏。这些经历让我意识到研究生学习方式与本科阶段有显著的差异，不仅要知其然，而且要知其所以然。于是，我决定花大力气研读原始文献，自己动手推导论文中的公式。起初，这一步走的非常艰难。这些原始文献往往涉及到多个领域的数学知识，例如矩阵论、统计学和最优化理论等等。我一方面针对性地查找相关的数学知识，另一方面系统地学习机器学习领域的知识。我认为Christopher Bishop的《Pattern Recognition and Machine Learning》是一部十分优秀教材。《Pattern Recognition and Machine Learning》是机器学习领域第一本全面采用贝叶斯视角编写的教科书，核心内容可以概括为“以概率论为骨架，重构模式识别与机器学习”。通过学习这本书，我基本理清了模式识别与机器学习领域的研究范式，算是入门了。我坚持阅读原始论文和推导公式，大概一年之后，我感觉自己的机器学习理论水平有了显著的进步。尽管如此，我依然很难提出算法理论创新。

深度学习时代

2012 年，由Alex Krizhevsky、Ilya Sutskever（OpenAI 联合创始人）和深度学习教父 Geoffrey Hinton 共同设计的卷积神经网络AlexNet 在ImageNet 大规模视觉识别挑战赛（ILSVRC）中夺冠。AlexNet 的Top-5 错误率降至 15.3%，而当时采用传统“人工设计特征”（如 SIFT+Fisher Vector）的第二名的错误率高达 26.2%；超过 10% 的巨大断层式领先，彻底击碎了计算机视觉领域传统学派对深度神经网络的质疑。这件事被公认为现代人工智能与深度学习爆发的里程碑式起点。当时，同实验室从事计算机视觉研究的同学立刻转而研究深度学习。我跟他们交流得知深度学习不涉及太多和太深的数学理论知识，做实验的效果好就能够发论文。我的导师主要从事机器学习理论研究；此外，随着理论知识的积累，我对不需要太多数学理论知识的深度学习产生了偏见，要不然如何体现我的理论优势呢？当年，在微博出现了不少关于深度学习的“黑化金句”和梗图：

“古有道士闭关炼丹，今有博士开机转网；能不能成全看造化，我们不是科学家，我们是新时代的炼丹术士。”
“深度学习三大法宝：大力出奇迹，调参凭运气，解释靠脑补。”
“我的科研生活：改个 Learning Rate，点击 Run，然后去刷微博。两小时后看一眼：靠，没收敛。改回原样，再次 Run，继续刷微博。”

开发深度神经网络的训练代码是困难和复杂的。在 2012 和 2013 年，业界还没有推出通用的深度学习训练框架，这也限制了我接触深度学习。不管业界如何评价深度学习，深度卷积神经网络在计算机视觉领域持续给人们带来惊喜。在图片分类、物体检测、图片分割、人脸识别和图像超分等领域，深度学习的效果轻松超越之前的算法效果，并且还在不断地提高。

2015 年 9 月，我结束在美国佛罗里达大学的访问学习，回到国内，开始找工作。在找工作时，我发现很多互联网公司的岗位均要求深度学习的技能。此时，为了找到一份满足自己期望的工作，我脱下“孔乙己的长衫”，开始学习深度学习的知识。得益于自己积累的理论基础，我阅读有关深度学习的论文和资料很轻松。经过持续的发展，业界开源了多个深度学习训练框架，例如，贾扬清于 2013 年推出Caffe, 谷歌于 2015 年推出 TensorFlow. 这些开源的深度学习训练框架极大地降低了开发深度神经网络训练代码的门槛。我一边学习深度学习的基础知识，一边练习使用 TensorFlow. 在短时间之内，我便掌握了深度学习在图片分类、文本检测、物体检测和表征学习等领域内的应用。当时，我在华为终端部门工作，为了能够让深度神经网路在手机端运行，我深入研究了神经网络的模型压缩技术。随着深度学习基础理论、开源训练框架和开源代码生态的发展与完善，从事深度学习研究和开发的门槛显著降低，实现了“技术民主化”。现在的模型开发不需要从零开始推导公式，从 GitHub 下载功能相近的代码，然后像搭积木一样拼凑出系统。

大模型时代

2017 年，Ashish Vaswani等人在《Attention Is All You Need》论文中提出了 Transformer 架构。Transformer 架构全盘采用自注意力机制，使得模型可以同时处理整篇文章的每一个字，彻底释放了 GPU 的并行计算能力，为模型“无限做大”扫清了硬件障碍。这篇论文标志着大模型时代的开启。2018至2021年，业界分化出两条不同的技术路线：其一是谷歌于 2018 年提出的双向编码路线 BERT; 其二是 OpenAI坚持的被视作“笨拙”的自回归解码路线 GPT. 在 2020 年前，BERT 统治了学术界和工业界的落地（如搜索、文本分类），但其局限在于擅长理解，不擅长生成。OpenAI于 2018 年6 月推出 GPT-1, 参数量约1.17 亿，预训练数据量约 5GB；GPT-1 擅长续写，但是常识理解能力弱。2019 年 2 月，OpenAI推出 GPT-2, 参数量约15 亿，预训练数据量约 40GB; GPT-2续写极度流畅，甚至能写假新闻。2020 年 5 月，OpenAI推出 GPT-3, 参数量约1750 亿，预训练数据量约570GB; GPT-3 首次涌现出写代码和算术能力。GPT-3 终结了技术路线之争，开启全球大模型“军备竞赛”与商业化浪潮。2022 年底，OpenAI 发布 ChatGPT，引入了基于人类反馈的强化学习，让大模型学会了像人类一样礼貌、对齐、听懂人话，引爆全球。2023 - 2024 年，全球进入“千模大战”。2024年至今，大模型全面迈入原生多模态（Native Multimodal）与强推理（Reasoning）时代。以GPT-5.5, Gemini 3.1 Pro, Claude Opus 4.7, DeepSeek-V4-Pro, Qwen3-Max等为代表的模型不仅能听、说、读、写、看视频，还具备了“慢思考”的逻辑推理能力，能自主解决高难度的数学和编程问题。

近期，我深度体验了大模型的编程能力，效果十分的惊艳。大模型不仅能够帮助你拆解需求，完善边界条件，而且能够输出多种编程语言的代码，极大提高了开发人员的编程效果。大模型的爆发将整个软件开发行业推向了“编程民主化”。今天，由于大模型的存在，编程的门槛已经从“学习计算机的语言（C++, Python, Java）”变成了“用人类的母语去清晰表达意图（Prompt）”。

工作模式的变化

深度学习实现了技术民主化，大模型实现了编程民主化。接下来，我认为算法工程师的基本工作模式会是：

使用大模型快速验证一种方案的可行性；
如果不存在数据安全问题，且可以承受大模型的成本，那么直接使用大模型；
如果存在数据安全问题，成本问题或者响应时间的问题，那么使用大模型清洗数据和实现训练代码，将大模型的能力蒸馏到小模型。

现在，开源代码和模型越来越丰富，功能越来越完善，效果越来越好。只要掌握基础的计算机开发能力，几乎人人都可以根据开源项目的数据格式要求准备训练数据，然后微调模型。随着 AI 技术的高速发展，我认为：

模型和代码成了“大白菜”，“架构与业务逻辑”成了核心：当人人都能写出代码时，决定一个软件好坏的，不再是谁的语法写得漂亮，而是谁能更深刻地理解用户需求，谁能设计出更合理的系统架构，谁能更严密地做安全防范。
决定个人竞争力的，不再仅仅是大家都具备的 99% 的常规技能，更在于能否将那 1% 的跨界能力转化为独特优势。在这个时代，知识的全面性变得愈发重要，我们需要持续增加知识的广度，并沉淀业务理解的深度。