AI智能体架构系列01 - 智能的定义

智能（Intelligence）

理查德·萨顿（Richard Sutton）的The Definition of Intelligence中定义：

Intelligence is the computational part of the ability to achieve goals.

智能是为达成目标能力中的计算部分

奖励定义了目标，算法执行了计算。

智能的要素

1. 目标（Goal）

目标 ≡ 最大化累积奖励

关键理论：奖励假设（Reward Hypothesis）即所有目标都可等价于：最大化一个标量奖励信号的长期和， Sutton原文All goals can be framed as the maximization of the expected sum of future rewards.“长期和”就是长期累积奖励

一个没有独立目标、无法主动追求奖励的系统，被Sutton认为不具备真正的智能。

Sutton批评：当前的大语言模型（LLM）本质上是极大规模的模仿学习。它们从互联网文本中学习“在给定上下文下，人类通常输出的下一个词是什么”，但从未亲身行动并接受奖励信号的后果。因此，它们不具备真正的、目标导向的智能——它们只是人类智能的“影子”。

智能体 = 与环境交互 → 行动 → 观察 → 获奖励 → 调整行为

2. 经验（Experience）

学习 = 从经验中改进交互式经验是智能体自己产生的数据，是动态的、交互式的数据流，表现为“采取行动→观察结果”的循环（行动→观察→奖励→行动...）

Experience=(s, a, r, s')

交互式经验可以表达为轨迹（trajectory是一个连续的时间序列，通常是一个episode或一段连续片段）

在萨顿谈论“经验”时，往往隐含交互式和因果性，经验是带有因果标签的转移流，轨迹是其自然序列形式。

经验通过试错交互产生，是唯一能形成因果模型和错误恢复能力的途径；

轨迹的例子

迷宫：3×3 网格，起点 (0,0)，终点 (2,2)（获得奖励 +10）。
智能体策略：随机游走（演示用）。
一次实际行走的轨迹（长度为 5 步）：

时间步	状态 s	动作 a	奖励 r	下一状态 s'
0	(0,0)	右	0	(0,1)
1	(0,1)	下	0	(1,1)
2	(1,1)	下	0	(2,1)
3	(2,1)	右	0	(2,2)
4	(2,2)	停留	+10	(2,2)

轨迹表示

轨迹是完整的时间序列：

((0,0),右,0,(0,1)), ((0,1),下,0,(1,1)), ((1,1),下,0,(2,1)), ((2,1),右,0,(2,2)), ((2,2),停留,+10,(2,2))((0,0),右,0,(0,1)), ((0,1),下,0,(1,1)), ((1,1),下,0,(2,1)), ((2,1),右,0,(2,2)), ((2,2),停留,+10,(2,2))

保留的信息：

顺序：第 4 步的奖励 +10 只有在到达终点之后才发生。
因果依赖：如果第 2 步选择了“上”而不是“下”，后续所有状态都会不同。
完整历史：可用于训练循环神经网络或进行时间反传。

3. 学习算法

学习算法是“计算部分”，计算结果就是策略，策略的迭代意味着动态适配的能力，即环境变，行为跟着变。

动态适配：外界环境状态、规则随时发生变化，智能不会固守固定行为模式。可根据现状灵活切换策略，应对突发变动，保障目标持续推进。

经验输入 → 算法迭代优化 → 输出决策策略 → 执行动作获取奖励 → 积累新经验，循环提升智能

学习算法的输出：最优行为策略，策略决定行为（简单理解：策略即行为）

智能的程度

智能的有无并不是一个开关，没有“完全智能”与“完全无智能”的分界线；任何能够通过某种方式追求某个目标的系统，都在其特定意义上、特定程度上具备智能。恒温器和AlphaGo虽然能力天差地别，但它们都处于这个智能谱系之中。

低智能 ←——————————————————————————————————————————————————————→ 高智能

恒温器     Roomba扫地机器人      Atari DQN        AlphaGo         人类
  |              |                 |               |            |
单目标        多目标(清扫+避障)    视频游戏高分     战胜世界冠军    通用问题解决
无学习        简单反应            从零学习        学习+搜索       元学习+语言

· 恒温器：有目标（保持温度），但无学习、无模型。Sutton本人称其为“最简单的智能体”。

· AlphaGo：有明确的奖励（赢/输），从经验（自我对弈）学习，使用世界模型（围棋规则+价值网络）进行蒙特卡洛树搜索。它的智能程度远超恒温器，但仍是窄领域智能。

· 人类：具有跨领域迁移、语言沟通、目标自主定义等能力，目前位于谱系最高端。

总结

智能本质是依托计算、持续学习，自适应完成环境目标的能力