智能(Intelligence)
理查德·萨顿(Richard Sutton)的The Definition of Intelligence中定义:
Intelligence is the computational part of the ability to achieve goals.
智能是为达成目标能力中的计算部分
奖励定义了目标,算法执行了计算。
智能的要素
1. 目标 (Goal)
目标 ≡ 最大化累积奖励
关键理论:奖励假设(Reward Hypothesis)即所有目标都可等价于:最大化一个标量奖励信号的长期和, Sutton原文All goals can be framed as the maximization of the expected sum of future rewards.“长期和”就是长期累积奖励
一个没有独立目标、无法主动追求奖励的系统,被Sutton认为不具备真正的智能。
Sutton批评:当前的大语言模型(LLM)本质上是极大规模的模仿学习。它们从互联网文本中学习“在给定上下文下,人类通常输出的下一个词是什么”,但从未亲身行动并接受奖励信号的后果。因此,它们不具备真正的、目标导向的智能——它们只是人类智能的“影子”。
智能体 = 与环境交互 → 行动 → 观察 → 获奖励 → 调整行为
2. 经验(Experience)
学习 = 从经验中改进 交互式经验是智能体自己产生的数据,是动态的、交互式的数据流,表现为“采取行动→观察结果”的循环(行动→观察→奖励→行动...)
Experience=(s, a, r, s')
交互式经验可以表达为轨迹(trajectory是一个连续的时间序列,通常是一个episode或一段连续片段)
在萨顿谈论“经验”时,往往隐含交互式和因果性,经验是带有因果标签的转移流,轨迹是其自然序列形式。
经验通过试错交互产生,是唯一能形成因果模型和错误恢复能力的途径;
轨迹的例子
迷宫:3×3 网格,起点 (0,0),终点 (2,2)(获得奖励 +10)。 智能体策略:随机游走(演示用)。 一次实际行走的轨迹(长度为 5 步):
轨迹表示
轨迹是完整的时间序列:
((0,0),右,0,(0,1)), ((0,1),下,0,(1,1)), ((1,1),下,0,(2,1)), ((2,1),右,0,(2,2)), ((2,2),停留,+10,(2,2))((0,0),右,0,(0,1)), ((0,1),下,0,(1,1)), ((1,1),下,0,(2,1)), ((2,1),右,0,(2,2)), ((2,2),停留,+10,(2,2))
保留的信息:
顺序:第 4 步的奖励 +10 只有在到达终点之后才发生。 因果依赖:如果第 2 步选择了“上”而不是“下”,后续所有状态都会不同。 完整历史:可用于训练循环神经网络或进行时间反传。
3. 学习算法
学习算法是“计算部分”,计算结果就是策略,策略的迭代意味着动态适配的能力,即环境变,行为跟着变。
动态适配:外界环境状态、规则随时发生变化,智能不会固守固定行为模式。可根据现状灵活切换策略,应对突发变动,保障目标持续推进。
经验输入 → 算法迭代优化 → 输出决策策略 → 执行动作获取奖励 → 积累新经验,循环提升智能
学习算法的输出:最优行为策略,策略决定行为(简单理解:策略即行为)
智能的程度
智能的有无并不是一个开关,没有“完全智能”与“完全无智能”的分界线;任何能够通过某种方式追求某个目标的系统,都在其特定意义上、特定程度上具备智能。恒温器和AlphaGo虽然能力天差地别,但它们都处于这个智能谱系之中。
低智能 ←——————————————————————————————————————————————————————→ 高智能
恒温器 Roomba扫地机器人 Atari DQN AlphaGo 人类
| | | | |
单目标 多目标(清扫+避障) 视频游戏高分 战胜世界冠军 通用问题解决
无学习 简单反应 从零学习 学习+搜索 元学习+语言
· 恒温器:有目标(保持温度),但无学习、无模型。Sutton本人称其为“最简单的智能体”。
· AlphaGo:有明确的奖励(赢/输),从经验(自我对弈)学习,使用世界模型(围棋规则+价值网络)进行蒙特卡洛树搜索。它的智能程度远超恒温器,但仍是窄领域智能。
· 人类:具有跨领域迁移、语言沟通、目标自主定义等能力,目前位于谱系最高端。
总结
智能本质是依托计算、持续学习,自适应完成环境目标的能力
夜雨聆风