本文是我最近发表的一篇研究论文的通俗解读。原文标题:《Reflexive Intelligence: Decision-Making in Observer-Participant Environments》。全文约3000字,建议收藏阅读。
──────────────────────────────
一、一个所有人都忽略的假设
我先问一个问题:AlphaGo、GPT-4、AlphaFold,这三个系统有什么共同点?
不是"都很强"。不是"都用了深度学习"。
共同点是:它们的工作环境都不会因为它们的存在而改变。
·AlphaGo下棋——棋盘上的规则不会因为AlphaGo在看而改变
·GPT-4写文章——英语语法不会因为GPT-4生成了一段话而漂移
·AlphaFold预测蛋白质——蛋白质的物理结构不会因为你预测了它而折叠成别的样子
我把这种环境叫做"观察者无关环境"(Observer-Invariant Environment)。
你仔细想一下:过去十年AI的每一个重大突破,无一例外,全部发生在这种环境里。
系统 | 环境 | 为什么观察者无关 |
AlphaGo | 围棋棋盘 | 棋子不会因为被观察而移动 |
GPT-4 | 文本语料 | 语法不因生成而改变 |
AlphaFold | 蛋白质 | 物理定律不看谁在计算 |
自动驾驶 | 道路 | 车道线不会因为抗议而重画 |
DeepSeek-R1 | 数学题 | 2+2=4,不管谁算的 |
看出来了吗?AI擅长的,全是"世界不会因为你看它而变"的场景。
──────────────────────────────
二、但真实世界不是这样的
现在想象你是一个基金经理。你发现了一个信号:每次A指标超过阈值,某个股票就会涨。
你开始交易。赚了一周。
然后其他人也发现了这个信号——你的交易记录泄露了,或者别人独立发现了同样的规律。
突然间,这个信号不灵了。为什么?因为太多人在用它。 你的交易行为改变了你试图预测的价格。
索罗斯在1987年就说了这个道理,叫反射性(Reflexivity):参与者对市场的信念改变了市场,改变后的市场又改变了信念。
这不只是金融的问题:
·推荐算法:你推荐什么内容,创作者就生产什么内容。你在塑造你试图"客观推荐"的生态系统
·政策制定:你出台一个政策,公民会适应这个政策。你在改变你试图"管理"的对象
·招聘AI:你用AI筛选简历,求职者就会针对你的标准优化简历。你在腐蚀你赖以筛选的信号
我把这些叫做"观察者参与环境"(Observer-Participant Environment)。
一句话总结区别:
观察者无关:世界在你看它的时候保持不动
观察者参与:世界在你看它的时候盯回来
──────────────────────────────
三、为什么规模不能解决这个问题
有人会说:参数多了不就行了?GPT-5、GPT-6总能搞定吧?
不行。原因很简单:
1. 预训练学到的全是"观察者无关"知识。"法国首都是巴黎"不会因为谁在问而变。所有预训练语料天然都是观察者无关的
2. 反射性推理需要体验式学习。 你不可能从文本里学会"我的交易行为如何改变市场价格"——你必须在一个会对你的行动做出反应的环境里训练
3. 所以更大的模型不会自发获得反射性推理能力。 1.8万亿参数的模型比30亿参数的模型有更多观察者无关知识,但两者都没有反射性知识——除非你专门为此训练
这预测了一个具体的实验现象:在反射性任务上,一个小的反射性模型应该优于一个大的通用模型。
我们的初步证据支持这一点。
──────────────────────────────
四、我们做了什么
我们用一个30亿活跃参数的MoE模型(Qwen3.5-35B-A3B),在金融市场场景下做了GRPO训练。总共花了大约200美元的云服务器租金。
不是一次就成功的。跑了7轮,每一轮都在前一轮的废墟上重建。
关键设计:10个reward函数同时训练。
不是DeepSeek-R1那种单reward(答案对不对),而是10个维度同时打分:格式、仓位合理性、推理一致性、因果链深度、跨学科覆盖、反射性意识、制度敏感性、决策记忆……
这10个reward之间会互相打架。
比如:鼓励深度分析的reward让模型写得更长,但惩罚冗长的reward要求模型写得更短。模型发现最安全的策略是输出一段不长不短的废话。这就是我们发现的"Reward Interaction Problem"——多目标强化学习中一个几乎没人研究过的问题。
还有模板固化问题。模型学会了一个开头格式("Thinking Process: 1. Analyze the Request..."),然后每次都用这个模板。不管什么市场环境,先来一遍这个模板。得分不高但也不低——一种"安全的平庸"。
解决这些问题的经验,我称之为"Craft Knowledge"(手艺知识)。这些知识没法从论文的超参数表格里推导出来,没法从消融实验里逆向工程,只能通过亲手作死然后从废墟里爬出来才能获得。
波兰尼说:"我们知道的比我们能说出来的多。" 训练AI也是一样——最关键的经验往往是无法写成公式的。
──────────────────────────────
五、一些有意思的发现
发现1:模型自发涌现了推理标签。
在第7轮第10步,模型突然开始输出`
发现2:规模不如方法论。
GPT-4o(估计1.8万亿参数),在同样的金融场景下做零样本测试,能输出不错的分析——但不会考虑自己的市场影响。它不会说"如果很多人都和我一样看多,那这个信号会自我消解"。
而我们训练的30亿参数模型会。
这不是公平对比(fine-tuned vs zero-shot),但说明了一个关键点:反射性推理是一种通过训练方法获得的能力,而不是通过规模获得的能力。
发现3:训练过程的相变。
不是渐进改善。是突然跳变。连续20步什么都没学会,然后一步之内,格式正确率从零跳到75%。我们称之为"突破-崩塌-恢复"周期。像不像物理里的相变?水不是慢慢变成冰的。
──────────────────────────────
六、这意味着什么
我提出了一个概念叫反射性智能(Reflexive Intelligence):
在做决策的同时,维持一个关于自己如何影响环境的内部模型的能力。
如果LeCun的世界模型(JEPA)是在学"世界如何演化",那反射性智能是在学"给定我是世界的一部分,世界如何演化"。
这不是一个学术游戏。部署在真实世界的每一个AI系统——推荐算法、量化交易、政策建议——都在面对观察者参与环境。无视这个问题不会让问题消失,只会让系统在成功的那一刻开始失效。
老子说:"治大国如烹小鲜。" 意思是复杂系统抗拒过度干预。小鱼翻多了就碎了。训练AI的10个reward也是——太激进的调参只会让系统崩溃。纪律是知道什么时候不动。
──────────────────────────────
七、后续
这是三篇系列论文的第一篇(理论框架)。
·Paper 2(ReflexBench):实验数据和基准测试,投ICAIF 2026
·Paper 3(Ouroboros-Lite):简化版开源实现,投NeurIPS Workshop 2026
如果你做量化、做推荐系统、做政策模拟,或者单纯对"AI如何在一个盯着你看的世界里做决策"感兴趣——欢迎留言讨论。
──────────────────────────────
作者:独立研究者。用200美元训练了一个会考虑自己市场影响的AI,失败了7轮,写了一篇论文。
夜雨聆风