为什么AI能下棋却不能炒股?所有人都忽略了同一个假设

本文是我最近发表的一篇研究论文的通俗解读。原文标题：《Reflexive Intelligence: Decision-Making in Observer-Participant Environments》。全文约3000字，建议收藏阅读。

──────────────────────────────

一、一个所有人都忽略的假设

我先问一个问题：AlphaGo、GPT-4、AlphaFold，这三个系统有什么共同点？

不是"都很强"。不是"都用了深度学习"。

共同点是：它们的工作环境都不会因为它们的存在而改变。

·AlphaGo下棋——棋盘上的规则不会因为AlphaGo在看而改变

·GPT-4写文章——英语语法不会因为GPT-4生成了一段话而漂移

·AlphaFold预测蛋白质——蛋白质的物理结构不会因为你预测了它而折叠成别的样子

我把这种环境叫做"观察者无关环境"（Observer-Invariant Environment）。

你仔细想一下：过去十年AI的每一个重大突破，无一例外，全部发生在这种环境里。

系统	环境	为什么观察者无关
AlphaGo	围棋棋盘	棋子不会因为被观察而移动
GPT-4	文本语料	语法不因生成而改变
AlphaFold	蛋白质	物理定律不看谁在计算
自动驾驶	道路	车道线不会因为抗议而重画
DeepSeek-R1	数学题	2+2=4，不管谁算的

看出来了吗？AI擅长的，全是"世界不会因为你看它而变"的场景。

──────────────────────────────

二、但真实世界不是这样的

现在想象你是一个基金经理。你发现了一个信号：每次A指标超过阈值，某个股票就会涨。

你开始交易。赚了一周。

然后其他人也发现了这个信号——你的交易记录泄露了，或者别人独立发现了同样的规律。

突然间，这个信号不灵了。为什么？因为太多人在用它。你的交易行为改变了你试图预测的价格。

索罗斯在1987年就说了这个道理，叫反射性（Reflexivity）：参与者对市场的信念改变了市场，改变后的市场又改变了信念。

这不只是金融的问题：

·推荐算法：你推荐什么内容，创作者就生产什么内容。你在塑造你试图"客观推荐"的生态系统

·政策制定：你出台一个政策，公民会适应这个政策。你在改变你试图"管理"的对象

·招聘AI：你用AI筛选简历，求职者就会针对你的标准优化简历。你在腐蚀你赖以筛选的信号

我把这些叫做"观察者参与环境"（Observer-Participant Environment）。

一句话总结区别：

观察者无关：世界在你看它的时候保持不动

观察者参与：世界在你看它的时候盯回来

──────────────────────────────

三、为什么规模不能解决这个问题

有人会说：参数多了不就行了？GPT-5、GPT-6总能搞定吧？

不行。原因很简单：

1. 预训练学到的全是"观察者无关"知识。"法国首都是巴黎"不会因为谁在问而变。所有预训练语料天然都是观察者无关的

2. 反射性推理需要体验式学习。你不可能从文本里学会"我的交易行为如何改变市场价格"——你必须在一个会对你的行动做出反应的环境里训练

3. 所以更大的模型不会自发获得反射性推理能力。 1.8万亿参数的模型比30亿参数的模型有更多观察者无关知识，但两者都没有反射性知识——除非你专门为此训练

这预测了一个具体的实验现象：在反射性任务上，一个小的反射性模型应该优于一个大的通用模型。

我们的初步证据支持这一点。

──────────────────────────────

四、我们做了什么

我们用一个30亿活跃参数的MoE模型（Qwen3.5-35B-A3B），在金融市场场景下做了GRPO训练。总共花了大约200美元的云服务器租金。

不是一次就成功的。跑了7轮，每一轮都在前一轮的废墟上重建。

关键设计：10个reward函数同时训练。

不是DeepSeek-R1那种单reward（答案对不对），而是10个维度同时打分：格式、仓位合理性、推理一致性、因果链深度、跨学科覆盖、反射性意识、制度敏感性、决策记忆……

这10个reward之间会互相打架。

比如：鼓励深度分析的reward让模型写得更长，但惩罚冗长的reward要求模型写得更短。模型发现最安全的策略是输出一段不长不短的废话。这就是我们发现的"Reward Interaction Problem"——多目标强化学习中一个几乎没人研究过的问题。

还有模板固化问题。模型学会了一个开头格式（"Thinking Process: 1. Analyze the Request..."），然后每次都用这个模板。不管什么市场环境，先来一遍这个模板。得分不高但也不低——一种"安全的平庸"。

解决这些问题的经验，我称之为"Craft Knowledge"（手艺知识）。这些知识没法从论文的超参数表格里推导出来，没法从消融实验里逆向工程，只能通过亲手作死然后从废墟里爬出来才能获得。

波兰尼说："我们知道的比我们能说出来的多。" 训练AI也是一样——最关键的经验往往是无法写成公式的。

──────────────────────────────

五、一些有意思的发现

发现1：模型自发涌现了推理标签。

在第7轮第10步，模型突然开始输出``标签，把推理过程和决策分开。没有任何训练数据包含这个格式——它是自发出现的。最初被overlong惩罚压制了（因为多了几十个token），一旦我们保护了它，这个行为就稳定了。

发现2：规模不如方法论。

GPT-4o（估计1.8万亿参数），在同样的金融场景下做零样本测试，能输出不错的分析——但不会考虑自己的市场影响。它不会说"如果很多人都和我一样看多，那这个信号会自我消解"。

而我们训练的30亿参数模型会。

这不是公平对比（fine-tuned vs zero-shot），但说明了一个关键点：反射性推理是一种通过训练方法获得的能力，而不是通过规模获得的能力。

发现3：训练过程的相变。

不是渐进改善。是突然跳变。连续20步什么都没学会，然后一步之内，格式正确率从零跳到75%。我们称之为"突破-崩塌-恢复"周期。像不像物理里的相变？水不是慢慢变成冰的。

──────────────────────────────

六、这意味着什么

我提出了一个概念叫反射性智能（Reflexive Intelligence）：

在做决策的同时，维持一个关于自己如何影响环境的内部模型的能力。

如果LeCun的世界模型（JEPA）是在学"世界如何演化"，那反射性智能是在学"给定我是世界的一部分，世界如何演化"。

这不是一个学术游戏。部署在真实世界的每一个AI系统——推荐算法、量化交易、政策建议——都在面对观察者参与环境。无视这个问题不会让问题消失,只会让系统在成功的那一刻开始失效。

老子说："治大国如烹小鲜。" 意思是复杂系统抗拒过度干预。小鱼翻多了就碎了。训练AI的10个reward也是——太激进的调参只会让系统崩溃。纪律是知道什么时候不动。

──────────────────────────────

七、后续

这是三篇系列论文的第一篇（理论框架）。

·Paper 2（ReflexBench）：实验数据和基准测试，投ICAIF 2026

·Paper 3（Ouroboros-Lite）：简化版开源实现，投NeurIPS Workshop 2026

如果你做量化、做推荐系统、做政策模拟，或者单纯对"AI如何在一个盯着你看的世界里做决策"感兴趣——欢迎留言讨论。

──────────────────────────────

作者：独立研究者。用200美元训练了一个会考虑自己市场影响的AI，失败了7轮，写了一篇论文。