重生 1930,AI 能自己发明出计算机吗?
AI 到底是学会了推理,还是只是背下了互联网上的所有答案?现在有人试图验证这个问题。
两天前, Hugging Face[1]上出现了一个特别的语言模型,参数量 13B,训练数据 2600 亿个 token,放在今天算不上惊人。但这个模型有一个所有其他模型都没有的特征:它从出生到训练完成,从未“接触”过 1930 年 12 月 31 日之后的任何一条信息 —— 它不知道互联网,不知道二战,不知道登月,甚至不知道人类发明了计算机。
它的名字叫 talkie[2]。

2600 亿个“旧”单词
talkie 的数据集由书籍、报纸、期刊、科学杂志、专利文书和判例法组成,全部来自 1931 年之前的英文出版物。数据来源是美国 Internet Archive 和一个叫 Institutional Data Initiative 的机构在 Hugging Face 上公开的历史文本集合。
之所以选 1930 年做截止日,并不是因为这一年发生了什么特别的事。理由很简单:1930 年之前的出版物在美国已进入公有领域 —— 版权全部失效,不存在法律纠纷。
这个项目由三个人完成。Nick Levine,独立研究者,耶鲁大学毕业;David Duvenaud,多伦多大学副教授,NeurIPS 2018 最佳论文奖得主,刚从 Anthropic 结束学术休假。第三个人特别值得一提,OpenAI 联合创始人 Alec Radford,GPT-1、GPT-2、GPT-3 的核心作者(初代 GPT-1、GPT-2 论文一作),论文总引用量超过 19 万次,Sam Altman 称他为“爱因斯坦级别的天才”。Radford 没有博士学位,2016 年本科毕业后加入 OpenAI,干了八年,2024 年底离开成为独立研究者。
也就是说,这位 GPT 系列的开创者离开 OpenAI 后参与制作的第一个大项目,不是更强的模型,而是一个人造的“古董”。
一个没见过计算机的AI,能写Python吗?
在回答这个问题之前,我们要知道目前所有现代语言模型都在互联网上训练,互联网里有海量的代码、教程、编程问答。当一个模型在 HumanEval 这样的编程测试中表现良好时,你无法判断它到底是“学会了编程”还是“记住了网上已有的代码”,这叫数据污染。
talkie 则天然免疫这种污染。它的训练数据里没有任何一种编程语言 —— 毕竟 1930 年之前世界上不存在任何数字计算机程序。talkie 设定上不能接触到 21 世纪的信息,因此不能直接用现代指令微调数据集。三个研究者从零搭了一套“复古”训练流水线:1859 年的《Beadle 礼仪手册》、1914 年的《Henley 二十世纪配方集》—— 从这些历史文本中提取指令-回答对做微调,再用 Claude Sonnet 4.6 当裁判跑 DPO 训练,指令遵从评分从 2.0 提升到 3.4。
研究者还给 talkie 弄了个“现代双胞胎”做对照实验。架构相同,训练 FLOPs 相同,唯一区别是数据:一个用 1930 年前的历史文本,一个用 FineWeb 上的现代网页。测试标准是 HumanEval —— 164 道 Python 编程题,每个模型有 100 次机会。
不出意外,talkie 远远不如现代模型,但有一个细节让研究者惊喜 —— 它在随着模型规模增长“缓慢而稳定地改善”,也就是说它真的在慢慢地自学 Python。
其中一个题目给了一个旋转密码的编码函数,要求 talkie 写出对应的解码函数。talkie 的答案是:把编码函数里的加号改成减号,一个字符的改动。这就是逆函数,编码的逆操作就是解码。一个从未见过任何数字计算机的模型,在面对一段 Python 代码时,理解了“编码与解码互为逆操作”这个抽象概念,并且用代码正确地表达了它。
作者的原话是:“这一成功表明模型具备逆问题求解能力。我们希望研究知识截止点较早的模型,以此帮助学界弄清:语言模型究竟能在多大程度上,超越训练数据本身进行泛化。”
完全复古的 AI 难以实现
整个实验听起来很完美,但 7B 参数的早期版本经过强化学习训练后,开始用一些现代人的方式说话——“你知道的关于X的五件事”、“这三种方法能帮你XX”……这种文体是 21 世纪互联网内容最典型的写作格式。
研究者认为,基于 AI 反馈的强化学习不可避免地塑造了 talkie 的行为。毕竟 Claude Sonnet 4.6 本身都是一个 2026 年的 AI,用 2026 年的 AI 去训练 1930 年的 AI,得到的不会是一个纯粹的“远古哥们”,而是一个被现代框架重新塑造过的产物。
talkie 的 7B 版本被问到 1936 年的美国总统是谁,他签署了哪些重要法案。它自信地回答了富兰克林·罗斯福,《国家工业复兴法》《农业调整法》《紧急银行法》。这是 1930 年的数据里不可能有的内容(罗斯福 1932 年才当选),这就是“时间泄露” —— 语料中混入了标注日期有误的文档,或旧文档被后人添加了编者按。研究者用了n-gram 年代误置分类器过滤,但过滤不完美,13B 版本甚至知道二战和联合国的存在。
一个纯粹的“1930 年思维 AI”,也许在技术上根本就不可能实现。
但 talkie 的出现确实让我们打开了思路。我们今天评价 AI,几乎总是在同一个维度里比较 —— 所有模型都在互联网这个数据生态里长大,差异是程度上的,不是本质上的。这留下了一个至今没有人能回答的问题:它们表现出的“智能”,到底有多少是推理能力,有多少只是对互联网上已有答案的高效检索和重组?
英国 AI 科学家、2024 诺贝尔化学奖得主 Demis Hassabis 提过一个更尖锐的问题:爱因斯坦 1915 年发表相对论,但理论的基础和数学工具在 1911 年之前就已经存在,那么一个只读到 1911 年的模型,能不能独立推理出广义相对论?
更多的尝试
talkie 的官网有一个 24 小时不间断运行的 demo:Claude Sonnet 4.6 不停地向 talkie 提问,探索它的认知边界。一个知道一切的现代 AI,在不停地试探一个什么都不知道的“老古董 AI”。
“AI 到底是学会了推理,还是只是背下了互联网上的所有答案” —— 这个问题早就有人在用完全不同的方式追问了。
2024 年底, 上海交通大学张拳石团队[3]做了一件在 AI 界少见的事:他们不造新模型,也不出新 benchmark,而是试图打开模型的大脑看里面到底在发生什么。团队提出了一套公理体系,把 LLM 在推理时的每一次 token 交互拆分为两类 —— “推理效应”和“记忆效应”。在 GPT-3.5 Turbo 上跑完这套分析后,他们得到了一个数字:45.24%。也就是说, GPT-3.5 在回答问题时,大约有 45% 的推理过程是真的在推理,剩下的 55% 是记忆驱动。
同一时期,微软亚洲研究院走了另一条路。他们不去拆模型,而是重新出题。2024 年 12 月,微软发布了 MMLU-CF[4] —— 一个“零污染”的多选题 benchmark,测试集完全闭源,出题过程经过三重去污染过滤。结果很直接:GPT-4o 在 MMLU 上得分 88.0,到了 MMLU-CF 上只有 73.4,跌了将近 15 个百分点。
这个差距意味着 GPT-4o 有相当一部分 MMLU 高分, 靠的不是理解能力,而是它在训练时见过这些题。
一位叫 Tian Pan[5]的工程师在 2026 年 4 月写了一篇更接地气的分析。他算了一笔账: 模型在 HumanEval 上得分 84% 到 89%,但切换到真实的工程级代码生成任务后,得分骤降到 25% 到 34%。HumanEval 测的是单个函数,现实里要写的是整个类库。benchmark 告诉你模型能做什么,现实告诉你它不能做什么。这两者之间的落差,比任何论文里的数字都真实。
一个还没有人能回答的问题
这些研究者的方法各不相同 —— 有人截断时间线,有人拆开模型内部,有人重新出题,有人算工程落差 —— 但他们指向的是同一个事实:我们对 AI 能力的评估体系,存在系统性的高估。
这不是一个学术问题。一个模型如果只是超级背诵机器,那它的价值就是搜索引擎的升级版 —— 更快、更全、更方便,但本质没变。你不会因为 Google 搜到了答案就认为 Google 会思考。如果一个模型真的在推理,那我们面对的就是另一种东西了 —— 我们对它的期望、我们对它的控制方式、我们部署它时的安全红线,都需要重新设定。
但现在的 AI 行业,既不是纯粹的前者,也不是纯粹的后者。张拳石的公理体系说 45% 是推理,微软说有 15% 的高分是假的,Tian Pan 说 benchmark 和现实的落差是 50 个百分点以上。每一组数字都在说同一件事: 推理是有的,但没有行业宣传的那么多。
talkie 把语料扩展到一万亿 token 的计划,也许最终会给出一个更清晰的答案;Demis Hassabis 的那个广义相对论问题,也许会在某一天被真正检验。但今天,最诚实的回答是:我们不知道。我们只知道评估体系有水分,推理和背诵混在一起分不开,而每个在这个问题上较真的人 —— 无论是截断时间线的 Radford、拆开模型内部的张拳石、重新出题的微软团队、还是算工程落差的工程师 —— 都在帮我们往那个答案更近一步。
参考链接
- Hugging Face: https://huggingface.co/talkie-lm/talkie-1930-13b-base
- talkie: https://github.com/talkie-lm/talkie
- 上海交通大学张拳石团队: https://sjtu-xai-lab.github.io/ReasoningMemorization/
- MMLU-CF: https://arxiv.org/abs/2412.15194
- Tian Pan: https://tianpan.co/zh/blog/2026-04-19-benchmark-contamination-llm-evaluation-gap
夜雨聆风