重生 1930,AI 能自己发明出计算机吗?-夜雨聆风

重生 1930,AI 能自己发明出计算机吗?

AI 到底是学会了推理，还是只是背下了互联网上的所有答案？现在有人试图验证这个问题。

两天前， Hugging Face^[1]上出现了一个特别的语言模型，参数量 13B，训练数据 2600 亿个 token，放在今天算不上惊人。但这个模型有一个所有其他模型都没有的特征：它从出生到训练完成，从未“接触”过 1930 年 12 月 31 日之后的任何一条信息 —— 它不知道互联网，不知道二战，不知道登月，甚至不知道人类发明了计算机。

它的名字叫 talkie^[2]。

2600 亿个“旧”单词

talkie 的数据集由书籍、报纸、期刊、科学杂志、专利文书和判例法组成，全部来自 1931 年之前的英文出版物。数据来源是美国 Internet Archive 和一个叫 Institutional Data Initiative 的机构在 Hugging Face 上公开的历史文本集合。

之所以选 1930 年做截止日，并不是因为这一年发生了什么特别的事。理由很简单：1930 年之前的出版物在美国已进入公有领域 —— 版权全部失效，不存在法律纠纷。

这个项目由三个人完成。Nick Levine，独立研究者，耶鲁大学毕业；David Duvenaud，多伦多大学副教授，NeurIPS 2018 最佳论文奖得主，刚从 Anthropic 结束学术休假。第三个人特别值得一提，OpenAI 联合创始人 Alec Radford，GPT-1、GPT-2、GPT-3 的核心作者（初代 GPT-1、GPT-2 论文一作），论文总引用量超过 19 万次，Sam Altman 称他为“爱因斯坦级别的天才”。Radford 没有博士学位，2016 年本科毕业后加入 OpenAI，干了八年，2024 年底离开成为独立研究者。

也就是说，这位 GPT 系列的开创者离开 OpenAI 后参与制作的第一个大项目，不是更强的模型，而是一个人造的“古董”。

一个没见过计算机的AI，能写Python吗？

在回答这个问题之前，我们要知道目前所有现代语言模型都在互联网上训练，互联网里有海量的代码、教程、编程问答。当一个模型在 HumanEval 这样的编程测试中表现良好时，你无法判断它到底是“学会了编程”还是“记住了网上已有的代码”，这叫数据污染。

talkie 则天然免疫这种污染。它的训练数据里没有任何一种编程语言 —— 毕竟 1930 年之前世界上不存在任何数字计算机程序。talkie 设定上不能接触到 21 世纪的信息，因此不能直接用现代指令微调数据集。三个研究者从零搭了一套“复古”训练流水线：1859 年的《Beadle 礼仪手册》、1914 年的《Henley 二十世纪配方集》—— 从这些历史文本中提取指令-回答对做微调，再用 Claude Sonnet 4.6 当裁判跑 DPO 训练，指令遵从评分从 2.0 提升到 3.4。

研究者还给 talkie 弄了个“现代双胞胎”做对照实验。架构相同，训练 FLOPs 相同，唯一区别是数据：一个用 1930 年前的历史文本，一个用 FineWeb 上的现代网页。测试标准是 HumanEval —— 164 道 Python 编程题，每个模型有 100 次机会。

不出意外，talkie 远远不如现代模型，但有一个细节让研究者惊喜 —— 它在随着模型规模增长“缓慢而稳定地改善”，也就是说它真的在慢慢地自学 Python。

其中一个题目给了一个旋转密码的编码函数，要求 talkie 写出对应的解码函数。talkie 的答案是：把编码函数里的加号改成减号，一个字符的改动。这就是逆函数，编码的逆操作就是解码。一个从未见过任何数字计算机的模型，在面对一段 Python 代码时，理解了“编码与解码互为逆操作”这个抽象概念，并且用代码正确地表达了它。

作者的原话是：“这一成功表明模型具备逆问题求解能力。我们希望研究知识截止点较早的模型，以此帮助学界弄清：语言模型究竟能在多大程度上，超越训练数据本身进行泛化。”

完全复古的 AI 难以实现

整个实验听起来很完美，但 7B 参数的早期版本经过强化学习训练后，开始用一些现代人的方式说话——“你知道的关于X的五件事”、“这三种方法能帮你XX”……这种文体是 21 世纪互联网内容最典型的写作格式。

研究者认为，基于 AI 反馈的强化学习不可避免地塑造了 talkie 的行为。毕竟 Claude Sonnet 4.6 本身都是一个 2026 年的 AI，用 2026 年的 AI 去训练 1930 年的 AI，得到的不会是一个纯粹的“远古哥们”，而是一个被现代框架重新塑造过的产物。

talkie 的 7B 版本被问到 1936 年的美国总统是谁，他签署了哪些重要法案。它自信地回答了富兰克林·罗斯福，《国家工业复兴法》《农业调整法》《紧急银行法》。这是 1930 年的数据里不可能有的内容（罗斯福 1932 年才当选），这就是“时间泄露” —— 语料中混入了标注日期有误的文档，或旧文档被后人添加了编者按。研究者用了n-gram 年代误置分类器过滤，但过滤不完美，13B 版本甚至知道二战和联合国的存在。

一个纯粹的“1930 年思维 AI”，也许在技术上根本就不可能实现。

但 talkie 的出现确实让我们打开了思路。我们今天评价 AI，几乎总是在同一个维度里比较 —— 所有模型都在互联网这个数据生态里长大，差异是程度上的，不是本质上的。这留下了一个至今没有人能回答的问题：它们表现出的“智能”，到底有多少是推理能力，有多少只是对互联网上已有答案的高效检索和重组？

英国 AI 科学家、2024 诺贝尔化学奖得主 Demis Hassabis 提过一个更尖锐的问题：爱因斯坦 1915 年发表相对论，但理论的基础和数学工具在 1911 年之前就已经存在，那么一个只读到 1911 年的模型，能不能独立推理出广义相对论？

一个还没有人能回答的问题

这些研究者的方法各不相同 —— 有人截断时间线，有人拆开模型内部，有人重新出题，有人算工程落差 —— 但他们指向的是同一个事实：我们对 AI 能力的评估体系，存在系统性的高估。

这不是一个学术问题。一个模型如果只是超级背诵机器，那它的价值就是搜索引擎的升级版 —— 更快、更全、更方便，但本质没变。你不会因为 Google 搜到了答案就认为 Google 会思考。如果一个模型真的在推理，那我们面对的就是另一种东西了 —— 我们对它的期望、我们对它的控制方式、我们部署它时的安全红线，都需要重新设定。

但现在的 AI 行业，既不是纯粹的前者，也不是纯粹的后者。张拳石的公理体系说 45% 是推理，微软说有 15% 的高分是假的，Tian Pan 说 benchmark 和现实的落差是 50 个百分点以上。每一组数字都在说同一件事： 推理是有的，但没有行业宣传的那么多。

talkie 把语料扩展到一万亿 token 的计划，也许最终会给出一个更清晰的答案；Demis Hassabis 的那个广义相对论问题，也许会在某一天被真正检验。但今天，最诚实的回答是：我们不知道。我们只知道评估体系有水分，推理和背诵混在一起分不开，而每个在这个问题上较真的人 —— 无论是截断时间线的 Radford、拆开模型内部的张拳石、重新出题的微软团队、还是算工程落差的工程师 —— 都在帮我们往那个答案更近一步。

参考链接

Hugging Face: https://huggingface.co/talkie-lm/talkie-1930-13b-base
talkie: https://github.com/talkie-lm/talkie
上海交通大学张拳石团队: https://sjtu-xai-lab.github.io/ReasoningMemorization/
MMLU-CF: https://arxiv.org/abs/2412.15194
Tian Pan: https://tianpan.co/zh/blog/2026-04-19-benchmark-contamination-llm-evaluation-gap

2600 亿个“旧”单词

一个没见过计算机的AI，能写Python吗？

完全复古的 AI 难以实现

更多的尝试

一个还没有人能回答的问题

参考链接