
你不需要知道那么多,但必须认真回应自己所关心的。 ——松塔Strobilus
本周值得关注的学术事件之一,无疑来自并不经常站在聚光灯下的数学界。AI把这些更善于埋头钻研的聪明大脑,硬生生推到了舞台中央。
6月2日,来自数学、计算机科学、社会科学和科学史领域的16位学者联合发布《莱顿人工智能与数学宣言》(Leiden Declaration on Artificial Intelligence and Mathematics),由国际数学联盟背书,并将在今年7月于费城举行的国际数学家大会上正式呈现。宣言目前开放个人和机构联署。
截止目前,该宣言官网 leidendeclaration.ai 已收集到近1500份签名。

图|《莱顿人工智能与数学宣言》联署截图
本期松塔Newsletter聚焦AI浪潮下的数学界,深入聊聊他们正在经历什么,又准备怎么做。围绕我们长期关注的AI for Science这一主线,本期还收录了AI对社会科学和生态学研究的不同影响,角度各有侧重。
除此,我们还将看到肿瘤医学界迎来激动人心的突破性进展、学术界对可重复性危机的担忧、顶刊署名中持续存在的性别差距,以及一些难得的真知灼见。比如,有学者认为科学界内部抵触改变,然而“象牙塔时代正在终结”。
希望本期松塔Newsletter对大家有所帮助。如果你喜欢,欢迎关注、星标松塔strobilus,我们一起看见更丰富的科学。

前不久,一个没有大学学历、住在英格兰西南部的年轻人Liam Price,借助ChatGPT与其他学者一起解决了匈牙利数学家保罗·埃尔德什(Paul Erdős)留下的第1196号问题,相关成果以预印本形式发表于arXiv。
这道题目自1966年起悬而未决。引人注目的是,AI给出的解法令专家感到意外——它没有沿用数学界惯用的概率论语言,而是在问题最初提出时所用的数论语言框架内直接求解,因此隐含地在数论与概率论之间建立了联系。斯坦福大学数学家Jared Duker Lichtman,在社交媒体上将这比作国际象棋中AI发现了一个"因人类审美与惯例"而从未被想到的开局。
惊诧之外,这件事让很多人感到不安。
进展的速度让人目眩
AI在数学领域的进展呈现出令人应接不暇的节奏。2026年5月,OpenAI宣布其模型推翻了组合几何领域一个存在约80年的"单位距离猜想";同月,Google DeepMind的AlphaProof Nexus在353道埃尔德什开放问题中自主解决了9道,其中包括两个已有56年历史的难题,并证明了整数序列在线百科(OEIS)中492道开放猜想里的44道,推理成本仅为每题数百美元。
与此同时,初创公司Math, Inc.开发的AI系统Gauss,在两周内完成了乌克兰数学家Maryna Viazovska的24维球体堆积证明的形式化验证——这是一份超过20万行代码的工作,而Viazovska正是凭借球体堆积问题的研究于2022年获得菲尔兹奖。
加州理工学院数学家Antoine Song去年夏天找到了一种方法,将塔拉格兰(Michel Talagrand)提出的"凸性猜想"转化为概率论语言,令这一困扰数学界近三十年的问题突然变得"可处理"。
普林斯顿大学数学家Assaf Naor说,当Song在普林斯顿的报告中展示这一突破时,"感觉墙上出现了裂缝,你还没到另一边,但感觉它快要崩了"。
随后,Song与他的学生Dongming Hua在一个关键步骤上转向了ChatGPT,因为证明中缺少一个关键部分,涉及他们不熟悉的一个数学对象,而恰好大语言模型LLM填补了这个空白。他们后来发现,ChatGPT给出的证明与已有文献中的思路事实上非常相似。最终,师徒二人选择了引用另一位数学家Stefan Tudose更为严谨的证明,但事件本身已足够说明问题。
Google DeepMind的Thang Luong甚至预言,"也许到2030年,AI和数学家能够共同赢得一枚菲尔兹奖"。
数学家们的不安从何而来

关于多维空间最优球体堆积的菲尔兹奖获奖数学成果,现已由人机协作完成形式化验证。 ©️Max Drekker
面对这一切,全球数学界的反应并非一致欢呼。无论对AI持开放还是拒绝的态度,数学家们实际上正在经历一种更为复杂的情绪。
不安的源头之一是信任危机。期刊编辑的收件箱里堆满了AI生成的论文和证明,其中的错误往往难以甄别。哈佛大学数学家Lauren Williams说,AI“可以生成看起来很有说服力的东西,但找出其中的错误需要大量时间”。她和同事听到了不少期刊编辑的“恐怖故事”。加州理工学院数学家Assaf Naor的顾虑更为根本:如果一个证明在逻辑上无误,但没有人真正理解它是怎么得出来的,这还算是数学吗?
不安的源头之二,是研究议程被悄悄重塑的风险。OpenAI、Google DeepMind、Anthropic等公司在数学上投入大量资源,动机很难说是推动数学本身的发展,而是希望通过数学定理证明来提升模型的通用推理能力——因为形式化证明的正确性可以被计算机自动核验,提供了近乎无限的训练反馈。来自莱顿大学的AI人类学家Rodrigo Ochigame指出,这些公司在向投资者的陈述中明确表达了这一战略意图,这也使OpenAI选择在申请IPO消息曝光的同一天发布单位距离猜想的证明,这一时机的巧合让人难以忽视。
不安的源头之三,涉及数学家的知情同意。数学家发表的论文,在未经本人同意的情况下被用于训练通用AI模型,而这些模型的商业应用范围已延伸至军事、监控等领域。"数学家从未想过,更谈不上同意,他们的工作会被用于这些目的。"Ochigame说。
还有一个实际层面的问题。AI生成内容普遍缺乏来源归因——大语言模型频繁输出人类已有的思路,却不标注出处。哈佛大学数学家Melanie Matchett Wood在评价OpenAI的单位距离猜想证明时,明确指出论文未能妥善引用"文献中大量密切相关的既有思想"。
从AI产业手中夺回叙事权
2025年9月,来自10个国家的约60名数学家、计算机科学家、社会科学家、哲学家和科学史学者聚集在荷兰莱顿大学洛伦兹中心,讨论AI对数学的影响。这场会议最终催生了《莱顿人工智能与数学宣言》,于2026年6月2日正式发布,获国际数学联盟背书,并将在今年7月于费城举行的国际数学家大会上呈现。
宣言的起草过程并不轻松。参与者之一、莱顿大学的Ochigame说,这是他经历过的讨论最激烈的写作过程,"我从未为如此短的文本参与过如此多的辩论"。最终版本长11页,措辞克制而明确。
宣言确认的核心价值包括:证明应当赋予最高程度的确定性,并让人理解"为什么结论是真的";研究成果归属具体的作者,他们承担相应的责任;数学论证应当透明,可供独立核实;数学社群应自主决定研究方向和重要性标准。
宣言列出的主要威胁覆盖五个层面:AI产生的论证难以区分真伪,正在对现有审稿体系造成压力;大语言模型输出成果时不正确归因,并使用了未经授权或违反版权的训练数据;AI的广泛使用可能扭曲学术招聘、资助和认可机制,令无力或不愿使用这些工具的研究者处于不利地位;非正式渠道(如新闻稿和博客)绕过同行评审传播结果,并有意夸大AI工具的贡献;商业逻辑可能使数学研究问题的选择越来越取决于"是否适合AI方法",而非更深层的数学意义。
在给商业AI公司的建议部分,宣言语气最为直接:这些公司正在将数学出版物用作训练数据,其中一部分来源是形式化数学库(formal mathematical libraries),因为这些材料的正确性可以被自动核验,可以大规模生成和检查,是"几乎无限的训练反馈来源"。宣言要求相关合作必须尊重数学家的学术自主权,不得在未经同意的情况下使用发表成果作为训练数据。
宣言的起草者之一、哥伦比亚大学数学家Michael Harris坦承了宣言更宏观的目标——“从AI产业手中夺回对数学价值和目标的叙事权”。他担忧的是,如果资助机构和政策制定者的判断主要依据媒体报道,他们可能会得出"AI就是数学未来"的印象,而这并不准确。
内部分歧将持续存在
在数学界内部,对AI能力的评估远比外界报道的更为分歧。多伦多大学数学家Daniel Litt对迄今为止AI在数学上的成果评价并不高,认为大多不够有趣,但他同时认为,对AI未来潜力持怀疑态度的人“搞错了方向”。他困惑的是:AI系统对现有数学的掌握已超过任何一位人类,推理能力也相当可观,而且不会疲倦或失去动力,为什么它们还没有取得更大的突破?“部分谜题在于,我们根本不知道是什么让一位人类数学家在数学上出色。”
牛津大学数学家、宣言作者之一Ursula Martin则提供了另一个视角:“把数学想象成一系列精确陈述的问题,像高中考题或埃尔德什问题列表,是对数学之所以强大而重要的一种误解和矮化。数学不仅仅是解题,它也是观念、理解、判断和人类洞察力的培育。”OpenAI向埃尔德什问题投入了大量资源并恰好解决了一道,这令人印象深刻,但“我们没有被告知模型的失败案例”。
卡内基梅隆大学数学家Jeremy Avigad的表述最为简洁:“数学的目标归根结底是理解数学现象。为此,我们需要参与其中。我们不希望AI只是输出结果然后说‘定理是真的’。”
这正是AI辅助证明形式化工作的内在张力所在。当Gauss系统在五天内完成了Viazovska 8维球体堆积证明的形式化证明,并在论文中发现并修正了一处错别字,这令项目主要负责人、卡内基梅隆大学博士生Sidharth Hariharan和同事感到惊喜,也令他们感到某种难以名状的不安。形式化验证确保了逻辑无误,但它并不等于理解。
研究者普遍认为,短期内人类数学家仍将掌握方向盘,至少在判断“什么问题值得研究”这个层面上。OpenAI数学家Mark Sellke说,这种判断更像是价值取舍,“暂时还是人类在做”。AI目前能生成的证明长度通常不超过三到四页,而一篇严肃的数学论文动辄数十乃至数百页。
但如果当前进展的速度维持下去,这个局面可能比许多人预期的更快改变。布朗大学数学家Javier Gómez-Serrano的话颇能代表一代研究者的处境:“我现在甚至不敢想象五年后会是什么样子。事情进展得太快了,此时此刻,什么都有可能发生。”
数学界正努力在两件事之间保持平衡:承认AI工具带来的真实能力提升,同时坚守数学作为一种人类实践活动的核心价值。宣言的措辞审慎地避免了对立姿态。
宣言作者之一Ursula Martin明确表示,“我们欢迎AI公司作为负责任的伙伴”。但宣言同时也清楚指明,如果放任不管,商业逻辑与数学价值之间的裂隙将持续扩大,最终受损的将是这门学科数千年积累的知识体系——以及那些仍在其中寻找理解而非仅仅寻找答案的人。
参考资料:
Howlett, J. "'Sensational' proof topples decades-old geometry problem." Scientific American, May 19, 2026. Sloman, L. "Mathematicians sign declaration to rein in AI use." Scientific American, June 2, 2026. Roberts, S. "As A.I. Makes Strides in Mathematics, Mathematicians Urge Caution." The New York Times, June 2, 2026. - Leiden Declaration on Artificial Intelligence and Mathematics
. DOI: 10.5281/zenodo.20302944. June 2026. Bastian, M. "Google DeepMind's AlphaProof Nexus solves decades-old math problems for a few hundred dollars." The Decoder, May 25, 2026. Skuse, B. "Watershed Moment for AI–Human Collaboration in Math: Twenty-first-century Fields Medal proof formalized for the first time." IEEE Spectrum, March 2, 2026. Castelvecchi, D. "AI is transforming mathematics. Will it conquer the field?" Nature, Vol. 653, May 21, 2026.


图|相机陷阱是研究者利用AI赋能工具监测生态系统的典型示例,图中这台相机拍摄到了泰国森林中的一头豹。©️Shutterstock/forest71。
华盛顿州立大学生态学家Gayatri Mishra在《美国国家科学院院刊》(PNAS)发表评论,指出生态学领域对AI的采纳速度,已经超过了这个领域真正准备好使用它的程度。
这一判断有具体的技术依据。生态学数据高度异质,依赖田野观测,受历史偶然性、采样不均和方法论变异的影响。物种分布记录包含虚假缺失,生物多样性数据库存在分类偏差,长期数据集因经费和后勤限制而支离破碎。当机器学习模型在这样的数据上训练时,产生的输出可能在统计上看起来稳健,却缺乏生态可信度。文章举出的具体例子之一是:分布模型曾错误预测高山植物可以扩散至遥远山脉,或树木能跨越亚马逊河,实际上这些区域因扩散障碍根本无法抵达。
更深层的问题在于,许多AI模型隐含地假设生态关系随时间保持稳定,而这一假设在快速变化的生态系统中几乎必然被打破。在气候变化、土地利用转变和极端事件的持续干扰下,未来状态日益落在历史数据的覆盖范围之外,以历史数据训练的模型由此可能产生误导性的高置信度预测。
Mishra同时指出结构性短板:大多数生态学家缺乏机器学习和算法偏差的正式训练,而AI从业者缺乏生态直觉。计算资源和高质量数据集集中在少数资源充裕的机构,可能进一步加剧已有的不平等。她呼吁期刊要求研究者披露模型假设和验证程序,高校将AI素养纳入生态学教育,资助机构推动跨学科培训。
https://www.pnas.org/doi/10.1073/pnas.2533976123

本周出版的《自然》杂志特稿,系统梳理了AI大语言模型对社会科学研究的双重冲击。
威胁首先来自数据端。柏林马克斯·普朗克人类发展研究所博士生Raluca Rilla发现,她收到的问卷回复中,估计高达45%来自大语言模型的复制粘贴输出。在亚马逊Mechanical Turk等众包平台上,参与者有经济动机用AI代替自己作答,部分情况下,注册、阅读题目、提交答卷的全套流程可能均由机器完成。
威胁其次来自分析端。数据集体量庞大、用途泛化,使社会科学天然容易从噪声中"挖出"看似显著的结果。AI的介入大幅加速了这一过程:政治学家David Lazer演示了如何用大语言模型在一小时内生成一篇28页的学术论文,完整包含文献综述、表格和图表。期刊方面,《组织科学》报告自2022年11月ChatGPT发布以来投稿量上涨42%,其中近三分之一的摘要文本几乎全由AI生成。研究者还担忧AI加速"P值操纵",即通过反复调整分析方式直到得出统计显著结果,再倒推一个貌似合理的假设。
但文章同时呈现了另一面。哈佛统计学家Nic Fishman指出,AI可以让"规格曲线分析"成为常规操作,即同时运行所有合理的分析组合,检验结论的稳健性,这正是此前因耗时过大而难以推广的方法。西北大学计算机科学家Jessica Hullman认为,当技术性核查变得触手可及,研究者判断"什么问题值得探究"的能力将变得更加关键。
https://www.nature.com/articles/d41586-026-01726-y

18支团队分析同一份数据集,得出了截然不同的答案
今年3月,在里斯本香帕利莫基金会举办的"Brainhack"黑客马拉松上,18支神经科学团队拿到完全相同的神经像素(Neuropixels)数据集,被要求回答同一组问题,其中包括:哪个脑区的海马尖波涟漪(sharp-wave ripples)密度最高?
表面上,17支完成该问题的团队中有12支给出了相同结论:各脑区之间没有差异。但这个“共识”是虚假的。各团队实际检测到的涟漪数量差异悬殊,从几乎为零到每分钟多达10次不等。各团队使用的方法均属合理范围,包括基于近期共识论文的方法、深度学习检测器,以及经典的带通滤波加阈值技术。方法不同,定义不同,结果就根本不同。
这一结果并非孤例。2025年伯恩斯坦会议上的类似黑客马拉松得出了几乎相同的模式:跨越两次活动、超过100名研究者,涉及有向功能连接和神经元放电交互的问题,始终未能产生可辨识的共识。
文章作者、国际脑实验室运营总监Gaëlle Chapuis和列日大学(University of Liège)研究员Mattia Chini指出,问题的根源不在于研究者的技术水平,而在于"研究者自由度":分析神经电生理数据时存在大量看似合理、实则任意的选择,概念定义、算法选取、参数设定三个层面均有分歧。在不存在发表压力的黑客马拉松中尚且如此,现实的学术发表环境只会让这种分歧产生更大影响。
两位作者随即发起了CON²PHYS项目,向全球神经科学家开放参与,征集截止日期为2026年11月30日,旨在系统量化电生理学核心概念的解读差异。
https://www.thetransmitter.org/reproducibility/eighteen-teams-analyzed-the-same-neurophysiology-dataset-and-got-wildly-different-answers/

自然指数(Nature Index)近期发布分析报告,追踪其收录的高影响力期刊中第一作者和最后作者的性别分布,结果显示过去十年进展极为缓慢。
数据层面,2025年自然科学领域中,女性占第一作者比例为29%,占最后作者比例为17%,分别较2015年的28%和15%仅有微幅提升。在健康科学领域,女性虽已占全部作者署名的41%、第一作者的44%,但最后作者比例仅为31%。物理科学中的差距最为突出,女性仅占2025年第一作者的20%和最后作者的13%。即便是女性参与度相对较高的生物科学,女性最后作者比例也仅从2015年的21%升至2025年的24%。
第一作者通常是主要执行者,最后作者通常是课题负责人,两个位置在学术评价体系中都直接关联资助、晋升和学术声誉。Georgia Institute of Technology信息科学家Cassidy Sugimoto指出,在科学界,这两个署名位置是"通行货币"。
在儿科研究等女性参与度高的领域,第一作者与最后作者之间的性别差距反而更大,表明女性在从初级到资深角色的转型阶段面临更多障碍。另有研究发现,女性作为第一或通讯作者的生物医学论文,同行评审周期比男性作者的论文长7%至15%。
针对现状,爱尔兰的干预案例提供了可参考的路径:通过设立申请人性别限额、采用同等评分时优先考虑代表性不足性别等措施,该国女性研究者获得资助的比例从2011年的16%提升至2024年的47%。
https://www.nature.com/articles/d41586-026-01495-8

一个"无药可治"的靶点被攻破,癌症治疗的边界正在移动

图|胰头癌(红色,人工上色)对治疗具有极强的抵抗性,但一种新药几乎将这类癌症患者的生存期延长了一倍。©️PNMB/Science Photo Library。
5月31日,美国临床肿瘤学会(ASCO)年会上发布了一项针对晚期胰腺癌的临床试验结果,研究同步发表于《新英格兰医学杂志》。实验药物daraxonrasib将患者中位总生存期从化疗的6.7个月延长至13.2个月,几乎翻倍。这一结果在会场引发长时间起立鼓掌。
daraxonrasib由Revolution Medicines开发,能够同时关闭RAS蛋白家族的全部三个成员。RAS蛋白是调控细胞生长与分裂的分子开关,某些突变会让它持续处于"开启"状态,驱动肿瘤生长。RAS蛋白表面光滑,缺乏药物分子通常赖以结合的深层口袋,长期被视为"不可成药"靶点。2021年获批的首款抗RAS药物仅针对KRAS蛋白的单一突变,适用人群有限且肿瘤容易产生耐药性。daraxonra sib的突破在于覆盖了整个RAS家族。
这一结果正在带动对其他难治靶点的研究预期。《自然》杂志的相关报道梳理了三个方向:其一是MYC蛋白,约70%的癌症与其过度活跃相关,实验药物OMO-103在19人小型试验中已显示出初步效果;其二是p53蛋白,编码它的基因是癌症中最常见的突变基因,rezatapopt通过稳定一种特定突变体使约20%参与者的肿瘤缩小;其三是β-catenin蛋白,与结直肠癌等多种癌症相关,实验药物zolucatetide在早期临床试验中显示出良好的耐受性和持久应答。
https://www.scientificamerican.com/article/landmark-pancreatic-cancer-treatment-paves-way-for-targeting-other-tricky-tumors/

科学界的风险厌恶症:问题不在于外部攻击,在于内部不愿改变
耶鲁大学生态与演化生物学副教授C. Brandon Ogbunu在Undark发表评论,围绕一个核心问题展开:科学界是否过于规避风险?
他对"风险"给出了明确定义。首先,并非指向自2025年初以来对科学机构的外部冲击,包括以"让美国再次健康"(Make America Healthy Again,MAHA)为旗号、由小罗伯特·肯尼迪推动的一系列反建制科学政策行动;其次,也不是质疑科学作为知识生产工具的合法性。这里的风险,指的是愿意审视科学的流程、惯例与激励机制,评估它们是否有效,并在必要时大幅改革。
Ogbunu列举了当前科学体制中有据可查的结构性问题:学术出版商凭借对期刊订阅和评价指标的垄断性控制,主导着成果传播与职业晋升的评价标准;招聘和晋升中网络效应严重,偏向特定机构和导师谱系;某些学术"思想派系"凭借非科学因素主导领域;跨界研究者面临可量化的职业代价;族裔与性别方面的结构性差距持续影响资助、引用和领导层构成。
他特别指出,有人认为当前外部危机时期不适合对科学内部提出批评,这是一种错误的二元对立:捍卫科学机构免受政治攻击,与改革科学体制内部的失效机制,并不相互排斥。
作者认为替代性方案已经存在,包括《旧金山科研评估宣言》(DORA)、资助申请抽签制度,以及专门支持高风险项目的研究资助机制,只是这些方案目前仍停留在边缘地带,尚未得到系统性检验。
https://undark.org/2026/06/04/opinion-risk-aversion-innovation/
象牙塔时代终结,科学需要一座花园
认知神经科学家 Jonathan Jackson 在STAT发表评论,以亲历者视角审视美国科学体制的双重危机。
危机之一来自内部:SCORE(社会科学可重复性合作项目)是迄今规模最大的社会科学可重复性系统评估,历时七年、覆盖近 4000 篇论文。其最新核查结果显示,接受直接重复验证的研究中,约半数无法通过。可重复性问题早已蔓延至神经影像、心理学和生物医学领域,但这次有了可以援引的数字。
危机之二来自外部:过去 15 个月,NIH 裁减数千名工作人员,终止大批资助,早期研究者资助率从 26% 降至 19%。更值得警惕的是,一项面向近千名研究者的 STAT 调查显示,逾三分之二的健康差异领域科学家悄然调整研究方向以迎合联邦优先议题,驱动力是政治,而非科学本身。
Jackson 认为,问题的根源在于结构:美国科学像摩天楼一样建造,超过半数的大学科研经费来自单一联邦来源,任何政策变动都可能成为致命打击。他主张转向"花园式"科学,即横向分布、多元开放的生态,包括州级资金、患者主导的研究、便携技术下沉社区,以及科学家之间的互助网络。重复性危机不是终点,而是一个迟来却指向出路的诊断。
https://www.statnews.com/2026/05/27/science-enterprise-replication-crisis-ivory-tower-community/


夜雨聆风