
文章来源:「浦江科技评论」2026年4月刊
材料科学并不缺信息,它缺的是一种把信息转化为判断的能力。
每年,化学与材料领域都会新增大量论文、专利、实验记录和工艺数据。它们贡献了无数配方、参数、失败经验与局部结论,却分散在彼此隔绝的子领域里:光伏不必然理解催化,有机不天然连通无机,实验室里的诀窍也很少能顺畅进入工业语境。信息在增长,知识却未必在累积。
谢童把这种状态概括为一句话:信息极度泛滥,知识极其匮乏。
这正是律动造物想解决的问题。这家2023年成立于澳大利亚的AI for Science公司,试图用领域语言模型和自主实验系统重构材料与化学研发流程。它的出发点并不宏大,甚至有些朴素:如果AI连化学的基本“语法”都没学会,它就不可能真正参与推理,更不可能进入实验室。
作为律动造物的创始人,谢童表示正在加大中国市场的投入与布局。选择扎根中国,是因为中国拥有非常完整的工业体系、丰富的产业数据和密集的应用场景。对于一家需要大量真实数据来训练和验证模型的公司而言,这里是最合适的主场。
从实验台到语言模型
谢童的学术路径并不典型。高中时他就开始做化学项目,本科阶段在材料与化学之间穿梭,后来进入新南威尔士大学攻读光伏材料与计算机科学交叉博士,与布拉姆·胡克斯(Bram Hoex)教授共同领导新南威尔士大学的AI4S研究组。
到2021年正式展开博士研究时,他做了一个与主流并不一致的选择:不沿着原子尺度的第一性原理计算继续深入,而是尝试用自然语言处理(NLP)理解并加速材料发现。
这套逻辑听上去并不复杂。人类在没有今天这些计算工具的年代,同样发现了大量新材料,靠的不是穷举,而是读论文、学书本、与同行讨论,在已有知识中寻找线索、组合经验、提出新假设。谢童的问题是:机器能不能先模拟这个过程,通过语言进入科学发现?
在当时,这更像一个学术冒险,而非成熟路线。2021年的NLP已经在翻译、分类、抽取等任务上证明了价值,但在科学场景中,它离“理解学科”还很远。
早期最痛苦的问题是一切都不通用。信息提取要一个模型,性质预测要另一个,不同子领域还要各自训练,整套系统既臃肿,又难拓展。谢童最初甚至只能用词向量方法筛选材料。“当时我们以为,这套方法至少会比DFT便宜,”他回忆说,“结果今天很多模型反而更贵了——当然,能力也强得多。”

到2022年年底,团队开始训练领域BERT,用有限算力做专用预训练。GPT随后出现,局面开始发生变化:一个大模型第一次有可能同时承担信息抽取、推理和生成任务,不仅能从论文中提取结构化知识,也能在合适微调后输出数值结果。这意味着,过去需要多个专用模型分头处理的任务,开始有机会由单一模型统一完成。
这条路线后来凝结为Darwin系列。2023年发布的Darwin,是团队较早面向自然科学任务展开的领域语言模型尝试之一。它通过自动化科学指令生成等方法,把更多科学知识注入模型,并在若干任务上表现出比通用模型更强的专业适配性。在谢童看来,Darwin的核心并不复杂:用语言作为统一接口,去缝合材料科学长期分裂的数据与知识结构。
这背后其实是一个表示问题。材料科学并不缺局部知识,缺的是可连接、可复用、可推理的知识结构:论文是文本,配方是表格,晶体结构是图,工艺条件是流程,实验结果又常常带有强烈的场景依赖。通用模型虽可以“看见”这些内容,却未必真正形成了足够稳定的专业表示。
团队曾分析材料科学论文在模型隐空间中的分布,发现大量细分知识被压缩在相对狭窄的区域内,语义边界并不清晰。原因也不难理解:材料与化学论文即便数以千万计,放进整个人类知识语料中,依然只是局部。仅靠通用预训练,大模型很难自然形成对这门学科的深层理解。
这也是谢童坚持做领域专用模型的原因。与生物学拥有DNA、RNA、蛋白质等相对统一的表示框架不同,材料科学长期缺少一套真正通用的“连接语言”。在这个意义上,语言模型的价值不只是读论文,而是为这个高度碎片化的领域提供一个最低限度的统一接口。
先学“语法”,再学推理
真正让谢童意识到“语法问题”有多关键,是在团队尝试把强化学习迁移到化学任务之后。
思路原本很直接:如果强化学习可以显著提升数学推理能力,为什么不能提升化学推理能力?但实验很快碰壁。模型在书写化学方程式时,会犯一些人类化学家几乎不会犯的基础错误,比如写错化学式。在化学任务中,符号错误往往不是局部失误,而是会沿着反应路径和约束条件层层传递,最终让后续推理全部失效。
这暴露出一个与数学不同的现实:化学不只有少量统一符号和规则,它包含元素组合、价态、构型、反应条件与各种例外。一个在预训练阶段从未真正掌握这些规则的模型,很难仅靠强化学习“补课”。在谢童看来,强化学习更像放大器,而不是凭空创造领域能力的机器。
这一判断后来发展为MiST框架,这是谢童团队与瑞士洛桑联邦理工学院(EPFL)联合发表的研究成果。按照团队的说法,在强化学习之前,模型需要经历一个中间阶段的科学训练,获得基本的符号能力和足够的领域经验。只有先学会“说对”,后续的“推得对”才有可能发生。
团队为此提出了一个可量化的诊断指标,叫作符号能力得分(Symbolic Competence Score,简称SCS)。实验表明,当SCS大于1.5时,强化学习才能有效激发模型的化学推理能力;低于这个阈值,无论怎么训练都几乎没有效果。团队回溯性地分析了市面上多个开源基座模型的SCS,发现得分最高的Mistral-24B恰好就是另一个化学推理模型ether0所选用的基座,进一步验证了这一指标的预测价值。
在实际效果上,经过MiST训练的Qwen 3B模型(30亿参数),在有机反应命名任务上将准确率从10.9%提高到63.9%,在无机材料生成任务上从40.6%提高到67.4%。这个30亿参数的模型,已经在多项化学任务上显著超过未经过相应中期训练的基础模型。
但这套方法的意义,也应被谨慎理解。学会化学“语法”并不等于真正理解化学;一个模型可以正确书写SMILES、命名反应、完成部分推理任务,却仍未必掌握反应机理、工艺约束和真实实验中的复杂变量。对于任何试图把大模型带入实验室的公司而言,挑战从来不只是让模型答对题,而是让它在现实世界里持续做出可验证、可复现的判断。
闭环的真正瓶颈
模型只是第一层。谢童真正想做的,是一个完整的闭环系统:在明确目标和约束条件之后,由AI生成实验策略,驱动机器执行实验,采集结果,再将反馈返回模型迭代,直到逐步收敛。
“我们做的东西特别像材料化学领域的Claude Code,一个能理解研发需求、自主规划并执行任务的AI智能体,而且是To B的。”谢童这样类比。
围绕这套逻辑,律动造物形成了两条产品线:一条是面向研发决策的科学AI智能体,负责搜索背景知识、理解约束、生成实验方案;另一条是自主化实验系统,负责执行实验、采集数据和完成验证。前者决定方向,后者决定速度,两者合起来构成一个从“干验证”到“湿验证”的循环。
在谢童看来,真正重要的不是某个模型在单项任务上的分数,而是整个系统能否缩短迭代周期。这也是AI4S公司与传统软件公司的一个根本区别:它最终交付的不是一次判断,而是一整套不断逼近答案的机制。
但当模型与实验真的开始连接时,新的瓶颈很快出现了——而且未必来自算法。
在谢童看来,今天很多检测和表征设备,仍是按照人类研究者的操作节奏设计的。对传统实验室而言,一分钟测一个样品并不算慢;但当模型可以在更短的时间内生成大量候选方案时,硬件的检测速度、信息粒度和接口兼容性,就会迅速成为制约系统整体效率上限的因素。

这也是为什么律动造物一方面与设备厂商联合开发更高通量的实验能力,另一方面也试图推动更开放的软硬件通信接口。按照团队的计划,他们希望用更标准化的协议降低不同设备接入AI系统的适配成本。这个愿景是否能成为行业共识,还有待观察;但它确实点出了自主实验室最现实的问题之一:很多时候,卡住AI的不是模型,而是仪器。
开放标准与商业落地
同时,律动造物正在搭建一个全开源的基准测试,衡量各类AI模型在闭环物理化学实验中的表现能力。“所有实验参数和细节我们都会公开,就像宜家一样,你买了硬件设备回家就能自己搭一套,看看能不能复现我们的结果。”谢童说。材料科学领域长期存在“只有你能做出来”的手法依赖问题,同一个实验室里,两个人用完全相同的方案可能得到截然不同的结果。标准化和可复现性,是整个领域进步的基础设施。
在商业上,律动造物目前聚焦精细化工与光伏两类场景。一种模式是把软硬件一体的系统交给客户自主运行;另一种则更接近CRO,由公司自建实验室承接具有更高不确定性的材料研发任务。
选择把重心放到中国,背后有明显的产业逻辑。中国拥有更完整的工业体系、更密集的制造场景,也更容易获得真实世界中的工艺数据与验证机会。对于一家试图把模型带入实验闭环的公司而言,这些条件比学术声量更重要。
但谢童也承认,产业并没有完全为AI的速度做好准备。从模型训练到设备适配,从小试到放大,从验证到认证,整个研发体系仍然主要按人的节奏运转。换句话说,AI可以先快起来,产业未必能立刻跟上。
“AI for Science是一件长期的事情。”谢童说。在AI向科学研究深处渗透的过程中,材料与化学很可能会成为最难也最值得攻克的领域之一。它们的数据更碎,实验更慢,验证链条更长,也更依赖那些难以标准化的经验与语境。
从这个意义上来说,律动造物要解决的并不只是“让模型更聪明”,而是让它先变得更可靠:先正确读写化学表达式,然后理解约束条件,再提出能被实验验证的方案,最后进入真实研发流程。每一步都比生成一段流畅回答更难,也更接近科学发现真正的门槛。
这也是这家公司真正值得观察的地方。它提出了一个很少被正面讨论的问题:在化学与材料科学中,AI的瓶颈也许不是不会生成答案,而是还没有建立足够稳定的学科表示;不是先追求更大的模型,而是先学会这门学科的基本语法。至于这种“先学语法,再谈推理”的路径,最终能否转化为稳定的发现能力,仍然需要更多实验、更多客户,也需要更多时间来回答。



夜雨聆风