乐于分享
好东西不私藏

a16z 物理AI的新兴范式:机器人学习、自动科学与新型人机界面|Research Curation

a16z 物理AI的新兴范式:机器人学习、自动科学与新型人机界面|Research Curation

推荐语:如果你正在 AI 前沿深耕——无论是为机器人训练基础模型、设计自动实验室,还是开拓下一代人机接口——这篇文章都非常推荐。Oliver Hsu 是 Andreessen Horowitz(a16z)American Dynamism 团队的合伙人,专注新兴计算平台与物理世界应用(此前曾在 Mos、Andela 等初创公司任职,并拥有普林斯顿大学背景)。

为什么“物理 AI”并非简单“机器人 2.0”,而是下一代重大前沿?他在这篇新作中,对机器人学习、自动科学(尤其材料科学与生命科学领域)以及脑机接口(BCI)、神经可穿戴设备等新型接口如何融合成“物理 AI”全新扩展范式,进行了清晰而极具前瞻性的剖析。

文章借用了驱动当今语言模型的数据-计算-算法飞轮逻辑,系统梳理了共享的技术原语——物理动力学的学习表示、具身动作架构、仿真/合成数据基础设施、扩展的感知流形,以及闭环智能体系统——如何快速成熟并相互强化。这篇分析的最大亮点在于,它精准定位了这些领域“距离现有语言/代码范式仅一步之遥”的独特位置:既能继承既有势头,又足以催生全新能力和防御性护城河。

当 AI 领域的主流范式仍围绕语言与代码展开时,一股新兴的力量正在悄然蓄势。机器人学习(Robot Learning)、自动科学(Autonomous Science)以及新型人机交互界面(New Human-Machine Interfaces)——这些看似各自独立的赛道,实则共享着同一组技术底层构件,正共同构成物理人工智能的新前沿。


一、主流范式的边界与延伸

当前 AI 领域的主导范式,围绕语言与代码构建。大语言模型(Large Language Model, LLM)的扩展规律已被充分刻画,数据、计算与算法改进所形成的商业飞轮持续运转,增量能力提升带来的回报依然丰厚而可理解。正因如此,这一范式吸引了大量资本与关注。

然而,一批相邻且相关的领域正悄然取得实质性的突破。这些领域包括:通用机器人模型(VLAs, WAMs)、用于科学发现的物理与科学推理、以及借助 AI 进展重新思考人机交互方式的新型界面(包括脑机接口(Brain-Computer Interface, BCI)、神经科技等)。除技术进展外,每个领域都已开始显现人才、资本与创业者涌入的迹象。将前沿 AI 延伸至物理世界所需的技术原语正在同步成熟,过去十八个月间的进步轨迹表明,这些领域可能即将进入各自独立的扩展阶段。

在此范式中,当前感知能力与中期潜在收益之间差距最大的领域,往往是那些能够受益于当前前沿扩展动力、却又与现有范式相隔一步的领域——足够近以继承其基础设施与研究势能,却又足够远以需要非平凡的额外工作。这一距离具有双重功能:既为快速跟进者创造天然护城河,又定义了更丰富、更少被探索、更可能产生新能力的问题空间——毕竟,轻松的路径早已被捷足先登。


二、三个前沿领域

循此逻辑审视当下,三个领域符合这一特征:机器人学习(Robot Learning)、自动科学(Autonomous Science, 尤指材料与生命科学领域)、以及新型人机界面(New Human-Machine Interfaces, 包括脑机接口、静默语音、神经穿戴设备、以及数字化嗅觉等新型感知模态)。这些并非完全独立的努力,在主题上同属“物理世界前沿系统”这一新兴范畴。

它们共享着共同的技术底层构件:物理动力学的学习表征、具身行动的架构、仿真与合成数据基础设施、不断扩展的感知流形、以及闭环的 agentic 编排。这些领域以相互增强的方式运作,在跨领域间形成复合动力。而它们正是最有可能通过模型规模、物理 grounding 与新型数据模态的交互,产生实质性新 AI 能力的领域。

本文将审视这些系统背后的技术原语,探讨为何这三个领域尤其代表前沿机会,并论证它们的相互强化如何构成延伸 AI 至物理世界的结构性飞轮。


三、技术原语

在审视具体应用领域之前,有必要理解使这些前沿系统成为可能的共享技术根基。五大核心技术原语支撑着前沿 AI 向物理世界的推进。这些技术并非必然专属于任何特定应用领域;相反,它们是创造延伸至物理世界的系统的基本构件。正是它们的同步成熟,使得当前这一时刻显得格外独特。

3.1 物理动力学的学习表征(Learned Representations of Physical Dynamics)

最基础的原语,是学习物理世界行为的压缩、通用表征的能力——物体如何移动、变形、碰撞及响应力。若无此能力,每个物理世界 AI 系统都必须从零开始学习其领域的物理学,这在成本上是一个令人望而却步的命题。

多种架构家族正从不同方向收敛于这一能力。

视觉-语言-动作模型(Vision-Language-Action, VLA)从上方切入:它们利用预训练的视觉语言模型(Vision-Language Model, VLM)——已具备对物体、空间关系和语言的丰富语义理解——并扩展出输出运动命令的行动解码器。核心洞见在于,学习观察和理解世界的巨大成本可以通过互联网规模的图像-文本预训练来摊销。Physical Intelligence 的π₀、Google DeepMind 的 Gemini Robotics、以及 NVIDIA 的 GR00T N1 都已展示了这一架构的大规模应用。

世界动作模型(World Action Model, WAM)从下方切入相同的能力:它们建立在互联网规模视频预训练的扩散变换器之上,继承关于物理动力学的丰富先验——物体如何下落、如何遮挡、在力作用下如何交互——并将这些先验与行动生成相结合。NVIDIA 的 DreamZero 展示了向全新任务和环境的零样本泛化,在实现有意义的真实世界泛化改进的同时,还实现了从人类视频演示的跨具身转换,仅需少量适应数据。

第三条路径可能最能指引这一领域的方向。它完全摒弃了预训练的 VLM 和视频扩散 backbone。Generalist 的 GEN-1 是一种原生具身基础模型(Native Embodied Foundation Model),从零开始训练,使用超过五十万小时的真实世界物理交互数据,主要通过执行日常操作任务的人类佩戴的低成本穿戴设备收集。它不是标准意义上的 VLA(因为没有视觉语言 backbone 可供微调),也不是 WAM。相反,它是一种真正面向物理交互的基础模型,从设计之初就旨在从人类-物体接触的统计数据中学习动力学表征,而非从互联网图像、文本或视频中学习。

空间智能(Spatial Intelligence)——如 World Labs 等公司正在构建的技术——对这一原语至关重要,因为它解决了 VLAs、WAMs 和原生具身模型都共同面临的一个表征缺口:它们都未显式建模其所操作场景的三维结构。VLAs 继承来自图像-文本预训练的 2D 视觉特征。WAMs 从视频中学习动力学,而视频是 3D 现实的 2D 投影。学习穿戴设备传感器数据的模型捕捉了力和运动学,但未捕捉场景几何。空间智能模型可以通过学习重建、生成和推理物理环境的完整 3D 结构——几何、光照、遮挡、物体关系和空间布局——来填补这一缺口。

这里的收敛才是关键。无论这些表征是从 VLM 继承、从视频协同训练学习,还是从物理交互数据原生构建,底层原语都是相同的:物理世界行为的压缩、可迁移模型。这些表征的数据飞轮是巨大的且尚未被充分开发——不仅包括互联网视频和机器人轨迹,还包括人类物理体验的广阔语料库,这些正通过穿戴设备开始被大规模捕捉。相同的表征服务于学习折叠毛巾的机器人、预测反应结果的自动驾驶实验室、以及解释运动皮层抓握计划的神经解码器。

3.2 具身行动的架构(Architectures for Embodied Action)

物理表征是必要条件,但非充分条件。将理解转化为可靠的物理行动需要解决若干相互关联问题的架构:将高级意图映射到连续运动命令、在长时域保持一致性、在实时延迟约束下运行、以及通过经验改进。

双系统层级架构(Dual-System Hierarchical Architecture)——分离用于场景理解和任务推理的慢速、强大量视觉语言模型(系统 2, System 2),用于实时控制的快速、轻量视觉运动策略(系统 1, System 1)——已成为复杂具身系统的标准设计模式。GR00T N1、Gemini Robotics 和 Figure 的 Helix 都采用了这一方法的变体,解决着大型模型提供的丰富推理与物理任务所需的毫秒级控制频率之间的根本张力。Generalist 则采用谐波推理方法,同时实现思考与行动。

行动生成机制本身正在快速演进。流匹配(Flow Matching)和扩散式行动头(Diffusion-based Action Head)——由π₀开创——已成为生成平滑、高频连续行动的主导方法,取代了从语言建模借用的离散 token 化方法。这些方法将行动生成视为类似于图像合成的去噪过程,产生的轨迹在物理上更平滑,比自回归 token 预测更能抵抗累积误差。

最引人注目的架构发展可能是将强化学习(Reinforcement Learning, RL)扩展到预训练的 VLA——即在演示上训练的基础模型可以通过自己的自主实践来改进的理念,正如一个人通过重复和自我纠正来精炼技能。Physical Intelligence 在π₀.₆上的工作代表了这一原理在大规模上的最清晰展示。他们的方法 RECAP(RL with Experience and Corrections via Advantage-conditioned Policies, 通过优势条件策略的带经验和修正的强化学习)解决了一个纯模仿学习无法解决的问题:长任务周期中的信用分配。如果机器人以略微错误的角度抓住意式咖啡机的过滤器手柄,失败可能直到几步后插入失败时才显现。模仿学习没有机制将失败归因于更早的抓取;强化学习有。RECAP 训练一个价值函数来估计任何中间状态的成功概率,然后条件化 VLA 选择高优势行动。关键在于,它将异构数据(演示、在线自主实践、执行期间提供的专家遥操作修正等)整合到统一的训练管道中。

这一方法的结果对行动强化学习的未来颇具启示。π₀.₆在真实家庭中折叠 50 种新型衣物类型、可靠地组装盒子,并在专业机器上制作浓缩咖啡,运行数小时无需人工干预。在最难的任务上,RECAP 与纯模仿基线相比,吞吐量提高一倍以上,失败率降低一半或更多。该系统还表明,强化学习后训练产生了与模仿学习性质上不同的行为,如更平滑的恢复、更有效的抓取策略和自适应错误修正——这些在演示数据中并不存在。

这些收益表明,驱动 LLM 从 GPT-2 到 GPT-4 的计算扩展动力开始在一个更早期的曲线上运作——仅仅是拥有连续、高维度且受真实世界物理不可妥协约束的行动空间。

3.3 仿真与合成数据作为扩展基础设施(Simulation and Synthetic Data as Scaling Infrastructure)

在语言领域,数据问题被互联网解决:万亿个自然产生的 token 文本。在物理世界,数据问题难度高出一个数量级——正如现在已被充分理解的那样,物理世界 AI 数据供应商初创公司的快速增加清楚地表明了这一点。真实世界的机器人轨迹成本高昂、危险且扩展受限;语言模型可以从十亿次对话中学习,但机器人无法拥有十亿次物理交互。

仿真与合成数据生成是解决这一约束的基础设施层,它们的成熟是物理世界 AI 现在加速而非五年前加速的关键原因之一。

现代仿真栈结合了基于物理的仿真引擎、通过光线追踪的逼真渲染、程序化环境生成、以及桥接仿真到真实差距的世界基础模型——从仿真输入生成逼真视频。管道从真实环境的神经重建(仅使用智能手机)开始,通过物理精确的 3D 资产生成,到大规模自动标注的合成数据生成。

仿真栈改进的意义直观地改变了支撑物理世界 AI 的经济假设。如果物理 AI 的瓶颈从收集真实数据转向设计多样化虚拟环境,成本曲线就会崩塌。仿真随计算扩展,而非随人力或物理硬件扩展。这以与互联网规模文本数据训练语言模型相同的方式改变了训练物理世界 AI 系统的经济性,意味着对仿真基础设施的投资对整个生态系统具有超比例的杠杆作用。

然而,仿真不仅仅是机器人原语。同一基础设施服务于自动科学(实验室设备的数字孪生、假设预筛选的仿真反应环境)、新界面(训练 BCI 解码器的仿真神经环境、用于校准新型传感器的合成感官数据)、以及 AI 与物理世界交互的其他领域。仿真是物理世界 AI 的通用数据引擎。

3.4 不断扩展的感知流形(Expanding the Sensory Manifold)

物理世界通过远比视觉和语言丰富的信号集进行交流。触觉传达关于材料属性、抓握稳定性和接触几何的信息,这些对摄像头是不可见的。神经信号以超过任何当前人机接口的带宽编码运动意图、认知状态和感知体验。Subvocal 肌肉活动在产生任何声音之前就编码了语音意图。第四个原语是 AI 对这些先前无法访问的模态的快速扩展的感知接入,这不仅由研究驱动,还由建设处理这些信号的消费规模设备的生态系统驱动。

这一扩展最明显的指标是新设备类别的出现。AR 设备近年来在用户体验和形态方面大幅改进(公司在此平台上为消费者和工业用例构建应用);语音优先 AI 穿戴设备通过伴随用户进入物理世界,为基于语言的 AI 提供更全面的上下文。更长期来看,神经接口可能开放更全面的交互模式。AI 呈现的计算转变创造了一个显著推进人机交互方式的机会,像 Sesame 这样的公司正在构建实现这一目标的新型模态和设备。

更具主导性的模态为新兴计算机交互方式创造了顺风。像 Wispr Flow 这样的产品将语音推向更主要的输入模态(鉴于其高信息密度的优势),围绕静默语音界面的市场动态也变得更加有利。静默语音设备(Silent Speech Device)——使用各种传感器检测舌头和声带运动以无声音破译语音——代表了一种与计算机和 AI 交互的更高信息密度模态。

脑机接口(Brain-Computer Interface, BCI)——侵入性和非侵入性——代表了更深的前沿,围绕它们的商业生态系统持续进步。该领域的信号是临床验证、监管清除、平台整合和围绕纯粹学术性的技术类别聚集的机构资本的汇聚进展。

触觉传感正在进入具身 AI 架构,因为一些机器人学习模型开始显式地将触觉纳入其方法。嗅觉接口正在成为真实的工程工件:用于混合现实应用的具有毫秒响应时间的微型化气味发生器的可穿戴展示,而嗅觉模型正在与视觉 AI 系统配对以用于化学过程监测。

所有这些发展汇聚在一起的模式是它们在极限处相互收敛。AR 眼镜生成关于用户如何与物理环境交互的连续视觉和空间数据。EMG 腕带(EMG Wristband)捕捉人类运动意图的统计数据。静默语音接口捕捉 subvocal 发音与语言输出之间的映射。BCI 以可用的最高分辨率捕捉神经活动。触觉传感器捕捉物理操作的接触动力学。每个新设备类别也是馈入多个应用领域模型的数据生成平台。在 EMG 衍生运动意图数据上训练的机器人学习不同于仅在遥操作上训练的机器人。对 subvocal 命令做出反应的实验室界面实现了与键盘不同的科学家-机器交互类型。在高密度 BCI 数据上训练的神经解码器产生的运动规划表征通过任何其他渠道都无法访问。

这些设备的普及正在扩展训练前沿物理世界 AI 系统可用的有效数据维度——而且这一扩展的大部分是由资本充足的消费产品公司驱动,而不仅仅是学术实验室,这意味着数据飞轮可以随市场采用而扩展。

3.5 闭环 Agentic 系统(Closed-Loop Agentic Systems)

最后一个原语更具架构性。它是将感知、推理和行动编排为持续、自主、闭环系统的能力,这些系统在长时域中无需人工干预即可运行。

在语言模型中,类似的发展是 agentic 系统的出现——多步推理链、工具使用和自我纠正工作流——将模型从单轮问答者推进到自主问题解决者。在物理世界,同一转变正在进行,但要求更高。犯错误的语言 agent 可以无成本地回溯,而掉落烧杯试剂的物理 agent 则无法挽回。

三个属性区分物理世界 agentic 系统与其数字同类。首先,它们需要在实验或操作循环中具身(Embodied):直接接入原始仪器流、物理状态传感器和将推理接地于物理现实而非文本描述的驱动。其次,它们需要长时域持久性(Long-Horizon Persistence):跨操作周期保持连续性的记忆、起源跟踪、安全监控和恢复行为,而非将每个任务视为独立的 episode。第三,它们需要闭环适应能力(Closed-Loop Adaptation):基于物理结果而非仅文本反馈来修订策略的能力。

这一原语是将单个能力(良好的世界模型、可靠的行动架构、丰富的传感器套件)转化为可以在物理世界中自主运行的功能系统。它是集成层,其成熟使得下文描述的三个应用领域可以作为真实世界部署而非孤立的研究演示成为可能。


四、三大应用领域

上述原语是通用使能层。它们本身并不指定最重要的应用将出现在哪里。许多领域涉及物理行动、物理测量或物理传感。将前沿系统与仅仅改进的现有系统区分开来的是模型能力和扩展基础设施在该领域内的复合程度——不仅产生更好的性能,还产生以前不可能的质的新的能力。

机器人学习AI 驱动的科学新型人机界面是复合最强的三个领域。每个领域以不同的配置组装原语。每个领域都受这些原语正在消除的限制所瓶颈。而且每个领域都作为其运营的副产物产生正是使原语本身变得更好的结构化物理数据,形成加速整个系统的反馈循环。它们不是唯一值得关注的物理 AI 领域,但它们是前沿 AI 能力与物理现实交互最密集的领域,而且与当前语言/代码范式的距离为新能力的涌现创造了最大的空间,同时保持高度互补并受益于这些能力。

4.1 机器人学习(Robot Learning)

机器人学习是这一命题的最直接体现:一个需要 AI 系统实时感知、推理和物理作用于物质世界的领域。它也是最直接同时测试每个原语的领域。

考虑一下通用机器人折叠毛巾需要做什么。它需要学习力作用下变形材料如何行为的表征——这是语言预训练无法提供的任何物理学先验。它需要一个可以将高级指令翻译为以 20Hz 或更高控制频率的连续运动命令的行动架构。它需要仿真生成训练数据,因为没有人收集过数百万次真实世界毛巾折叠演示。它需要触觉反馈来检测滑动和调整抓握力,因为仅凭视觉无法区分牢固的抓握和即将失败的抓握。而且它需要一个可以检测折叠何时出错并恢复的闭环控制器,而非盲目执行记忆的轨迹。

这正是机器人学习是前沿系统而非成熟工程学科配备更好工具的原因。这些原语不仅仅改进现有的机器人能力;它们解锁了以前在狭隘控制的工业设置之外不可能的操作、运动和交互类别。

近年来前沿取得了有意义的进步。第一代 VLA 展示了基础模型可以跨多样化任务控制机器人。架构进步在机器人系统的高级推理和低级控制之间取得了进展。设备上的推理变得可行,跨具身转换意味着模型可以使用有限的数据适应全新的机器人平台。核心挑战是规模化可靠性,这仍然是部署的瓶颈。即使 95% 的步骤成功率在 10 步任务链上也只能产生 60% 的成功率,而生产环境要求远好得多。这正是强化学习后训练具有高潜力的地方,可以帮助我们走向表明领域进入其扩展阶段的能力和鲁棒性。

这些进展对市场结构有影响。数十年来,机器人领域的价值累积在机械系统本身,而虽然这仍然是栈的关键部分,随着学习的策略变得标准化,价值迁移到模型、训练基础设施和数据飞轮。但机器人学习也反馈到之前讨论的原语:每个真实世界轨迹都是更好世界模型的训练数据,每个部署失败揭示仿真覆盖的差距,每个测试的新具身扩展了可用于预训练的物理体验多样性。机器人学习是原语最苛刻的消费者之一,也是其改进信号最重要的来源之一。

4.2 自动科学(Autonomous Science)

如果机器人学习针对实时物理行动的需求测试原语,自动科学针对稍微不同的事物测试它们——对因果复杂物理系统的持续、多步推理,在以小时或天为单位测量的时间尺度上,其实验结果必须被解释、contextualized 并用于修订策略。

AI 驱动的科学是原语组合最完整的领域。自动驾驶实验室(Self-Driving Laboratory, SDL)需要物理和化学动力学的学习表征来预测实验将产生什么。它需要具身行动来移液、定位样本和操作分析仪器。它需要仿真来预筛选候选实验并分配稀缺的仪器时间。它需要扩展传感——如光谱学、色谱法、质谱法以及越来越新型的化学和生物传感器——来表征结果。而且它比其他任何领域都更需要闭环 agentic 编排原语——在每个循环揭示的内容修订策略的能力,维持多周期假设-实验-分析-修订工作流而不需要人工干预,保持 provenance、监控安全。

没有其他领域如此深度地调用这些原语。这正是自动科学是前沿系统而非仅仅是更好软件的实验室自动化的原因。像 Periodic Labs 和 Medra 这样的公司分别在材料科学和生命科学领域统一了科学推理能力与测试该推理的物理能力,使科学迭代成为可能,并在此过程中生成实验训练数据。

这些系统的价值相当直观。传统材料发现从概念到商业化需要数年时间,而 AI 加速的工作流可能将这一过程压缩得更短。绑定约束正在从假设生成转向制造和验证,这需要物理仪器、机器人执行和闭环优化。SDL 正是旨在解决这一瓶颈。

自动科学在所有这些物理世界系统中的一个额外重要属性是其作为数据引擎的角色。SDL 运行的每个实验不仅产生科学结果,还产生物理接地、实验验证的训练信号。特定条件下聚合物如何结晶的测量丰富了世界模型对材料动力学的理解。经验证的合成路线成为物理推理的训练数据。表征的失败教 agentic 系统在哪里其预测崩溃。这种由 AI 科学家进行真实实验产生的数据与互联网抓取的文本或仿真输出在性质上不同,因为它是有结构的、因果的且经验验证的。它是物理推理模型最需要且可以从任何其他来源获得的数据类型。自动科学是领域直接将物理现实转化为改善整个物理世界 AI 生态系统的结构化知识。

4.3 新界面(New Interfaces)

机器人学习将 AI 延伸至物理行动,自动科学将其延伸至物理调查。新界面将其延伸至人类感知、感官体验和身体自身信号的直接耦合——通过从 AR 眼镜和 EMG 腕带到植入式脑机接口的设备。将这些类别统一起来的不是单一技术,而是扩大人类智能与 AI 系统之间信道带宽和模态的共享功能,同时生成关于人与世界交互的数据,这些数据对构建物理世界 AI 直接有用。

与现有范式之间的距离是该领域挑战和潜力的来源。语言模型在概念上了解这些模态,但对静默语音的运动模式、嗅觉受体结合的几何或 EMG 信号的暂时动力学并不天然原生。解码这些信号的表征必须从不断扩展的感知流形中学习。这些模态中的许多没有互联网规模的预训练语料库,数据经常必须来自界面本身,这意味着系统和它们的训练数据以语言 AI 中没有类似物的方式共同演化。

该领域的近期表达是 AI 穿戴设备作为消费产品类别的快速出现。AR 眼镜可能是这一类别最明显的例子,以及其他采用语音或视觉优先输入模态的消费穿戴设备。

这个消费设备生态系统不仅为 AI 延伸至物理世界创造了新的硬件平台,还为物理世界数据创造了基础设施。佩戴 AI 眼镜的人可以产生关于人类如何导航物理环境、操作物体和与世界交互的第一人称连续视频流。其他穿戴设备捕获连续生物识别和运动数据。总而言之,AI 穿戴设备的安装基数正在成为物理世界 AI 的分布式数据收集网络,在以前不可能的规模上检测人类物理体验。考虑智能手机作为消费设备的规模——一种新型消费设备的普及使计算机能够以那种规模传感世界的新模态,也创造了 AI 与物理世界交互的大量新信道。

脑机接口(Brain-Computer Interface, BCI)代表更深的前沿。Neuralink 已植入多名患者,并正在迭代其手术机器人和解码器软件。Synchron 的 endovascular Stentrode 已用于给予瘫痪用户控制和数字和物理环境的能力。Echo Neurotechnologies 正在开发基于其高分辨率皮层语音解码工作的语音恢复 BCI 系统。此外,像 Nudge 这样的新公司已组建以聚集人才和资本来构建与大脑交互的新神经接口和平台。研究领域的技术里程碑也值得注意。BISC 芯片展示了在单个芯片上 65,536 个电极密度的无线神经记录,BrainGate 团队直接从运动皮层解码内部语音。

从 AR 眼镜、AI 穿戴设备、静默语音设备到植入式 BCI 的贯穿线不仅仅是它们都是界面。它们共同构成了人类物理体验与 AI 系统之间越来越高带宽的信道谱系——而且该频谱上的每个点都有助于支持本文讨论的所有三个领域的原语持续进步。在数百万 AI 眼镜佩戴者的高质量自我中心视频上训练的机器人学习的操作先验与仅在策划的遥操作数据集上训练的机器人不同;对 subvocal 命令做出反应的实验室 AI 的延迟和流畅性与键盘控制的实验室 AI 不同;在高密度 BCI 数据上训练的神经解码器产生的运动规划表征通过任何其他渠道都无法访问。

新界面是感官流形本身增长的机制,通过打开以前不存在的物理世界与 AI 之间的数据信道。而且这一扩展是由寻求大规模部署产品的消费设备公司驱动的,意味着数据飞轮将随消费采用而加速。


五、物理世界的系统

将机器人学习、自动科学和新界面视为组合相同原语的不同前沿系统的原因在于,它们以相互使能的方式复合。

机器人学习使能自动科学。 自动驾驶实验室在核心上是机器人系统。为通用机器人开发的能力——灵巧抓取、液体处理、精准定位、多步任务执行——直接可转移到实验室自动化。随着机器人模型改进在通用性和鲁棒性上的提升,SDL 可以自主执行的实验协议范围扩大。机器人学习的每一次进步都降低并提高了自动实验的成本和吞吐量。

自动科学使能机器人学习。 SDL 生成的科学数据——如经验证的物理测量、因果实验结果、材料性能数据库——可以提供世界模型和物理推理引擎改进所需的结构化接地训练数据。此外,下一代机器人所需的材料和设备——如更好的执行器、更敏感的触觉传感器、更高密度的电池等——本身就是材料科学的产物。加速材料创新的自主发现平台可以直接改善机器人学习运行的硬件基板。

新界面使能机器人学习。 AR 设备是感知和与物理环境交互的可扩展数据收集方式。神经接口产生关于人类运动意图、认知规划和感官处理的数据。这些数据对训练机器人学习系统尤为宝贵,特别是涉及人际-机器人协作或遥操作的任务。

关于前沿 AI 进展本身的更深层洞见是:语言/代码范式已取得了非凡的成果,并在扩展时代持续显示出强劲的改进。物理世界提供了几乎无限的新问题、数据类型、反馈信号和评估标准。通过将 AI 系统接地于物理现实(通过操纵物体的机器人、合成材料的实验室和连接生物与物理世界的界面),我们开辟了与现有数字前沿互补的新扩展轴——而且很可能是相互改进的。

我们应该从这些系统中期望的新兴能力难以精确预测,因为涌现在定义上产生于单独理解但共同新颖的能力交互中。但历史模式确实令人鼓舞。当 AI 系统获得与世界交互的新模态时——当它们能看见时(计算机视觉)、当它们能说话时(语音识别)、当它们能读和写时(语言模型)——结果的能力在质上大于部分改进的总和。向物理世界系统的转变代表了下一个这样的相变。在这个意义上,这里的原语正在被构建中,并可以使前沿 AI 系统能够感知、推理和与物理世界交互,在物理领域释放大量价值和进步。

关于我们:👋 Research AI+是一个面向青年研究者的 Global开放社区。我们汇聚了AI 及 AI for Science/Engineering方面的众多优秀学者、科研工作者和产业界研究员、工程师、AI项目开源贡献者和Tech Founders,是一个站在学术、产业与创业交叉点的创新型开源社区。欢迎志同道合的小伙伴关注和加入我们!👇

点击下方关注我们