AI 从数字世界走向物理现实:机器人、世界模型与材料科学的范式革命(来自 South Park Commons)-夜雨聆风

AI 从数字世界走向物理现实:机器人、世界模型与材料科学的范式革命(来自 South Park Commons)

对话者

Joseph Krauss：Radical AI 联合创始人兼首席执行官

Rob Cochran：Fauna Robotics 联合创始人兼首席执行官

Pim：General Intuition 创始人

Eric Newcomer：Newcomer通讯作者，Cubal Valley AI 峰会主持人

概要

人工智能正在经历从纯粹的“数字世界”向“物理世界”渗透的历史性拐点。 South Park Commons 纽约分部举办的深度对话，系统梳理了三位前沿创业者在机器人、世界模型与材料科学三个关键领域的实践与洞见。Fauna Robotics 创始人 Rob Cochran 分享了其刚刚被亚马逊收购的人形机器人Sprout 的设计哲学——安全性、亲和力与可部署性优先于追求完美功能。General Intuition 的 Pim 详细阐述了如何利用视频游戏数据预训练世界模型，解决了物理世界中动作–状态因果对标注的根本难题。Radical AI 的 Joseph Krauss 则展示了如何通过“AI 科学家”与全自动机器人实验室结合，将材料发现周期从数十年压缩至数月，并已获得雷神等战略投资者的支持。

三位创始人共同指向一个核心命题：当前语言模型在物理空间中的能力极其有限，真正的挑战在于将“比特到比特”的压缩能力扩展为“比特到原子”的闭环系统。对话中提出的“AI 三阶段框架”——信息到信息、信息到原子、原子到原子——为理解物理 AI 的发展路径提供了清晰的坐标系。此外，创始人们一致认为，在大科技公司难以聚焦的硬科技领域，初创企业凭借极致的专注、对客户需求的深度绑定以及快速迭代能力，拥有不可替代的结构性优势。对话为风险投资者、技术创业者和产业研究者提供了关于物理AI 前沿技术趋势、商业化路径与竞争格局的系统性分析。

主题分析

主题一：物理 AI 的资本化路径——从独立创业到战略并购的逻辑

Fauna Robotics 被亚马逊收购的消息在对话中成为讨论起点。这一交易不仅是单个公司的退出事件，更折射出大型科技公司对物理 AI 能力的战略渴求。Rob Cochran 指出，他在 AWS 的工作经历积累了与亚马逊的长期信任关系，但最终促成并购的核心驱动力并非人际关系，而是亚马逊对其“机器人如何与人类协同工作”这一长期愿景的认同。值得注意的是，亚马逊并未要求Fauna 改变其技术路线或产品形态，反而支持其在纽约继续独立运营。

这一案例揭示了一个重要趋势：在物理 AI 领域，大型平台公司正在从“自行研发”转向“战略吸收”。与传统软件并购不同，物理 AI 涉及硬件、嵌入式系统、实时控制、安全认证等复杂环节，内部从零构建的成本和时间窗口都已不再具备优势。并购方看中的不仅是当前技术能力，更是创始团队对“人机共处”场景的独特理解。

Rob 强调，创业公司需要将“可被收购”作为一种隐含的里程碑来设计。这与纯粹追求独立上市的策略不同——前者要求公司在某个垂直维度上形成不可替代的差异化能力，且这种能力恰好是平台型公司的结构性短板。在 Fauna 的案例中，这种能力体现为“小型、安全、可实验部署的人形机器人平台”，而非试图解决所有家庭任务的全能机器。

此外，并购时机的选择同样关键。Rob 建议创始人必须“提前两轮思考”：每一轮融资不仅要解决当下生存问题，还要为后续的资本路径或退出路径铺路。在物理AI 这种资本密集领域，过早锁定某一大客户或战略投资者可能限制后续选择，但适度的战略合作又能验证技术价值。Fauna的经验表明，最理想的并购发生在公司已经证明技术可行性、但尚未进入大规模量产烧钱阶段的“成长期拐点”。

主题二：视频游戏作为世界模型的训练场——因果结构数据的不可替代性

General Intuition 的核心洞见在于：训练能够理解物理世界因果关系的模型，需要的是“动作–状态”配对数据，而非单纯的视频观察。Pim 明确指出，人类标注者无法在 100 毫秒精度内准确分离动作与环境状态变化的因果关系，而视频游戏恰好提供了这种“地面真实”数据——游戏引擎完整记录了每一次控制器输入（动作）与下一帧画面（状态）之间的确定性映射。

该思路与自动驾驶领域长期存在的“数据规模至上”逻辑形成对比。Pim 认为，特斯拉等公司收集的真实驾驶数据虽然规模庞大，但因果结构模糊，难以用于预训练真正通用的世界模型。相比之下，游戏数据的优势体现在三个层面：其一，动作空间与观察空间完全对齐，消除了标注误差；其二，游戏引擎可以模拟极端场景（如事故、故障），这些在真实世界中难以获取或成本过高；其三，游戏数据的生成速度远超真实世界数据采集。

世界模型的本质是“给定当前状态和动作，预测下一状态”的条件生成模型。Pim 强调，这一能力的关键应用不在于模拟“正常情况”，而在于评估机器人或智能体在“意外情况”下的表现。传统物理引擎依赖人工编码的简化牛顿力学，无法涵盖真实世界中的随机性与复杂性。而基于游戏数据预训练的世界模型，可以在无需显式物理规则的前提下，学习到物体交互、遮挡、碰撞等复杂现象的隐含分布。

值得注意的是，General Intuition 并不试图让模型直接预测电机扭矩等底层控制信号，而是停留在“游戏控制器”级别的抽象层面。这是一个重要的设计选择——它将模型需要预测的维度从数十个自由度压缩至几个模拟摇杆和按钮，极大降低了学习难度，同时保持了与大多数现有机器人控制接口的兼容性。Pim认为，找到“共同分母”接口是物理 AI 技术栈中最具商业价值的设计决策之一。

主题三：AI 驱动的材料科学——从“计算发现”到“可交付材料”的跨越

Radical AI 的Joseph Krauss 提出了一个关键区分：“计算发现”的材料与“可交付”的材料之间存在巨大的鸿沟。Google DeepMind 等机构曾发布 220 万个新材料的计算预测，其中约40,000 个被认为“稳定”，但几乎没有任何一个进入实际应用。其根本原因在于，这些预测仅基于电子结构模拟，未经受真实世界中热、力、氧化、腐蚀等复杂环境的检验。

Radical AI 的方法论建立在“闭环自动化”之上：一个被命名为“Rad”的LLM 智能体（基于 OpenAI 或 Claude 模型微调）充当实验室首席研究员（PI），负责设计实验、调用量子化学模拟工具、控制机器人实验台进行材料合成与表征，并分析实验结果。这一智能体与人类科学家形成“人机协作”关系——人类负责标注实验结果的“好坏”作为训练信号，智能体负责执行高吞吐量实验并迭代优化。

该系统的核心价值在于构建“实验数据集”。Joseph 指出，当前材料科学领域几乎没有系统化记录失败实验的数据库，而失败实验恰恰是训练稳健预测模型的宝贵样本。Radical AI 的自驱动实验室每天可运行数百次实验，每次实验从合成到表征全流程自动化，所有数据（包括成功与失败）都被结构化存储，形成竞争对手难以复制的数据壁垒。

在商业模式上，Radical AI 选择直接“销售材料”而非销售软件或服务。这意味着公司需要完成从发现、测试到规模化制造的全链条，覆盖高熵合金、超导体、电池阴极材料等目标品类。Joseph强调，其客户并非寻求“优化现有材料”的公司，而是需要“现有材料无法满足性能”的前沿应用场景，如高超音速飞行（Mach 10 条件下的耐热材料）、核聚变反应堆内壁、下一代航空涡轮等。

主题四：LLM 在物理空间的局限——从“预测文本”到“理解因果”的未解难题

三位创始人一致认为，当前大语言模型在物理空间中的能力被严重高估。Pim 用“比特到比特”框架概括LLM 的优势领域：凡是可以用文本、图像等数字信息表示的任务，模型已展现出惊人的压缩与生成能力。然而，物理世界涉及三个根本性差异：其一，时间连续性——物理过程是毫秒级的连续变化，而非离散的 Token 序列；其二，因果识别——区分相关性与因果性需要干预实验，这在物理世界中成本极高；其三，多模态对齐——视觉、触觉、力觉、本体感觉需要统一表征，目前尚无成熟方案。

Rob Cochran 从机器人部署的实际经验出发指出，即便是最先进的仿真环境与真实机器人之间仍存在“仿真到现实”（sim-to-real）鸿沟。传统方法是雇佣工程师手工编写物理引擎，但任何简化都会导致策略失效。LLM在此处的角色不是直接控制机器人，而是辅助生成多样化的仿真环境，让验证器自动筛选出物理上合理的场景。这一“生成–验证”循环将工程师从“编写规则”转变为“验证输出”，实现了数量级的效率提升。

Joseph 补充了一个更深层的限制：实验数据的匮乏。在材料科学中，训练一个可用的扩散模型需要数万甚至数十万次高质量实验，而Radical AI 是极少数拥有自驱动实验室的公司。对于没有此类设施的研究团队，LLM 只能提供“文本层面的材料知识”，无法转化为可执行实验方案。这引出了一个关键判断：在“比特到原子”领域，拥有物理实验基础设施本身就是最强的护城河。

Pim 进一步指出，将AGI 视为一个单一时间点的问题过于简化。他借用 Andrej Karpathy 的三阶段框架：第一阶段“比特到比特”（数字内容生成）已进入超速发展阶段；第二阶段“比特到原子”（信息指导物理操作）受限于测量系统的精度与成本；第三阶段“原子到原子”（物理系统自主改造其他物理系统）仍处于早期探索。当前 LLM 的进展几乎全部集中于第一阶段，而物理 AI 的核心挑战隐藏在第二、三阶段。

主题五：人形机器人的争议——形态、安全与商业化的三角约束

Rob Cochran 对“人形机器人是终极形态”这一主流叙事提出了审慎质疑。Fauna Robotics 选择 3.5 英尺高、50 磅重的小型机器人 Sprout，核心考量是安全性与可实验部署性。一个150-200 磅的全尺寸人形机器人在家庭环境中一旦失控（如倾倒或碰撞儿童），后果不可接受。在技术尚未完善的今天，任何需要“信任”的物理 AI 产品，其首要设计目标应是“失败后果可控”，而非“功能完备”。

这一选择背后是对商业化路径的清醒认识：当前没有任何机器人能够完美执行家庭中的多样化任务。因此，可行的策略是提供一个“足够安全且讨人喜欢”的平台，让研究社区和早期用户容忍其缺陷，并在此基础上逐步积累能力。Sprout的“可爱设计”（包括可动的眉毛和面部LED）并非噱头，而是降低用户心理戒备、提高容错率的工程手段。

Pim 则从第一性原理出发质疑人形形态的普遍性。他指出，选择人形的隐含假设是“存在大量人类操作的自我中心视角视频数据可用于模仿学习”，但这并不意味着人形是最优的物理形态。在许多场景中，控制环境本身（如智能家居、工业自动化设备）比制造一个昂贵、耗能、笨重的人形机器人更为高效。他预测，在家庭中可能会普及的是针对特定任务的专用机器人（如扫地、擦窗、搬运），而通用人形机器人将长期局限于工厂和实验室。

两位创始人的观点映射出物理 AI 领域的一个深层张力：形态的通用性与商业化可行性之间的权衡。追求完全通用的人形机器人意味着必须同时解决运动控制、操作、感知、规划、安全等所有难题，这种“全栈攻克”策略的资金和时间需求远超任何初创企业的承受范围。相比之下，选择受限但明确的形态（如Fauna 的小型机器人），可以在安全认证、成本控制、用户体验等维度上快速迭代，并为后续技术突破争取时间窗口。

主题六：数据飞轮与竞争对手——为何初创企业在大科技阴影下仍有机会

当被问及如何面对微软、谷歌、Meta 等大科技公司的竞争时，Joseph 给出了直截了当的回答：“在材料科学领域，我不认为 Meta 会与我们竞争。”这一判断基于一个事实：大科技公司的核心商业模式（广告、云服务、消费软件）决定了其资源分配优先级，物理实验设施、高熵合金合成、航空材料认证等“重资产”能力不在其核心能力圈内。

Pim 进一步用Anthropic 的案例说明了初创企业的结构性优势。Anthropic 并非LLM 领域的先行者，但通过“极度专注客户需求”和“代码能力优先”的策略，在OpenAl 和 Google 之间找到了生存空间。大公司随着时间的推移必然变得官僚化、分心化，其产品路线图受到内部政治、现有业务冲突和季度财报压力的多重制约。相比之下，初创企业可以“孤注一掷”地将全部人才、算力和资金锁定在一个细分问题上。

然而，这并不意味着初创企业可以忽视大公司的动向。Rob 强调，在物理 AI 领域，初创企业需要“比大公司更早地选择正确的聚焦点”，并迅速建立起难以复制的数据壁垒或物理资产。Fauna 的选择是“安全可部署的小型人形平台”，这一定位对于亚马逊而言过于狭窄（不符合其大规模物流场景的需求），但对于创业公司而言恰恰是合适的切入点。

三位创始人共同的结论是：在“比特到比特”领域，大公司凭借计算和数据规模具有压倒性优势；但在“比特到原子”和“原子到原子”领域，物理世界的约束（实验周期、安全认证、供应链管理、设备投资）反而成为初创企业的护城河。大公司无法轻易为每一条技术路线建造自动化实验室、采购数千万美元的设备、或招聘与之匹配的跨学科团队。这种“物理摩擦力”为初创企业提供了长达数年甚至十年的竞争窗口。

主题七：AI 三阶段框架——物理智能演进的路标

对话中反复出现的一个分析框架将 AI 的能力演进划分为三个阶段。

第一阶段“比特到比特”涵盖所有纯数字领域的信息处理：文本生成、图像合成、代码编写、数据分析等。这是当前LLM 和多模态模型的主战场，特点是数据可无限复制、训练可完全在数字环境中完成、评价指标清晰（如困惑度、准确率）。该阶段的资本效率最高，一个中等规模的创业团队在云算力支持下即可参与竞争。

第二阶段“比特到原子”指数字化信息指导物理世界的操作，包括机器人控制、3D 打印、数控加工等。其核心挑战在于“测量系统”的缺失——如何将物理世界的状态（如材料应力、温度场、分子构型）实时、高精度地转换为数字信号，并建立与操作指令之间的可靠映射。这一阶段的进展受限于传感器精度、通信延迟、控制带宽等物理因素，无法通过单纯的算力堆叠解决。

第三阶段“原子到原子”是完全闭环的物理智能：物理系统自主感知、决策并改造其他物理系统，无需人类介导。这对应自动化实验室、材料合成工厂、自主维修机器人等场景。Joseph指出，Radical AI 的目标正是接近这一阶段——AI 科学家直接调用机器人实验台，完成从假设生成到实验验证到数据分析的全流程，人类仅在高层次目标设定和异常处理时介入。

表1 物理 AI 的分层模型

信息层（比特到比特）	物理接口层（比特到原子）	物理闭环层（原子到原子）
数字内容生成与理解	传感器读取与执行器控制	物理系统的自主改造
数据无限复制	受物理精度与延迟约束	每一步都消耗真实资源
算力是主要瓶颈	测量系统是主要瓶颈	规模化是主要瓶颈
LLM 已超速发展	Robotics 当前主战场	自动化实验室的商业化前

该框架对投资决策具有重要指导意义：处于第一阶段的创业公司面临大模型厂商的挤压，差异化空间收窄；第二阶段需要找到“测量系统瓶颈”的突破点（如新型传感器、仿真到现实对齐技术）；第三阶段则要求创业者具备物理基础设施的建设和运营能力，资本需求量大但护城河极深。

主题八：物理 AI 创业的纪律——聚焦、说“不”与里程碑设计

对话中多次出现的另一个核心主题是“创业纪律”，尤其在硬科技领域，分散精力是最大的风险。Rob 指出，机器人公司面临“客户会提出 17 个不同问题”的常态，但创始人的核心能力是识别哪些问题与公司的核心假设相关，哪些可以暂时忽略。Fauna 在早期拒绝了所有与“安全小型人形”定位不符的商业机会，即使这些机会能带来短期收入。

Joseph 将这一理念延伸至硬件采购决策：面对36 个月交期的定制设备，公司需要严格评估该设备在长期产品路线图中的复用价值。如果仅用于一个短期合同，自行开发或改造的风险和资本支出得不偿失。Radical AI 选择购买而非自建某些昂贵设备，将有限的人力集中在“AI 科学家+机器人实验台集成”这一核心差异化环节。

Pim 补充了一个独特的视角：在物理AI 领域，“接口”设计本身就是最重要的战略决策。General Intuition 选择游戏控制器作为统一的动作接口，避开了电机扭矩预测、高精度力学建模等无差别难题，将精力集中于世界模型的质量提升。这一选择意味着明确放弃了某些需要精细力控制的工业场景，但换来了在“可游戏控制器控制的机器人”这一细分市场的绝对领先。

这种“主动限制问题范围”的策略与硅谷常见的“快速扩张到所有可能市场”文化形成鲜明对比。三位创始人的共识是：物理 AI 的技术成熟度远低于数字AI，过早追求通用性会导致系统在任何场景下都不够可靠。正确的路径是先在一个受限但可验证的场景中达到“足够好”的水平，建立数据飞轮和用户信任，再逐步外推能力边界。

主题九：材料科学的商业化瓶颈——认证、集成与供应链安全

Joseph 在问答环节深入回应了材料科学的商业化挑战，核心在于“认证”与“集成”两个环节。在航空航天等领域，新材料必须经过漫长而昂贵的“资格认证”流程，证明其在实际工作条件下的安全性和可靠性。传统上这一过程耗时数年至数十年，成为创新的主要障碍。

然而，Joseph 观察到的一个关键变化是：终端产品制造商（如 SpaceX、空客、普惠等）正在“从顶部向下垂直整合”。这些公司不再等待政府机构或材料供应商完成全套认证，而是自行建立材料和测试团队，为自己的特定系统定制材料，并承担相应的风险验证。这种趋势大幅缩短了新材料从实验室到应用的时间周期，为Radical AI 这类公司创造了直接与 OEM 合作而非必经过政府认证的通道。

另一个商业化瓶颈来自供应链安全。许多高性能材料依赖中国控制的关键矿物（如铪、铌），美国政府和企业正在积极寻找“无冲突矿物”替代方案。Joseph 指出，这催生了一个独特的需求：不仅需要性能更优的材料，有时需要“性能相同但去掉特定元素”的材料。这是一个不同的优化问题——需要在不改变整体性能的前提下改变成分。Radical AI 已经成功完成了类似任务（去除铪元素后保持材料性能），展示了其平台在处理“约束优化”问题上的灵活性。

长期来看，Joseph 预测材料科学的商业模式将从“提供标准化合金”转向“按需定制材料”。每一位汽车、航空或能源工程师都可以通过自然语言描述需求，AI系统自动完成设计、合成、表征和交付。这一愿景的实现依赖于两个前提：实验数据闭环的规模化和认证流程的数字化/自动化。

主题十：人才与组织——在物理 AI 时代，智能体与人类的协作界面

Pim 分享了General Intuition 内部的一个案例：一位 QA（质量保证）工程师在黑客松期间构建了一个名为“ML DataBot”的 Slack 智能体，公司成员可以直接用自然语言向其提问数据相关问题（如“上个月用户留存趋势如何？”）。该智能体自动生成 SQL 查询、执行分析并返回结果，体验如同与一位数据同事对话。这一工具迅速普及到全公司，以至于数据库因并发查询过载而需要扩容。

这一案例揭示了物理 AI 时代组织变革的核心方向：低绩效的重复性分析工作正在被智能体取代，而人类的价值转向“构建、配置和监督”智能体。Pim 强调，他不认为 AGI 已经到来，但“优于随机的想法生成器”已经足够自动化大量任务。关键在于找到合适的“人机接口”——Slack 的自然语言对话优于复杂的仪表盘和编程接口，因为它符合人类的工作习惯。

Rob 从消费机器人的角度补充了“人为中心的设计”理念。无论是 AR/VR 还是机器人，技术成功的关键在于“人愿意与它互动”。这涉及软性的情感设计（如 Sprout 的可动眉毛和 LED 面部）和硬性的安全设计（如轻量化、碰撞防护）。在能力不足的阶段，用户的原谅意愿是产品存活的必要条件，而这只能通过“让人喜欢甚至喜爱这个设备”来获得。

Joseph 则从团队组建的角度指出，Radical AI 要求“整个公司必须使用智能体框架”——不仅仅是工程师，也包括运营、商务和科学家。这一强制要求旨在确保所有岗位的成员理解 AI 的能力边界和调用方式，从而在日常工作中自然融入自动化。他认为，物理AI 创业公司面临的最大人力资源挑战不是“招聘顶级 AI 研究员”，而是“批量培养能够有效利用AI 工具的多面手”。

总结与展望

本次对话揭示了一个清晰的信号：人工智能正在从纯粹的符号操作领域，不可逆转地渗透进原子世界。Fauna Robotics、General Intuition 和Radical AI 分别代表了这一趋势在机器人硬件、世界模型和材料科学三个关键维度的实践前沿。三家公司共同指向一个根本判断：未来十年的技术红利，将属于那些能够构建“从比特到原子”闭环系统的团队，而非仅仅在数字世界中优化模型精度的团队。

对于风险投资者而言，物理 AI 时代的评估框架需要根本性调整。传统的“技术–产品–市场”分析必须增加“物理约束”维度：实验周期的长短、设备投入的规模、安全认证的难度、供应链的可靠性，这些因素对商业化的影响可能远大于模型架构的优劣。在“比特到比特”时代被证明成功的“快速迭代、快速融资、快速扩张”模式，在物理 AI 领域可能面临滑铁卢。

同时，对话也提出了若干亟待回答的开放问题。其一，世界模型能否在脱离游戏数据的情况下，通过物理世界的自监督学习达到同等能力？其二，自动化实验室的规模化瓶颈在于设备成本还是数据管理的软件基础设施？其三，在人形机器人真正进入家庭之前，需要哪些“中间形态”的产品来积累用户信任和使用数据？这些问题将成为未来三到五年物理AI 投资的核心命题。

最后，三位创始人对初创企业优势的强调值得反复咀嚼。在物理 AI 这一“重资产、慢周期、深技术”的领域，大型科技公司的组织结构和激励设计天然不适宜进行探索式创新。因此，未来十年的物理AI 巨头，极大概率将诞生于今天的创业公司之中。关键在于，这些公司是否能够在资源有限的情况下，坚守“聚焦、说‘不’、深度绑定客户”等看似朴素却极其艰难的纪律。只有跨越这一纪律挑战的团队，才有资格在物理世界重新定义人工智能的边界。

免责声明

本报告基于有关对话，不构成任何投资建议，亦不代表任何机构的正式立场。本报告仅用于研究与教育目的。