掘金下一波AI浪潮:那把关键的“数据铲子”是什么?

4月16日，以“蜂行天下，数驱智能”为主题的觅蜂（Maniformer）一站式物理AI数据服务平台发布会在上海张江科学会堂举办。会上，觅蜂科技董事长兼CEO姚卯青的阐述，不仅揭示了这家从智元孵化出的数据服务商的战略布局，更如同一把钥匙，打开了观察中国具身智能产业基础设施建设的窗口。

定位：从“本体制造商”到“行业送水人”

在具身智能这场马拉松中，跑在最前面的可能不是最终的应用者或本体制造商，而是提供“铲子”的数据基建方。姚卯青直言，人工智能产业链中，“卖铲子的人是最先赚钱的”，正如AI芯片领域的英伟达。他将数据类比为算力，预言其将成为一种“非常基础的共性的生产资料”，且具备投资回报周期。

与母公司智元专注于机器人本体及解决方案不同，觅蜂科技明确将自己定位为“全行业一站式数据服务平台”。这意味着，其服务对象不仅包括智元，更面向所有具身智能领域的参与者——从探索前沿算法的大模型公司、互联网大厂，到渴求数据验证的初创团队。这种“独立第三方”的定位，是其商业模式得以成立的前提。姚卯青强调，觅蜂与智元在数据交易上完全遵循市场化原则，智元获取数据的唯一途径是“下订单”采购，价格与其他客户无异，不存在免费通道。

商业模式：To B定制化下的“数据工厂”逻辑

目前，觅蜂的数据生意是典型的To B模式。需求方对数据有着强烈的定制化要求，粒度差异巨大：有的仅需宏观场景划分，有的则细致到具体物件（如“往洗碗机里放什么样的碗碟”）。定价因而分布较广，据了解，国内市场真机数据价格大约在每小时500-1000元人民币。相比之下，无本体（以人为中心）采集的数据，因其成本结构不同，未来价格可能收敛至真机数据的二分之一到三分之一。

为实现2026年“千万小时级”的数据产能目标，觅蜂采用了“自营样板+加盟代工”的轻资产运营模式。公司自身保持一支一两百人的“小而精”团队，负责新采集范式的0到1验证、流程标准制定，充当“中试基地”。而大规模产能则通过“蜂巢数据共创行动”，赋能给加盟的合作伙伴。这些伙伴可能是地方数据生产基地、创业团队或其他企业，觅蜂向其输出培训、管理、软件平台并派发订单，形成类似“代工厂”的协作网络。这种模式旨在快速扩张产能，同时规避重资产运营的风险。

技术双轨制：真机数据与“无本体”采集的并行与博弈

数据采集路径方面，觅蜂布局了两条并行的技术路线：传统的真机遥操作数据采集，与新兴的以人为中心的“无本体”（UMI）数据采集。

1、真机数据：被视为落地应用不可绕过的环节。其价值在于“同构性”——由目标机器人本体在真实应用场景中采集，数据分布完全匹配，能满足严苛的、高成功率的落地要求。但缺点也明显：硬件投入大、采集效率低、成本高昂。

2、无本体数据：则主打“高效率”和“低成本”。通过让人佩戴如MEgo Gripper、MEgo View等专用设备，采集第一视角的视觉与动作数据，再通过算法迁移到机器人上。

已关注

关注

重播分享赞

视频详情

据了解，无本体数据采集的兴起主要受三股力量推动：首先是学术界的创新需求；其次是工业界对快速上量、低成本数据的迫切期待；第三则是美国学术界在缺乏机器人与廉价劳动力的客观条件下，所采取的一种“曲线救国”路径。然而，该技术存在天然缺陷：通过视觉重建提取的动作轨迹精度仅为厘米级，与机械臂亚毫米级的操作要求存在巨大鸿沟；同时，人手与机械手在形态、自由度与动作范围上均无法一一对应，在数据转化过程中必然产生近似误差与信息损失。

因此，无本体数据目前尚无法取代真机数据，其主要价值在于为对绝对精度要求不高的预训练、表征学习等前沿探索环节提供高效的“燃料”。据姚卯青预计，2026年千万小时数据产能中，60%-70%将集中于无本体数据，真机数据约占200-300万小时。这种比例分配，反映了行业当前对“快速试错”与“扎实落地”的双重渴求。

核心挑战：质量验证、隐私安全与行业乱象

尽管前景广阔，但数据生意要真正跑通，仍面临几大核心挑战：

首先是数据质量的证明与验证。 这是所有数据买家都会问的“灵魂拷问”。觅蜂的解题思路是构建“价值闭环”与“飞轮效应”——不仅采集数据，更要通过算法进行后训练，在仿真或真机上快速验证数据的有效性，从而部分证明其价值。同时，建立从任务设计、人员培训、采集规范到标注审核的全流程标准体系。

其次是隐私与安全风险。 尤其是当采集设备“下放”到家庭、考虑采用众包模式时。姚卯青表示，将从技术（如人脸脱敏、车牌隐藏）和协议（获得采集者明确授权）两方面进行管控，借鉴自动驾驶、互联网地图等领域的成熟经验。

再者是行业初期的重复建设与低效运营。 姚卯青指出，当前全国建设的许多数据采集中心存在“为运营而运营”的问题，重复场景数据多，效率低下。一些初创团队虽有意入局，但多停留在研发样机阶段，缺乏大规模运营能力。而无本体采集门槛的降低，可能短期内加剧同质化竞争。他认为，市场最终会向少数能提供稳定、高质量数据的产品和服务商集中。

数据基建先行，但“GPT-3时刻”仍需等待

将视角拉至整个具身智能产业，行业给出了冷静的判断。据分析，当前具身智能领域可规模获取的高质量数据量仍在百万至千万小时级别，这与大模型动辄所需的百亿小时级训练数据相比，存在数个数量级的差距。行业观点认为，具身智能的发展阶段大致相当于大模型在2017-2018年Transformer刚出现时的状态，“大家已经看到一条路径，但是还没有看到完整智能涌现雏形”。预测显示，具身智能要达到类似大模型的突破性发展阶段，还需要4-5年时间。

然而，这并不妨碍资本市场提前布局。姚卯青认为，市场给予具身智能公司高估值，是基于对“下一个万亿级赛道”的共识。投资本身具有风险属性，过程中必然有公司崛起也有公司掉队，但看准大方向最终可能获得回报。

然而，这并不妨碍资本市场提前布局。姚卯青认为，市场给予具身智能公司高估值，是基于对“下一个万亿级赛道”的共识。

觅蜂科技：价值的链接者

觅蜂科技作为中国具身智能产业在狂热投融资与扎实基础设施建设之间寻找平衡的缩影，致力于提供让机器人变“聪明”的数据燃料，以成为技术的引领者、标准的制定者和价值的链接者。

在具身智能的宏大叙事中，算法、算力、数据是三大基石。当算法创新不断涌现、算力军备竞赛如火如荼之时，高质量、规模化、低成本的数据供给已成为制约行业发展的关键瓶颈。觅蜂科技能否成功打通数据生产、验证、交易的全链路，成为赋能整个行业的“送水人”，不仅关乎其自身的商业成败，也在一定程度上影响着中国具身智能产业爬坡破局的速度与质量。这条“数据铲子”之路，注定充满挑战，但也蕴含着基础设施先行者独有的机遇与价值。