大家好,我是Lisa。AI行业最近有个公开的秘密:高质量物理世界训练数据,供需差距可能接近十万倍。但大家都在盯着大模型、盯着算力、盯着融资额——没几个人真正重视这个数据缺口意味着什么。 出行平台,可能是这轮AI竞赛里最被低估的角色。
长期深耕 AI 产业与汽车智能化趋势,拆解底层逻辑。
点击下方名片并关注,可持续获取独家深度思考。
01 AI竞争的下一章,剧本换了
2023年到2025年,AI行业的叙事是:大模型能力突飞猛进,参数规模越来越大,应用场景越拓越宽。 2026年,这个叙事悄悄变了。 行业内一个越来越明确的判断是:大模型的能力正在接近天花板,模型层的机会窗口正在收窄,下一阶段的竞争焦点正在向数据层转移。 不是算法,不是算力,是数据。 特别是物理世界的真实数据。
原因是:大模型要进化到世界模型、具身智能、空间智能,必须依赖真实物理世界的交互数据。文字和代码可以来自互联网,但一辆车在暴雨里穿过十字路口、机器人在陌生仓库里绕过障碍物、无人机在强磁干扰下保持稳定——这类数据,互联网上根本没有。 需求在疯涨,供给在掉队,缺口大到十万倍。 谁手里有数据,谁就卡住了AI进化的咽喉。
02 出行平台是怎么卡住这个位置的
回答这个问题之前,先说一个基本逻辑: 业务即采集。 出行平台的核心业务是网约车,车辆每天在城市里跑——这本身就是最高效的数据采集场景。 车辆行驶的过程中,摄像头、激光雷达、高精度惯导系统一直在工作,持续采集真实的路况、天气、行人行为、交通信号。这个过程不需要额外的人力投入,不需要专门的采集车队运营——服务运营和数据生产同步进行,边际成本趋近于零。 这就是出行平台作为数据玩家的核心壁垒:用现成业务,低成本、大规模、持续不断地生产物理世界稀缺数据。
以如祺出行为例——这是广汽旗下的出行平台,2023年拿下了乙级测绘资质,2026年5月首次完整披露了他们的数据资产版图:
采集车队:超过300辆智能驾驶采集车,覆盖广州、上海、重庆、沈阳等多个城市; 日均产能:1600小时高质量行驶数据,130TB; 数据质量:覆盖"司机决策—车辆响应—环境反馈"全链条因果关联,包含极端天气、突发事故、人车混行等复杂场景——天然符合物理法则,不是仿真数据,不是静态数据。
这套数据资产体系,已经不是"标注数据"那么简单了——他们建立了四大类资产:标注数据、行为数据、合成数据、多模态训练数据集,覆盖采集、清洗、标注、建模、合成、交付全链路。 这不是出行平台,这是物理世界数据基础设施。
03 商业化已经跑通了
如果说数据采集是入口,那商业化就是验证这个模式能不能持续的试金石。 如祺出行的数据业务商业化结果:
2025年技术服务板块(主要是AI数据业务)营收:1.60亿元,同比增长487.4%——这个增速,不是概念,是收入数字在跳。 客户名单:腾讯、理想、百度、小马智行、广汽……覆盖智能驾驶、具身智能、机器人、工业AI等多个领域。部分数据已经用于世界模型训练。
从商业模式上看,他们已经从"卖标注"升级到"数据集+全栈能力输出"——不只是提供原始数据,还包括清洗、标注、建模、合成这套能力,降低客户的使用门槛。同时数据能力正在从智能驾驶向医疗、教育、金融、生物等行业延伸。 出行场景只是起点,物理世界数据才是真正的主场。
04 得场景者得天下,这句话重新理解一遍
"得场景者得天下"这句话过去几年被用滥了,但在这轮AI竞争里,它有了全新的含义。 以前说场景,多半是在说应用落地——你的产品能不能用,用户会不会用,商业模式能不能跑通。 现在说场景,意思是:谁能控制高价值、可持续的真实物理世界数据,谁就在AI进化路线上占据了关键节点。 出行平台的核心优势是什么?是高频、是全域、是闭环。 高频意味着数据持续生产;全域意味着场景覆盖完整;闭环意味着数据质量和反馈链路可控。这三个特质叠加在一起,是其他数据来源很难替代的。 这也是为什么行业里开始有人重新定义出行平台的角色——从"出行服务商"到"物理世界数据基础设施供应商",这个身份转换,才是真正的价值重估。
05 普通人关心这个有意义吗
有。 三个维度:
第一,如果你关注AI投资逻辑——数据层的价值重估还没开始。大模型公司估值已经很高了,但数据基础设施这个环节的价值,远没有被充分定价。 第二,如果你关注职业方向——具身智能、机器人智驾相关的数据岗位需求正在快速起来,这个方向的人才供给明显不足。 第三,如果你在做AI产品——拿到物理世界数据的能力,正在成为新的产品壁垒。不是算法,不是模型,是数据。 这一轮AI竞争,剧本真的换了。
这一轮AI竞争,剧本已经换了——不在算法,不在算力,在物理世界的数据入口。
你觉得未来AI竞争的核心壁垒会是什么?评论区,聊聊你的真实体验与看法。
长期深耕 AI 产业与汽车智能化趋势,拆解底层逻辑。
点击下方名片并关注,可持续获取独家深度思考。
夜雨聆风