纪要:世界模型与物理AI产业趋势全解-夜雨聆风

纪要:世界模型与物理AI产业趋势全解

备用号：

更多调研音频&外资研报请扫描底部二维码，限时免费加入星球获取

摘要

本次会议深度解读世界模型与 Physical AI 产业趋势，明确世界模型核心为 AI 行动前模拟预判，因大语言模型语料枯竭、性能增速放缓迎来爆发；梳理阿里 / 蚂蚁、杨立坤、英伟达、Google、李飞飞五大技术路线，闭环反馈是核心差异；核心应用聚焦自动驾驶、具身智能，3D 内容生成同步快速落地；中外模型软件差距快速缩减、国产算力逐步适配，产业对算力、专业标注数据需求激增；国内阿里、极佳世界位列全球世界模型第一梯队，产业链呈上游供数据、下游做应用的竞合格局。

Q&A

Q：世界模型最广泛的应用场景到底有哪些？群核科技做家装领域，我总觉得市场空间偏小，这块怎么理解？

A：群核科技我很熟，创始人、解决方案负责人都有交流，他们前身是酷家乐，早年就在家装仿真领域做了大量积累，就像英伟达的 Omniverse，在家装仿真基础上有海量数据源，做领域世界模型是近水楼台；世界模型最核心、最广泛的两大应用就是具身智能机器人和自动驾驶，目前来看机器人的市场空间会更大一些。

Q：最近看到印度工人戴摄像头采集手部数据的视频，这种方式对世界模型训练有帮助吗？

A：脑科学的思路本来就可以借鉴到模型训练里，大部分模型训练都和脑科学训练对应，这类数据确实能作为世界模型的训练数据源；我们现在也在和浙大教授合作脑电波模型，未来能干预、预测脑电波，解释人的情绪状态，甚至做调节，但这种采集方式是否人道我不好判断。

Q：昨天看到 Anthropic 相关播客说 OpenAI 推动立法，禁止中国蒸馏他们的新模型，感觉海外技术很先进，但又有说法称中国最新专利申请量已超美国排第一，想问问中外模型硬件差异，未来差距是扩大还是缩小？

A：模型蒸馏在业内是普遍现象，根本挡不住，现在人类高质量文本数据已经耗尽，很多模型提升靠的是 AI 训练的数据，蒸馏很难限制；软件层面中外模型差距在急剧缩减，agent 智能体出来后，差距缩小得更明显，比如阿里千问 3.6 plus 和上一代 GPT-4 Cloud 性能差距约 10%，接入 agent 后直接缩到 5%；现在还出现了 skills 蒸馏，用海外顶尖模型跑复杂任务，再把能力迁移给国内模型，效果差不多；硬件层面国产算力已经从 “有没有” 到 “好不好用”，我们自己有几千张卡，国产算力占比约 5%，90% 以上还是英伟达的卡，国产卡现在用起来没太大差别，适配和服务也在跟上。

Q：Meta 的模型采取准入制，不对公众开放，是不是就没法蒸馏了？它宣传的划时代领先，实际到底怎样？

A：准入制确实能限制蒸馏，它也是目前唯一这么做的模型；我仔细看过它两百多页的技术报告，它没有新的框架，只是在现有框架上用了更大数据源、花了更多精力训练，不是代际差别，只是一代里的优化版本；它的核心优势是代码能力和上下文分析能力更强，能捕捉长上下文关系，找出主流软件、浏览器的漏洞。

Q：Google 提的泰坦架构是自学习方向，对模型提升影响大吗？李飞飞和 Google 的世界模型路径不一样，谁会先出落地成绩？

A：自学习已经是行业基础架构了，所有模型或多或少都在用，对模型提升有明显正面作用；Google 的路线很经典，国内极佳世界、蚂蚁零食都是走这个路线，核心是自己造一个世界，在内部试错迭代，对数据量要求没那么高；李飞飞的路线偏向 3D 内容生成，适合 VR、娱乐内容，但没法形成闭环，所以 Google 路线会先落地出成绩。

Q：物理 AI 的数据获取方式，比如点云、3D 高斯、2D 升 3D，现在是什么情况？未来哪些会成主流？具身智能会不会以 3D 高斯为主？

A：点云、3D 高斯成本都很高，还有更硬核的物理数据，靠大型计算机做一万个原子级的运动预测，成本极高但数据珍贵；自动驾驶这类领域，主流做法是先用 2D 数据做一轮基础训练，再结合点云、3D 高斯加上物理约束做融合训练，不可能单靠高成本数据训练；3D 高斯是高质量数据来源，具身智能也会采用这种融合方式。

Q：大厂做数字孪生，再在这个基础上训练世界模型，技术路径对不对？国内阿里、腾讯、群核、51 世界、极佳这些玩家，谁发展得更好？

A：这个路径是对的，英伟达就是先做 Omniverse，再在上面搭世界模型；World Arena 排名里，阿里世界模型排全球第一，极佳世界排第二，腾讯、韩世杰也在前 15；我对 51 世界了解不多，群核在家装领域有天然优势。

Q：数字孪生和世界模型进入高速发展期，对算力、存力的需求是不是指数级增长？

A：世界模型的数据量远大于传统文字大模型，同等参数下，训练算力需求是语言模型的很多倍；目前世界模型参数量多是百亿级，语言模型是万亿级，核心是世界模型的优质语料不够；等数据问题解决，训练和推理算力需求都会大幅提升，推理算力会持续稀缺；存储要承载海量世界内容，需求也会同步涨；而且世界模型需要大量专业高质量的标注和处理后数据，对这类公司的需求很大。

Q：世界模型的数据标注和处理具体是哪些步骤？为什么说这类数据很稀缺？

A：标注就是识别斑马线这类基础元素，处理是在数据里加入物理规律、专业知识等约束；稀缺的核心是需要专业知识支撑，不是简单的操作，采集完数据还要做专业的物理、场景化处理，优质处理数据很难获取。

Q：世界模型和物理 AI 感觉相辅相成又有区别，两者发展阶段、关系是什么？国内索腾科技在物理 AI 的具体进展如何？

A：世界模型是宽泛的预测模型，本质是指导机器人行动，目前最优的世界模型，无物理偏差漫游时长也就 10 分钟，只是逼近物理规律；物理 AI 是严格自洽、完全符合物理规律的模型，多是实验室小范围场景；二者相辅相成，理想状态下世界模型就是物理模型，未来世界模型会进化成严格的物理模型；索腾科技我不了解，没法解读具体进展。

Q：想问问算力相关的，国产算力实际使用占比多少？国内英伟达的卡到底缺不缺？

A：我们自己运营算力，国产算力占比大概 5%，90% 以上还是英伟达的算力；英伟达的卡不存在缺货，就是价格在涨；国产算力主要是满足政企、高校客户的要求，现在搭建越来越顺畅，出问题后厂商的响应和服务也都跟上了。

Q：专门做世界模型的公司，和做具身大模型的公司，未来是竞合关系？具体怎么说？

A：具身大模型核心是 VLA（视觉 – 语言 – 行动），世界模型是它的上游，提供训练数据；理想、长安这些车企现在都是采购上游世界模型厂商的数据，不排除未来他们自己做；目前的格局是，做大世界模型的公司都会布局 VLA，做 VLA 的公司还没涉足大世界模型。

Q：听下来世界模型的数据采集很关键，现在数据采集的核心痛点是什么？工厂里工人重复劳动的摄像头数据，算不算高质量数据？

A：基础动作的数据早就够了，极佳世界的世界模型已经能做零样本任务，比如厨房切菜、叠衣服这类全新场景都能搞定；核心痛点是自动驾驶这类场景的突发情况、物理一致性仿真需要的高质量优质数据；不同领域需求完全不一样，比如酷家乐需要的是家装纹理细节数据，不是重复劳动数据；重复数据价值很低，突发、稀缺的场景数据才重要。

Q：世界模型除了车和机器人，还有哪些应用能落地？有没有大概的时间序列预测？

A：车的落地速度最快，具身智能是未来核心方向；李飞飞路线的 3D 内容、VR/AR、游戏视觉内容生成，和车领域并驾齐驱，落地也很快；终极目标是空间智能渗透千家万户，实现 AGI、ASI。

Q：黄仁勋说下一个赛道是 10 万亿级空间，是不是把 GPU、AI 算力、云计算都算进去了？只靠智能驾驶和具身智能，撑得起这个市场吗？

A：黄仁勋的说法偏向产业宣传，是合理放大，他作为产业基建方，肯定要讲更大的赛道；这个 10 万亿是囊括了具身机器人、智能驾驶、底层 GPU、AI 算力、云计算等全产业链，本质是把传统产业用 AI 重构一遍，没有严格的拆分口径。

#调研纪要 #世界模型 #物理AI #AI #股市

更多调研音频&外资研报请扫描底部二维码，限时免费加入星球获取

材料收集自网络，如侵犯到您的权益，请直接后台联系删除

整理不易，希望各位领导能够多多支持！您的一个点赞、一次转发、随手分享，都是我们继续坚持的最大动力~~~~

——END——

知识星球：追踪全市场最新动向，聚焦全行业、公司深度逻辑，洞悉产业链上下游关系&各项指标数据，这里汇聚全市场深度投研信息，提供高价值的纪要报告、投研逻辑和行业知识经验分享

星球覆盖目前内容有PDF纪要，音频纪要，白名单电话会，行业/个股动态点评，行业数据库，外资投行报告/深度研报/投研框架等。文字+音频纪要日均更新200+；星球全部内容更新200+；