乐于分享
好东西不私藏

纪要:世界模型与物理AI产业趋势全解

纪要:世界模型与物理AI产业趋势全解

备用号:
更多调研音频&外资研报请扫描底部二维码,限时免费加入星球获取

摘要

本次会议深度解读世界模型与 Physical AI 产业趋势,明确世界模型核心为 AI 行动前模拟预判,因大语言模型语料枯竭、性能增速放缓迎来爆发;梳理阿里 / 蚂蚁、杨立坤、英伟达、Google、李飞飞五大技术路线,闭环反馈是核心差异;核心应用聚焦自动驾驶、具身智能,3D 内容生成同步快速落地;中外模型软件差距快速缩减、国产算力逐步适配,产业对算力、专业标注数据需求激增;国内阿里、极佳世界位列全球世界模型第一梯队,产业链呈上游供数据、下游做应用的竞合格局。

Q&A

Q:世界模型最广泛的应用场景到底有哪些?群核科技做家装领域,我总觉得市场空间偏小,这块怎么理解?

A:群核科技我很熟,创始人、解决方案负责人都有交流,他们前身是酷家乐,早年就在家装仿真领域做了大量积累,就像英伟达的 Omniverse,在家装仿真基础上有海量数据源,做领域世界模型是近水楼台;世界模型最核心、最广泛的两大应用就是具身智能机器人和自动驾驶,目前来看机器人的市场空间会更大一些。

Q:最近看到印度工人戴摄像头采集手部数据的视频,这种方式对世界模型训练有帮助吗?

A:脑科学的思路本来就可以借鉴到模型训练里,大部分模型训练都和脑科学训练对应,这类数据确实能作为世界模型的训练数据源;我们现在也在和浙大教授合作脑电波模型,未来能干预、预测脑电波,解释人的情绪状态,甚至做调节,但这种采集方式是否人道我不好判断。

Q:昨天看到 Anthropic 相关播客说 OpenAI 推动立法,禁止中国蒸馏他们的新模型,感觉海外技术很先进,但又有说法称中国最新专利申请量已超美国排第一,想问问中外模型硬件差异,未来差距是扩大还是缩小?

A:模型蒸馏在业内是普遍现象,根本挡不住,现在人类高质量文本数据已经耗尽,很多模型提升靠的是 AI 训练的数据,蒸馏很难限制;软件层面中外模型差距在急剧缩减,agent 智能体出来后,差距缩小得更明显,比如阿里千问 3.6 plus 和上一代 GPT-4 Cloud 性能差距约 10%,接入 agent 后直接缩到 5%;现在还出现了 skills 蒸馏,用海外顶尖模型跑复杂任务,再把能力迁移给国内模型,效果差不多;硬件层面国产算力已经从 “有没有” 到 “好不好用”,我们自己有几千张卡,国产算力占比约 5%,90% 以上还是英伟达的卡,国产卡现在用起来没太大差别,适配和服务也在跟上。

Q:Meta 的模型采取准入制,不对公众开放,是不是就没法蒸馏了?它宣传的划时代领先,实际到底怎样?

A:准入制确实能限制蒸馏,它也是目前唯一这么做的模型;我仔细看过它两百多页的技术报告,它没有新的框架,只是在现有框架上用了更大数据源、花了更多精力训练,不是代际差别,只是一代里的优化版本;它的核心优势是代码能力和上下文分析能力更强,能捕捉长上下文关系,找出主流软件、浏览器的漏洞。

Q:Google 提的泰坦架构是自学习方向,对模型提升影响大吗?李飞飞和 Google 的世界模型路径不一样,谁会先出落地成绩?

A:自学习已经是行业基础架构了,所有模型或多或少都在用,对模型提升有明显正面作用;Google 的路线很经典,国内极佳世界、蚂蚁零食都是走这个路线,核心是自己造一个世界,在内部试错迭代,对数据量要求没那么高;李飞飞的路线偏向 3D 内容生成,适合 VR、娱乐内容,但没法形成闭环,所以 Google 路线会先落地出成绩。

Q:物理 AI 的数据获取方式,比如点云、3D 高斯、2D 升 3D,现在是什么情况?未来哪些会成主流?具身智能会不会以 3D 高斯为主?

A:点云、3D 高斯成本都很高,还有更硬核的物理数据,靠大型计算机做一万个原子级的运动预测,成本极高但数据珍贵;自动驾驶这类领域,主流做法是先用 2D 数据做一轮基础训练,再结合点云、3D 高斯加上物理约束做融合训练,不可能单靠高成本数据训练;3D 高斯是高质量数据来源,具身智能也会采用这种融合方式。

Q:大厂做数字孪生,再在这个基础上训练世界模型,技术路径对不对?国内阿里、腾讯、群核、51 世界、极佳这些玩家,谁发展得更好?

A:这个路径是对的,英伟达就是先做 Omniverse,再在上面搭世界模型;World Arena 排名里,阿里世界模型排全球第一,极佳世界排第二,腾讯、韩世杰也在前 15;我对 51 世界了解不多,群核在家装领域有天然优势。

Q:数字孪生和世界模型进入高速发展期,对算力、存力的需求是不是指数级增长?

A:世界模型的数据量远大于传统文字大模型,同等参数下,训练算力需求是语言模型的很多倍;目前世界模型参数量多是百亿级,语言模型是万亿级,核心是世界模型的优质语料不够;等数据问题解决,训练和推理算力需求都会大幅提升,推理算力会持续稀缺;存储要承载海量世界内容,需求也会同步涨;而且世界模型需要大量专业高质量的标注和处理后数据,对这类公司的需求很大。

Q:世界模型的数据标注和处理具体是哪些步骤?为什么说这类数据很稀缺?

A:标注就是识别斑马线这类基础元素,处理是在数据里加入物理规律、专业知识等约束;稀缺的核心是需要专业知识支撑,不是简单的操作,采集完数据还要做专业的物理、场景化处理,优质处理数据很难获取。

Q:世界模型和物理 AI 感觉相辅相成又有区别,两者发展阶段、关系是什么?国内索腾科技在物理 AI 的具体进展如何?

A:世界模型是宽泛的预测模型,本质是指导机器人行动,目前最优的世界模型,无物理偏差漫游时长也就 10 分钟,只是逼近物理规律;物理 AI 是严格自洽、完全符合物理规律的模型,多是实验室小范围场景;二者相辅相成,理想状态下世界模型就是物理模型,未来世界模型会进化成严格的物理模型;索腾科技我不了解,没法解读具体进展。

Q:想问问算力相关的,国产算力实际使用占比多少?国内英伟达的卡到底缺不缺?

A:我们自己运营算力,国产算力占比大概 5%,90% 以上还是英伟达的算力;英伟达的卡不存在缺货,就是价格在涨;国产算力主要是满足政企、高校客户的要求,现在搭建越来越顺畅,出问题后厂商的响应和服务也都跟上了。

Q:专门做世界模型的公司,和做具身大模型的公司,未来是竞合关系?具体怎么说?

A:具身大模型核心是 VLA(视觉 – 语言 – 行动),世界模型是它的上游,提供训练数据;理想、长安这些车企现在都是采购上游世界模型厂商的数据,不排除未来他们自己做;目前的格局是,做大世界模型的公司都会布局 VLA,做 VLA 的公司还没涉足大世界模型。

Q:听下来世界模型的数据采集很关键,现在数据采集的核心痛点是什么?工厂里工人重复劳动的摄像头数据,算不算高质量数据?

A:基础动作的数据早就够了,极佳世界的世界模型已经能做零样本任务,比如厨房切菜、叠衣服这类全新场景都能搞定;核心痛点是自动驾驶这类场景的突发情况、物理一致性仿真需要的高质量优质数据;不同领域需求完全不一样,比如酷家乐需要的是家装纹理细节数据,不是重复劳动数据;重复数据价值很低,突发、稀缺的场景数据才重要。

Q:世界模型除了车和机器人,还有哪些应用能落地?有没有大概的时间序列预测?

A:车的落地速度最快,具身智能是未来核心方向;李飞飞路线的 3D 内容、VR/AR、游戏视觉内容生成,和车领域并驾齐驱,落地也很快;终极目标是空间智能渗透千家万户,实现 AGI、ASI。

Q:黄仁勋说下一个赛道是 10 万亿级空间,是不是把 GPU、AI 算力、云计算都算进去了?只靠智能驾驶和具身智能,撑得起这个市场吗?

A:黄仁勋的说法偏向产业宣传,是合理放大,他作为产业基建方,肯定要讲更大的赛道;这个 10 万亿是囊括了具身机器人、智能驾驶、底层 GPU、AI 算力、云计算等全产业链,本质是把传统产业用 AI 重构一遍,没有严格的拆分口径。

#调研纪要 #世界模型 #物理AI #AI #股市

更多调研音频&外资研报请扫描底部二维码,限时免费加入星球获取

材料收集自网络,如侵犯到您的权益,请直接后台联系删除
整理不易,希望各位领导能够多多支持!您的一个点赞、一次转发、 随手分享,都是我们继续坚持的最大动力~~~~

——END——

知识星球:追踪全市场最新动向,聚焦全行业、公司深度逻辑,洞悉产业链上下游关系&各项指标数据,这里汇聚全市场深度投研信息,提供高价值的纪要报告、投研逻辑和行业知识经验分享
星球覆盖目前内容有PDF纪要,音频纪要白名单电话会行业/个股动态点评行业数据库外资投行报告/深度研报/投研框架文字+音频纪要日均更新200+;星球全部内容更新200+;