一个50亿美金App的退场,和一个新物种的诞生——从生成视频到理解世界,2026年最被低估的转折-夜雨聆风

一个50亿美金App的退场,和一个新物种的诞生——从生成视频到理解世界,2026年最被低估的转折

3月，OpenAI宣布关停Sora。

一个烧掉50亿美元的视频App，就这么没了。

很多人只看到了一条新闻。但如果你愿意多想一步，会发现这条新闻背后，藏着AI进化史上一次静悄悄的跨越——它关于AI如何从”想象世界”，走向”看懂世界”。

01 一个被误读的死亡

我们先来还原一下现场。

Sora是2024年初发布的。那段13秒的预览视频——一只猫在雪地里奔跑，光影流转，细节逼真——让全球科技圈沸腾。人们惊呼”AI奇点来了”。

但故事没有按剧本走下去。

2026年3月24日，OpenAI宣布关闭Sora的全部服务：独立App、API、ChatGPT内置视频功能，一刀切。

一个曾经App Store登顶的产品，活了不到6个月。

原因很简单，也很残酷——账算不过来。据福布斯估算，Sora上线以来运行成本高达50多亿美元，而收入仅约210万美元。日均用户使用时长只有13分钟，30天留存率仅1%。

一个AI视频工具，用户把它当”meme赌场”玩

——62%的内容是荒诞娱乐，原创内容只占总播放量的1%。

Sora死于商业逻辑的崩塌。

但故事到这里，才刚刚开始。

02 一条藏在废墟里的线索

关停Sora的消息传出后，一篇文章引起了我的注意。

OpenAI一位华人研究员在社交媒体写了一段话，大意是：

Sora团队从一开始，终极目标就不是做一个视频App。

真正想做的事，是用视频生成来训练一个理解物理世界的大脑，然后把那个大脑装进机器人。

这段话让我重新理解了整件事。

你想想看，视频生成在做什么？

它不是在画图。它是在模拟一个物理世界——模拟重力怎么作用于物体，模拟碰撞后碎片怎么飞溅，模拟光线如何在玻璃上折射，模拟一个人的动作在下一个瞬间会是什么姿态。

每生成一秒视频，模型就必须对物理规律做一次完整的”内化推演”。

这不是巧合一一视频生成的本质，就是一种对物理世界的持续模拟和理解。

所以Sora虽然作为一个产品”死了”，但它花50亿美元算力烧出来的物理世界理解能力，不会消失。它会变成OpenAI机器人项目的底座。

Sora不是失败了。它是完成了训练任务，然后退役了。

03 一场感知革命的三重奏

顺着”AI理解物理世界”这条线往下看，你会发现，

2026年初的AI领域，正在发生三件看似独立、实则紧密关联的事。

它们不是三条平行线，而是同一个进化故事的三幕。

第一幕：AI学会了”模拟”世界

2026年2月，字节跳动发布Seedance 2.0。

一张人物照片，一段提示词，几分钟就能生成一段角色高度一致、物理光影真实的”功夫大片”——人物在打斗中衣角翻飞、火花四溅，镜头调度甚至有导演级的叙事感。

这不再是一年前的”抽卡赌脸”。一次成型，质量稳定。

Seedance 2.0背后是统一的多模态音视频联合架构

——它不是在拼接画面，而是在理解一个连贯的物理场景后，把它”渲染”出来。

从Sora到Seedance 2.0，AI模拟物理世界的能力完成了从”形似”到”神似”的跃迁。

能生成真实的视频，意味着模型内部已经建立了一套对物理规律的”隐性理解”。

第二幕：AI学会了”实时”理解

但生成和理解还不是同一件事。

你能默写一篇课文，不代表你读懂了。

你能画出一张桌子，不代表你理解桌子的结构。

同样，AI能生成视频，不代表它能实时理解一段连续的视频流

——像人眼一样边看边懂。

这个问题的突破，来自一个意想不到的地方。

2026年3月底，理想汽车的MindGPT-ov团队发布了一篇论文，提出一个叫StreamingClaw的框架。

它解决的核心问题很朴素：让AI不再只能”看录像”，而是能”看直播”。

以前的视频AI，你得给它一段完整的、已经录制好的视频，它才能分析。StreamingClaw让AI实现了三个能力——

实时推理：增量处理每一帧画面，边看边理解，不用等视频结束
长期记忆：把碎片化的画面自动拼合成连贯的事件——就像你看了两小时电影，能完整复述剧情
主动交互：它不是等你提问才回答，而是发现异常主动行动

举个例子：家里的AI摄像头发现老人走路姿势突然不稳。它不需要你喊”快看看奶奶怎么了”——系统自动判断”可能跌倒”，立刻联系紧急联系人。

AI从”被动的录像分析员”，变成了”主动的现场目击者”。

第三幕：理解之后，是行动

到这里，你可能会问：AI模拟世界、实时理解世界，然后呢？

然后就是具身智能。

当你把一个能理解物理世界的AI，装进一个有”眼睛”（摄像头）和”手”（机械臂）的机器人身体里，会发生什么？

它能通过观看人类操作视频自主学习技能

——不是被程序员一行行代码教出来的，而是像人一样，看会了。

你教孩子做菜，不会给他写”左手持锅，右手颠勺”的代码。

你让他站在旁边看你做。

视频理解，就是AI学习物理世界的”语言”。

它不再是抽象的语法课。它是沉浸式的语言环境。

这就是为什么2026年具身智能突然成了所有大厂的主赛道。

不是因为机器人硬件突飞猛进了，而是因为AI终于”学会了看”。

04 如果你用系统思维看这件事

到目前为止，我说了三件事：Sora关停、Seedance发布、StreamingClaw登场。

但如果只是把它们当成三条新闻来看，你只看到了故事的三分之一。

用系统思维的视角看，这三件事其实构成了AI感知能力进化的一个完整正反馈循环：

生成和理解不是两件事，是一个飞轮的两面。

每生成一段高质量视频，模型对物理世界的理解就深一层；理解越深，生成的视频就越真实；生成越真实，具身智能获得的”训练素材”就越丰富——机器人能看得更懂，学得更快。

这就是OpenAI关停Sora的真正逻辑：不是放弃视频，而是把”生成”阶段积累的物理理解能力，迁移到”理解和行动”阶段。

从系统层面看，这不是一个产品的死亡，而是一个进化周期的完成。

05 接下来会发生什么

说了这么多底层逻辑，落实到每个人的生活里，你会看到什么？

短期内，最直接的变化在内容创作。Seedance 2.0这类工具正在把短视频、短剧、广告的制作门槛打到地板——一个人5分钟就能生成以前需要摄制组一周的作品。但核心竞争力正在转移：从”执行能力”变成”创意和判断力”。工具越来越好用，但”拍什么”和”为什么拍”仍然需要人来决定。

中期内，你会感到”身边的东西变聪明了”。车里的语音助手不再是傻傻的指令执行者，它能实时理解路况、理解你的疲劳程度、甚至预判你的需求。家里的摄像头从冷冰冰的监控变成了能理解你生活习惯、主动服务的伙伴。

长期来看，这才是真正的大事——机器人时代的基础设施正在被浇筑。

当AI通过视频学会了理解物理世界，机器人就不再是被代码僵硬驱动的机械，而是能观察、能理解、能像人一样通过模仿来学习的”新物种”。

就像你学做菜不是靠代码，而是看妈妈怎么做。

视频，就是物理世界的编程语言。

06 写在最后

回到开头那个问题——Sora为什么会死？

现在我们有了一个更完整的答案。

它死在产品层面，因为商业逻辑不成立。

但它活在能力层面——50亿美元算力烧出来的物理世界理解能力，

正在成为OpenAI机器人项目的地基。

如果说ChatGPT让AI学会了”思考”，那视频理解正在让AI学会”观察”。

而观察，是行动的前提。

两年前，我们看着Sora那段13秒的猫的视频，惊叹于AI”想象世界”的能力。

两年后，AI已经不再满足于想象。

它正在学着看懂世界，走进世界，改变世界。

一个视频App死了，一个物种正在觉醒。

这才是2026年春天，AI领域最值得被记住的故事。

💬 互动话题：

如果AI真的学会了”看懂世界”，你觉得它最先改变你生活的哪个场景？欢迎在评论区聊聊。

参考资料：

复旦发展研究院《浪潮之后断舍离：OpenAI关停Sora的三本账》
澎湃新闻《2026年，AI的三个关键趋势》
理想汽车 StreamingClaw 论文（arXiv:2603.22120v1）
新京报《实测Seedance 2.0：当AI成为导演》
知乎专栏《OpenAI华人研究员揭秘：关闭Sora是为了”梭哈”机器人》
36氪《一组隐秘的数据，揭开了Sora失败的真相》