Elorian AI

当AI真正学会"看"：Elorian AI

2024年，OpenAI发布Sora，全世界为之震撼——AI能够生成视频了。

2025年，GPT-4o发布，全世界再次沸腾——AI能够实时看、实时听了。

但在这两场狂欢里有一个大多数AI从业者不愿意面对的问题："AI能'看见'，但它真的'看懂'了吗？"

解决看懂这个问题,重新定义多模态新范式的公司叫 Elorian AI。

01｜什么是"视觉推理"，为什么它和"看图说话"完全不同

让我们先做一个思维实验,你给两个AI系统同时看一张建筑结构图。

系统A回答："该图纸展示了一个三层框架结构，二层楼板存在裂缝，裂缝宽度约0.3毫米，位于第7轴与第8轴之间。"

系统B回答："该图纸展示了一个三层框架结构。注意到二层楼板第7至第8轴区间存在受弯裂缝，宽度约0.3毫米。裂缝位置恰好位于次梁与主梁交接处的负弯矩区——这意味着该区域在正常使用状态下承受了超出设计预期的弯矩。结合裂缝形态和分布，该裂缝属于典型的应力集中诱发型结构性裂缝，建议优先评估相邻构件的配筋是否存在冗余不足，以及使用阶段荷载是否超出设计荷载。若裂缝继续发展，可能引发刚度退化与振动特性异常，应当在30天内进行现场承载力复核。"

两个系统的回答差了十万八千里。

系统A做的是"看图说话"——识别图像中的物体，用文字描述出来。这是当前主流多模态AI的核心能力范式。

系统B做的是"视觉推理"——在视觉空间内构建三维结构模型，理解受力逻辑，分析因果链条，得出有物理意义的判断。

系统B之所以能做到这一步，是因为它有一个系统A没有的核心能力：在视觉表征上进行推理，而不是先翻译成文字再推理。

这就是 Elorian AI 正在构建的东西。

02｜Elorian AI 到底在做什么

官方说法是：Building systems that natively understand and reason through the visual medium.即构建原生理解和推理视觉世界的AI系统。

这里的关键词是"natively"——即Elorian AI 的技术路径，是让模型直接在像素和空间构成的视觉维度上进行推理：理解空间关系、物理约束、设计意图、结构性抽象，然后输出有视觉意义的结论——而不是先把图像翻译成一段文字，再用语言模型处理那段文字。

他们把这种方法论叫做"Native Visual Reasoning"，核心是一次范式转移：

从"视觉输入→语言输出"（当前的范式）

到"视觉输入→视觉推理→视觉/结构化输出"（Elorian的目标）

这个差异，是本质性的。

在第一种范式下，模型受限于文字描述的表达能力——图像里大量空间信息、几何关系、物理属性，在翻译成文字的过程中不可避免地损失掉了。

在第二种范式下，模型的推理空间是完整的原始视觉信息——没有中间商，没有翻译损耗。

03｜现在是多模态融合的时间窗口

三个条件同时成熟，是 Elorian AI 选择在这个时间点入局的核心原因。

条件一：Transformer架构成熟，多模态融合成为可能

过去三年，Transformer 架构在视觉领域的应用已经从实验走向工业成熟。多模态训练（同时在图像、视频、文本上训练）已经出现了足够多成功的案例。这为"在视觉空间内做复杂推理"提供了底层架构基础。

条件二：大模型性能瓶颈倒逼新方向

当语言模型的Scaling Law开始面临数据、算力、能耗的多重瓶颈，行业开始寻找新的突破口。视觉推理作为"语言智能的下一跳"，从学术研究话题变成了工业界的真实需求。

条件三：具身智能和物理AI的真实爆发

机器人、自动驾驶、空间智能……这些需要AI"理解物理世界"的场景，在2024-2025年迎来了爆发期。这些场景的核心需求，恰恰是视觉推理——不是"看图说话"，而是"看图行动"。

三个条件缺一不可,正是三者的同时成熟，让Elorian AI 的方向成为可能，也让这个时间窗口变得真实。

04｜真正的豪华阵容

Elorian AI 的创始团队，不是一两个明星创始人，而是一整个研究阵容。

Andrew Dai——前DeepMind研究员，Google Gemini项目数据负责人

Andrew 是Google视觉建模和Gemini项目的核心技术贡献者之一。在DeepMind期间，他参与了多项视觉推理和跨模态学习的基础研究。他加入Gemini团队后，负责的是整个项目最核心的数据建模和视觉理解方向——这是Google历史上投入最大的AI项目，没有之一。

Andrew 在 Elorian AI 的角色，是将过去十年在视觉理解领域的研究积累，转化为可工业落地的产品架构。

Yinfei Yang——前Google AI首席研究科学家，后任Apple AI研究负责人

Yinfei 在Google期间主导了多个视觉多模态的核心研究项目，是这个领域被引用次数最高的论文作者之一。他后来加入Apple，担任AI研究负责人，将视觉AI能力深度嵌入Apple的产品体系——你知道iPhone的拍照 HDR、你用过的Live Text、你可能玩过的AR应用，这些功能的底层视觉技术，Yinfei都有深度参与。

Yinfei的背景，让Elorian AI 在"如何把视觉技术产品化"这件事上，有着独特的认知积累。

Seth Neel——前哈佛大学计算机科学教授

Seth 在加入 Elorian 之前是哈佛大学计算机科学的教授，专注于数据质量和模型可靠性研究。他加入的逻辑是：视觉推理系统的核心挑战之一，是如何在复杂的视觉信息中确保推理的准确性和可验证性——Seth 的学术积累恰好是解决这个问题的关键。

此外，创始团队还包括来自 UC Berkeley、Google Brain、Microsoft Research 等顶尖机构的多位核心研究者。他们的共同标签是：他们不只是在"做AI研究"，他们是在过去十年里亲手定义了现代AI技术边界的那些人。

这是理解这家公司真正价值的最重要背景。

05｜Jeff Dean个人出资

Elorian AI 的 A 轮融资，金额是 5500 万美元，投资方包括 Striker Ventures、Menlo Ventures、Altimeter，以及多位重量级个人投资人,其中最引人注目的，是 Jeff Dean 的参与。

Jeff Dean 在 2026 年已经极少以个人身份参与AI创业公司的投资。他上一次密集出手，还是 2015-2018 年深度学习爆发初期——那段时间他参与的几个项目，后来都成了各自领域的头部公司。

他为什么选择 Elorian AI？

一种可能的解读是：Jeff Dean 在 Google 内部见过足够多的 AI 项目，他判断一家公司的维度，不只是"技术好不好"，而是"这个方向是不是在下一次范式转移的节点上"。

Elorian AI 做的事，是重新定义AI'看见'和'理解'世界的范式——这不是在现有框架内的改良，而是一次范式层面的重新定义。

Jeff Dean 愿意出资，意味着他认为这个方向是对的、这批人是最有可能把它做成的。这个信号，比任何融资新闻稿都更有说服力。

06｜视觉推理是未来五年最重要的AI赛道

让我们把视角拉远一点。

过去五年，AI领域的主战场是语言维度——ChatGPT、Claude、Gemini、Llama，所有人都是在这个维度内竞争。这场战争已经足够激烈，天平已经开始倾斜。

接下来的五年，主战场会转移到哪里？

人类对世界的信息获取，超过80%来自视觉

人类解决复杂问题的方式，大部分推理过程发生在视觉空间

一个建筑师在脑中推演结构受力，一个医生在读片时做诊断推理，一个工程师审视图纸时评估可行性——他们核心的认知活动都是视觉的。

而当前的AI系统，在这些场景里表现出的核心缺陷，恰恰是"缺乏视觉推理能力"——它能描述看到的物体，但无法理解物体之间的关系；它能识别图像中的异常，但无法推理异常背后的因果。

如果我们相信AI的终局是走向通用智能（AGI），那么它必须能够理解和推理物理世界。而视觉推理，是这一切的起点。

这就是为什么Elorian AI把自己定位为"Building the foundation of visual reasoning"——为视觉推理构建基础设施。

这不是在现有框架内的修修补补，而是一次范式层面的重新定义。

07｜为什么是Elorian AI，而不是别的公司

视觉推理赛道正在吸引越来越多的玩家。Google、Meta、Apple都有相关研究，多家创业公司也在探索这个方向。但Elorian AI有两个独特优势，让它们在这个方向的竞争中显得格外值得关注。

第一个优势：创始团队的研究深度

视觉推理不是"把视觉模型参数调大一点"就能解决的问题。它需要对这个领域的底层约束和挑战有深刻理解——Andrew Dai、Yinfei Yang这批人的价值，正在于他们见过真正的难题在哪里，知道什么样的技术路线是死路，什么样的方向才是真正的突破口。这种判断力，在方向选择上的价值可能比单纯的算法能力更关键。

第二个优势：从第一天就瞄准了产品化

学术研究和工业落地之间，隔着一道真正的鸿沟。Elorian AI的团队背景，让它们从第一天就不只是在写论文，而是在思考"这个技术能解决什么真实问题，在什么场景下能形成商业闭环"。他们的目标不是"做出一个视觉模型"，而是"构建可规模化应用的视觉推理系统"——这两件事需要的能力完全不同，后者需要对工程化和产品化的深度理解。

Elorian AI的创始人在官网上写了一句话：

"If AI is to become truly general, it must be able to understand not just language, but the structure and composition of the physical world we inhabit."即"如果AI真的要走向通用，它必须不只能理解语言，还要理解我们所栖息的物理世界的结构和构成。"

这句话背后，是一个正在被越来越多人认同的判断：AI的下一场战争，不在语言里，在视觉里。

而Elorian AI，正在这场战争的最前线。

#ElorianAI #全球ai公司 #视觉推理 #JeffDean参投 #MenloVentures #5500万美元A轮 #原生多模态 #具身智能