当AI真正学会"看":Elorian AI
2024年,OpenAI发布Sora,全世界为之震撼——AI能够生成视频了。
2025年,GPT-4o发布,全世界再次沸腾——AI能够实时看、实时听了。
但在这两场狂欢里有一个大多数AI从业者不愿意面对的问题:"AI能'看见',但它真的'看懂'了吗?"
解决看懂这个问题,重新定义多模态新范式的公司叫 Elorian AI。
01|什么是"视觉推理",为什么它和"看图说话"完全不同
让我们先做一个思维实验,你给两个AI系统同时看一张建筑结构图。
系统A回答:"该图纸展示了一个三层框架结构,二层楼板存在裂缝,裂缝宽度约0.3毫米,位于第7轴与第8轴之间。"
系统B回答:"该图纸展示了一个三层框架结构。注意到二层楼板第7至第8轴区间存在受弯裂缝,宽度约0.3毫米。裂缝位置恰好位于次梁与主梁交接处的负弯矩区——这意味着该区域在正常使用状态下承受了超出设计预期的弯矩。结合裂缝形态和分布,该裂缝属于典型的应力集中诱发型结构性裂缝,建议优先评估相邻构件的配筋是否存在冗余不足,以及使用阶段荷载是否超出设计荷载。若裂缝继续发展,可能引发刚度退化与振动特性异常,应当在30天内进行现场承载力复核。"
两个系统的回答差了十万八千里。
系统A做的是"看图说话"——识别图像中的物体,用文字描述出来。这是当前主流多模态AI的核心能力范式。
系统B做的是"视觉推理"——在视觉空间内构建三维结构模型,理解受力逻辑,分析因果链条,得出有物理意义的判断。
系统B之所以能做到这一步,是因为它有一个系统A没有的核心能力:在视觉表征上进行推理,而不是先翻译成文字再推理。
这就是 Elorian AI 正在构建的东西。
02|Elorian AI 到底在做什么
官方说法是:Building systems that natively understand and reason through the visual medium.即构建原生理解和推理视觉世界的AI系统。
这里的关键词是"natively"——即Elorian AI 的技术路径,是让模型直接在像素和空间构成的视觉维度上进行推理:理解空间关系、物理约束、设计意图、结构性抽象,然后输出有视觉意义的结论——而不是先把图像翻译成一段文字,再用语言模型处理那段文字。
他们把这种方法论叫做"Native Visual Reasoning",核心是一次范式转移:
从"视觉输入→语言输出"(当前的范式)
到"视觉输入→视觉推理→视觉/结构化输出"(Elorian的目标)
这个差异,是本质性的。
在第一种范式下,模型受限于文字描述的表达能力——图像里大量空间信息、几何关系、物理属性,在翻译成文字的过程中不可避免地损失掉了。
在第二种范式下,模型的推理空间是完整的原始视觉信息——没有中间商,没有翻译损耗。
03|现在是多模态融合的时间窗口
三个条件同时成熟,是 Elorian AI 选择在这个时间点入局的核心原因。
条件一:Transformer架构成熟,多模态融合成为可能
过去三年,Transformer 架构在视觉领域的应用已经从实验走向工业成熟。多模态训练(同时在图像、视频、文本上训练)已经出现了足够多成功的案例。这为"在视觉空间内做复杂推理"提供了底层架构基础。
条件二:大模型性能瓶颈倒逼新方向
当语言模型的Scaling Law开始面临数据、算力、能耗的多重瓶颈,行业开始寻找新的突破口。视觉推理作为"语言智能的下一跳",从学术研究话题变成了工业界的真实需求。
条件三:具身智能和物理AI的真实爆发
机器人、自动驾驶、空间智能……这些需要AI"理解物理世界"的场景,在2024-2025年迎来了爆发期。这些场景的核心需求,恰恰是视觉推理——不是"看图说话",而是"看图行动"。
三个条件缺一不可,正是三者的同时成熟,让Elorian AI 的方向成为可能,也让这个时间窗口变得真实。
04|真正的豪华阵容
Elorian AI 的创始团队,不是一两个明星创始人,而是一整个研究阵容。
Andrew Dai——前DeepMind研究员,Google Gemini项目数据负责人
Andrew 是Google视觉建模和Gemini项目的核心技术贡献者之一。在DeepMind期间,他参与了多项视觉推理和跨模态学习的基础研究。他加入Gemini团队后,负责的是整个项目最核心的数据建模和视觉理解方向——这是Google历史上投入最大的AI项目,没有之一。
Andrew 在 Elorian AI 的角色,是将过去十年在视觉理解领域的研究积累,转化为可工业落地的产品架构。
Yinfei Yang——前Google AI首席研究科学家,后任Apple AI研究负责人
Yinfei 在Google期间主导了多个视觉多模态的核心研究项目,是这个领域被引用次数最高的论文作者之一。他后来加入Apple,担任AI研究负责人,将视觉AI能力深度嵌入Apple的产品体系——你知道iPhone的拍照 HDR、你用过的Live Text、你可能玩过的AR应用,这些功能的底层视觉技术,Yinfei都有深度参与。
Yinfei的背景,让Elorian AI 在"如何把视觉技术产品化"这件事上,有着独特的认知积累。
Seth Neel——前哈佛大学计算机科学教授
Seth 在加入 Elorian 之前是哈佛大学计算机科学的教授,专注于数据质量和模型可靠性研究。他加入的逻辑是:视觉推理系统的核心挑战之一,是如何在复杂的视觉信息中确保推理的准确性和可验证性——Seth 的学术积累恰好是解决这个问题的关键。
此外,创始团队还包括来自 UC Berkeley、Google Brain、Microsoft Research 等顶尖机构的多位核心研究者。他们的共同标签是:他们不只是在"做AI研究",他们是在过去十年里亲手定义了现代AI技术边界的那些人。
这是理解这家公司真正价值的最重要背景。
05|Jeff Dean个人出资
Elorian AI 的 A 轮融资,金额是 5500 万美元,投资方包括 Striker Ventures、Menlo Ventures、Altimeter,以及多位重量级个人投资人,其中最引人注目的,是 Jeff Dean 的参与。
Jeff Dean 在 2026 年已经极少以个人身份参与AI创业公司的投资。他上一次密集出手,还是 2015-2018 年深度学习爆发初期——那段时间他参与的几个项目,后来都成了各自领域的头部公司。
他为什么选择 Elorian AI?
一种可能的解读是:Jeff Dean 在 Google 内部见过足够多的 AI 项目,他判断一家公司的维度,不只是"技术好不好",而是"这个方向是不是在下一次范式转移的节点上"。
Elorian AI 做的事,是重新定义AI'看见'和'理解'世界的范式——这不是在现有框架内的改良,而是一次范式层面的重新定义。
Jeff Dean 愿意出资,意味着他认为这个方向是对的、这批人是最有可能把它做成的。这个信号,比任何融资新闻稿都更有说服力。
06|视觉推理是未来五年最重要的AI赛道
让我们把视角拉远一点。
过去五年,AI领域的主战场是语言维度——ChatGPT、Claude、Gemini、Llama,所有人都是在这个维度内竞争。这场战争已经足够激烈,天平已经开始倾斜。
接下来的五年,主战场会转移到哪里?
人类对世界的信息获取,超过80%来自视觉
人类解决复杂问题的方式,大部分推理过程发生在视觉空间
一个建筑师在脑中推演结构受力,一个医生在读片时做诊断推理,一个工程师审视图纸时评估可行性——他们核心的认知活动都是视觉的。
而当前的AI系统,在这些场景里表现出的核心缺陷,恰恰是"缺乏视觉推理能力"——它能描述看到的物体,但无法理解物体之间的关系;它能识别图像中的异常,但无法推理异常背后的因果。
如果我们相信AI的终局是走向通用智能(AGI),那么它必须能够理解和推理物理世界。而视觉推理,是这一切的起点。
这就是为什么Elorian AI把自己定位为"Building the foundation of visual reasoning"——为视觉推理构建基础设施。
这不是在现有框架内的修修补补,而是一次范式层面的重新定义。
07|为什么是Elorian AI,而不是别的公司
视觉推理赛道正在吸引越来越多的玩家。Google、Meta、Apple都有相关研究,多家创业公司也在探索这个方向。但Elorian AI有两个独特优势,让它们在这个方向的竞争中显得格外值得关注。
第一个优势:创始团队的研究深度
视觉推理不是"把视觉模型参数调大一点"就能解决的问题。它需要对这个领域的底层约束和挑战有深刻理解——Andrew Dai、Yinfei Yang这批人的价值,正在于他们见过真正的难题在哪里,知道什么样的技术路线是死路,什么样的方向才是真正的突破口。这种判断力,在方向选择上的价值可能比单纯的算法能力更关键。
第二个优势:从第一天就瞄准了产品化
学术研究和工业落地之间,隔着一道真正的鸿沟。Elorian AI的团队背景,让它们从第一天就不只是在写论文,而是在思考"这个技术能解决什么真实问题,在什么场景下能形成商业闭环"。他们的目标不是"做出一个视觉模型",而是"构建可规模化应用的视觉推理系统"——这两件事需要的能力完全不同,后者需要对工程化和产品化的深度理解。
Elorian AI的创始人在官网上写了一句话:
"If AI is to become truly general, it must be able to understand not just language, but the structure and composition of the physical world we inhabit."即"如果AI真的要走向通用,它必须不只能理解语言,还要理解我们所栖息的物理世界的结构和构成。"
这句话背后,是一个正在被越来越多人认同的判断:AI的下一场战争,不在语言里,在视觉里。
而Elorian AI,正在这场战争的最前线。
#ElorianAI #全球ai公司#视觉推理 #JeffDean参投 #MenloVentures#5500万美元A轮 #原生多模态 #具身智能
夜雨聆风