AI不需要像人一样理解世界——从孟庆虎主任的AI视觉观点说起

最近，南方科技大学电子与电气工程系主任孟庆虎在深圳卫视一段访谈中，谈到李飞飞团队关于AI视觉理解的研究。他举了一个很有传播性的例子：给人工智能一张空白图像，如果不加任何说明，AI可能会说“这张图没有内容”；但如果告诉它“这是一张X光片，请帮我看一下有什么病灶”，AI就可能根据提示编造出各种病灶。

这个例子确实值得重视。它说明当前多模态AI仍然存在一个重要风险：当语言提示足够强时，模型可能不是根据图像本身判断，而是根据提示词进行推断、补全，甚至幻觉。这在医疗、司法、自动驾驶等高风险场景中，当然是严重问题。

但我认为，孟庆虎主任这段面向公众的表达，也存在两个明显问题。第一，科研中的极限测试，不能被直接包装成日常使用结论。第二，用“一维、二维、三维”的方式定义人工智能的发展方向，本身就带有很强的人类中心主义色彩。

一、极限测试有价值，但科普表达必须说清前提

科研当然需要极限测试。汽车要做碰撞测试，材料要做高温低温测试，药物要做毒理测试，AI也一样，给AI一张空白图，再用“这是X光片”这样的提示去诱导它出错，本质上就是一种极限压力测试，这种测试非常有意义，它可以帮助研究者发现模型在边界条件下的问题，尤其是发现模型是否真的依赖图像输入，还是容易被语言提示带偏。对于医疗AI来说，这种研究尤其必要。因为一旦模型在没有真实影像证据的情况下编造病灶，后果可能非常严重，所以，我并不是否定这个研究，恰恰相反，我认为这类研究非常重要。

但问题在于：科研测试和公众科普不是一回事。在学术研究中，研究者可以设计非常极端、非常反常、非常刁钻的场景，专门用来寻找系统漏洞，这是科学研究的常规方法。但当一个专家面向大众传播时，就必须把前提讲清楚：这是极限测试，不是正常使用场景；这是用来暴露边界问题，不是用来概括AI全部能力。如果不讲清这个前提，普通观众很容易得到一个简单粗暴的印象：AI连一张空白图都分不清，随便骗一下就胡说八道，所以AI根本不懂图像。这个结论就过头了。真实情况应该是：当前AI在视觉理解上确实存在幻觉风险，尤其在输入异常、提示诱导、任务设定不清时更容易出错；但这并不等于AI在所有正常视觉任务中都“不理解图像”，更不等于AI视觉能力没有实际价值。

科研要敢于测试极限，科普则要负责解释边界。如果把极限测试直接当成日常结论传播，就会从“科学警示”滑向“技术误导”。

二、问题不在AI不像人，而在它是否可靠完成任务

孟庆虎主任接下来提出了一个“三维、二维、一维”的解释框架。他说，人类生活在三维世界中。我们看二维图像时，脑中浮现的是三维场景；即便阅读一维文字，也会生成一幅幅三维画面。而人工智能刚好倒过来，它主要学习的是已经数字化的一维文字信息，所以对三维世界的理解非常有限。

这个说法听起来很有道理，也很适合短视频传播，但我不太认同。因为它隐含了一个前提：真正的智能，应该像人类一样，从三维物理世界中获得经验，再去理解二维图像和一维文字，这其实是一种典型的人类中心主义。

人类当然是从三维世界中长大的。人的视觉、触觉、运动系统、空间感，都是在物理世界中形成的。但这不意味着所有智能都必须沿着这条路发展。飞机不是通过拍翅膀飞上天的，汽车不是通过长出四条腿实现奔跑的，计算器也不是通过模仿人类大脑算术过程，才得出正确答案的。一种工具、一种智能系统，是否有效，不应该看它是否复制了人类路径，而应该看它在具体任务中是否可靠、可验证、可控制。AI的核心问题，不是它有没有像人类一样“真正看见世界”，而是它在处理具体任务时，是否能够给出稳定、可检验、可纠错的结果。如果它能在图像识别、医学辅助筛查、代码生成、文献整理、数据分析、语言翻译中持续提供有效帮助，那么它就有价值。

如果它在某些场景中会幻觉、会误判、会被提示词带偏，那么我们就需要改进评测方法、输入校验机制、责任边界和使用流程，这才是问题的关键。不是问：AI像不像人？而是问：AI在这个任务上可靠吗？出错时能不能被发现？能不能被限制在合理边界内？人类使用者是否知道它的风险？这比“一维、二维、三维”的解释更重要。

三、“三维世界模型”不是AI的唯一方向

现在很多人谈AI，特别喜欢说“世界模型”“物理智能”“具身智能”，这些方向当然重要。机器人要进入现实环境，自动驾驶要理解道路，医疗AI要理解器官结构，工业AI要操作设备，确实都需要更强的物理世界建模能力。但这并不意味着AI的发展方向只有一条：越来越像人，最后变成人形智能体。

这就像现在很多人迷恋“人形机器人”一样。仿佛机器人只有长得像人，才代表高级；仿佛AI只有拥有类似人的身体、视觉、触觉、空间经验，才算真正智能。这其实是一个很大的误区，很多场景根本不需要人形机器人。仓库搬运可能轮式机器人更高效，工厂流水线可能机械臂更稳定，无人机比“长翅膀的人形机器”更适合空中任务。

AI也一样，它不一定非要复制人类的感官和认知路径。它完全可以通过海量文本、图像、视频、传感器数据、结构化数据，形成一种不同于人类的智能方式。这种方式未必“像人”，但可能非常有效。人类智能只是智能的一种形态，不是智能的全部模板。如果我们总是用“它有没有像人一样理解三维世界”来评价AI，就很容易把AI的发展方向带偏。最后不是在追求更可靠、更高效、更可控的智能，而是在追求一种“类人幻觉”。

这就像要求飞机必须先学会像鸟一样拍翅膀，再承认它会飞，方向就错了。

四、AI的真正风险，是语言先验压过事实输入

回到空白X光片这个例子，这个案例真正暴露的问题，不是“AI没有三维世界模型”，而是：当语言提示足够强时，AI可能会让语言先验压过事实输入。你告诉它“这是一张X光片”，它就可能进入“医学影像分析”的语境。你问它“有什么病灶”，它就可能默认应该找出病灶。你给它一个错误前提，它就可能沿着这个错误前提继续生成看似专业的答案，这才是大模型真正危险的地方，因为大模型很擅长顺着语境往下走。

如果使用者本身没有判断力，不知道如何设置问题，不知道如何验证答案，不知道哪些领域必须交给专业人士，那么AI就可能把错误说得非常流畅，把猜测说得非常像结论。所以，AI的问题不只是模型问题，也是使用者问题。真正会用AI的人，不是让它替自己思考，而是让它帮助自己打开思考边界。使用者有清晰问题，AI就能帮你扩展材料、梳理结构、发现盲点。使用者只有错误前提，AI很可能帮你把错误前提包装得更像道理。

工具是增强器，不是替代品。它会放大人的能力，也会放大人的无知。

五、正确态度不是神化AI，也不是贬低AI

现在公众对AI最常见的误区，其实有两个极端。

一种是神化AI：觉得AI无所不能，可以替代医生、律师、作家、程序员、设计师，甚至替代人的判断和责任。这是危险的。AI仍然会幻觉，会误读，会根据错误前提生成错误答案。尤其在医疗、法律、金融等高风险领域，它必须是辅助工具，而不是最终裁判。

另一种是贬低AI：看到AI在极限测试中出错，就立刻得出“AI根本不懂”“AI就是胡编”“AI没有价值”的结论，这同样片面。因为任何复杂系统都存在边界。汽车有事故，飞机有故障，医生会误诊，人类专家也会判断失误。我们不会因为这些边界，就否定整个技术系统的价值。

真正成熟的态度应该是：知道它强在哪里，也知道它弱在哪里。敢于使用它，也敢于限制它。利用它提升效率，但不把责任交给它。

AI不是神，也不是骗子。它是一种正在快速进化的强大工具。真正的问题不是AI会不会犯错，而是人类有没有能力设计制度、流程和使用方式，把它的错误控制在可承受范围内，把它的价值释放在合适场景中。

六、AI不是人类，也无需成为人类

孟庆虎主任的视频有价值，因为它提醒了公众：AI视觉理解并不完美，多模态模型仍然存在幻觉和误判风险。但我反对把这个问题解释成“AI没有人类的三维认知，所以AI理解非常有限”。这个说法太容易把讨论带到“AI是不是像人”这个方向上。

而真正重要的问题应该是：AI是否完成了任务？结果是否可靠？过程是否可验证？风险是否可控制？AI不需要成为人类。它不需要像人一样长大，不需要像人一样看世界，也不需要像人一样从三维物理经验中获得全部知识，它可以有自己的智能路径。就像飞机不需要成为鸟，汽车不需要成为马，计算机不需要成为算盘。我们真正需要的，不是一个“像人”的AI，而是一个可靠、可控、可用的AI。

空白X光片的测试当然重要，但它告诉我们的：不是AI没有未来，而是AI不能被盲目信任；不是AI不懂世界，而是我们必须学会如何正确使用它；不是AI必须变成人，而是人类必须变得更会驾驭AI。

AI不会替我们思考，但它会放大我们的思考。问题是：你带进去的是认知，还是幻觉。

附录：孟庆虎

南方科技大学电子与电气工程系系主任、讲席教授，加拿大工程院院士，IEEE Fellow，广东省高精尖人才，深圳市杰出人才。曾任加拿大阿尔伯塔大学终身正教授及香港中文大学电子工程学系教授、系主任。研究领域涉及机器人感知与智能、医疗手术机器人、以及服务机器人等。多个研究课题独树一帜，国际领先。主持科研项目60余项，经费近亿元。发表论文1000余篇，申请专利40多项。入选全球前2％顶尖科学家2024年榜单和终身影响力榜单。获颁各种奖励30余项。在国际会议做大会报告200多场。是机器人国际旗舰会议IROS 2005和ICRA 2021的大会主席。是专科手术机器人领域独角兽公司“元化智能科技（深圳）有限公司”的首席科学家。（引自南方科技大学官网）

作者简介：

马宁，资深项目策划师、诗人、作家。笔名饮得，斋号饮美轩，山西大同人。80后连续创业者。2006年后在浙江工作生活十八年，2025年创建广州金扇工作室。ChatGPT、Grok、Gemini等人工智能大模型重度使用者。

擅长领域：文化传媒类项目的策划，个体认知升级与通透方法论；长期关注文化传播、人工智能和颜值经济。

工作微信号：tongtouVIP