AI知识科普(10):浅谈多模态大模型

基本概念

如果说是大语言模型让AI学会了“读书”和“回话”，那么多模态大模型就是让AI同时学会了“看图”、“听话”、“读书”、“回话”和“写字”等。

在前面的教程中，我们介绍了大语言模型（Large Language Model，简称LLM）——它能够理解并生成文字。像ChatGPT这样的产品已经能和我们流畅地对话、写邮件、改代码。但是，纯文字的交流根本没法满足我们对AI发展的所有期待。试想一下，当你拍下一张晚霞的照片，想问AI“今天适合去哪里看这样的日落”，却要费力地去打字描述“天空是橙色的，云是一缕一缕的......”；当你收到一张满是数据图表的截图，想让AI帮你分析，却发现它“看不见”——这是大语言模型的天然局限，因为它只能读懂并生成文字，却没有“视觉”和“听觉”。而多模态大模型（Large Multimodal Model，简称LMM）的出现，正是为了弥补这个不足。

何为多模态？人类认识世界从来不是靠单一感官的。我们看到一张笑脸、听到一句“谢谢”、读到一封邮件，这些信息是融合在一起的。AI想要真正理解世界，也必须像人一样，同时处理多种类型的信息——文字、图像、音视频等，这些不同的信息形式被称为“模态”。多模态模型，就是能同时理解和处理多种模态信息的AI模型，它不仅能“读字”，还能“看图、听声、看视频”。

为了更好地理解多模态大模型，让我们用一个真实的日常工作场景来进行抛砖引玉：

上午10点，你收到客户发来的一张产品故障图片、一张电路图截图、还有一条60秒的语音说明。你需要理解所有信息，然后回复一份解决方案。

在“纯文字AI”时代，你需要：打字转述照片内容-->手动描述电路图-->听懂语音内容-->整合所有信息-->向AI提问。一套流程下来，至少需要15分钟。而在多模态时代，你只需要：上传照片+截图+语音-->直接提问：“根据这些信息，最可能的故障原因是什么？”，AI可能在30秒内就能给出答案，效率大大提升！

多模态大模型的意义，不只是让AI多了一个“看”的功能这么简单，而是让AI能用和人相似的方式来感知世界。这意味着它不再需要“翻译”你的需求为文字就能进行自然的交互，还能从图像的细节里提炼出更准确的理解，胜过千言万语。

出现和进化

在深度学习早期，图像识别模型（如CNN）和语言模型（如RNN）是各自独立的。你有一个能识图的模型，和一个能生成句子的模型，但识图模型无法告诉语言模型“我看到了什么”，语言模型也无法向识图模型提问，它们像住在不同岛屿上的人，说着不同的语言。

2010年代中期，研究人员开始搭建连接不同模态的“桥梁”。CLIP模型（OpenAI，2021年）是一个里程碑——它通过4亿张图文配对数据，学会了“一张图片和一段文字是不是描述同一件事情”。从此，AI可以“看图说话”了。

2022年底，随着ChatGPT的横空出世，研究人员猛然意识到：大模型本身已经进化为一个极其强大的“中枢大脑”——它擅长推理、理解指令与答案生成。于是，一个自然而然的构想浮出水面：能否为这个“大脑”装上“眼睛”和“耳朵”？沿着这一思路，多模态的主流技术路线应运而生：以预训练的大语言模型为核心，在其外部接入视觉编码器、音频编码器等模块，如同为大脑连接上处理图像的“视觉皮层”与处理声音的“听觉皮层”。这一架构，成为了当今绝大多数多模态大模型的基本范式。

工作原理

一个典型的多模态大模型究竟是如何工作的？我们可以从核心架构、关键技术和训练方式这三个层面来逐一展开剖析：

核心架构：三大组件

多模态大模型包含三个关键部分：编码器、大语言模型和生成器。编码器负责将图像或音频转换为模型可理解的数字向量，好比眼睛将光信号转化为电信号；大语言模型则充当“中枢大脑”，负责理解指令、融合多模态信息并生成回答，承担思考与决策的职责；而生成器负责输出文字、图像或音频等信息，就像人用嘴巴说话、用手画画一样。这三者互相协同，就能完成从感知到理解再到表达的完整闭环。

关键技术：对齐与融合

模态对齐是多模态大模型的核心难点。模型需要学会：将一张“一只橘猫躺在灰色沙发上”的图片，和一句“一只橘猫在灰色沙发上打盹”的描述，理解为指向同一个语义。这需要通过海量的图文配对数据来训练实现，例如LAION-5B数据集，包含了50亿个图文对。此外，注意力机制（Transformer的核心技术）让模型能够动态决定“在看图回答问题时，应该重点关注图像的哪一块区域”。比如，当你问“这只狗在做什么？”时，大模型会将注意力集中在狗的身体姿态上，而不是背景的草地上——这种对齐融合能力正是多模态理解的关键。

训练方式：三个阶段

多模态大模型的训练通常分为三步。第一步是预训练阶段，在海量的图文对上进行对比学习，让模型初步建立“图像-文字”之间的对齐关系。第二步是指令微调阶段，使用“看图回答问题”类型的问答数据，教会模型按照人类的指令完成任务。第三步是人类反馈强化学习阶段，通过人类对模型回答的评分，引导模型的输出更符合人类的偏好和价值观。经过这三个阶段的训练，一个原本“看不懂图”的大语言模型，才能最终成长为真正意义上的多模态智能体。

应用领域

办公与学习：

在办公与学习方面，多模态大模型有着丰富的应用场景。例如，在AI会议纪要中，模型可以同时理解会议录屏（包含视频和音频）以及共享的PPT截图，自动生成带时间戳的会议纪要。在学习辅导场景下，学生只需用手机拍摄一道数学几何题，模型便能自动识别图中的辅助线，并一步步讲解解题过程。此外，在文档分析工作中，用户上传一份包含图片、表格和截图的PDF后，可以直接提问“文档中第三页流程图的第二步是什么意思？”，模型会给出精准回答。

内容创作

多模态大模型目前已经大量应用于内容创作领域。在图片生成与编辑方面，用户输入“把这张照片的背景换成秋天的枫叶”后，模型便能直接输出修改后的图片。在视频剪辑与理解方面，给出一段长达1小时的教学录像，询问“视频中什么时候讲解了牛顿第二定律？”，模型可以直接返回对应的时间戳。此外，图文混排生成的应用更加日益普及：用户只需输入文章大纲，模型就能直接生成一篇带配图、表格且排版精美的文章——这已经成为许多公众号运营者和文章博主的主要创作方式之一，效率大增。

医疗与安防

在医疗与安防领域，多模态大模型的应用正日趋成熟和广泛。特别是在医学影像分析方面，医生只需输入一张X光片，模型不仅能识别病灶，还能用文字清晰描述其位置、大小和性质，并能够回答医生的进一步追问，让医学诊断变得更加便捷可靠。在智能监控领域，结合摄像头画面与语音报警，例如用户发出“画面中是否有人摔倒？”的询问，模型能够理解语音指令，同时实时分析视频画面，并给出准确的判断结果。

当今格局

时至今日，多模态大模型早已不是实验室里的新鲜玩意。以GPT-4V/GPT-4o、Gemini系列、Claude 3系列以及国内的Qwen系列为代表的闭源模型，凭借强大的综合能力早已家喻户晓，成为了行业的第一梯队。与此同时，开源生态也呈现出百花齐放的繁荣景象：LLaVA系列以极低的训练成本降低了研究门槛；CogVLM2在中文高清图像理解上表现出色；InternVL 2.0凭借20%的算力即可比肩商业模型；而DeepSeek-VL则主打轻量高效及本地部署。这些开源模型的崛起，让顶尖的多模态能力从“少数巨头的专利”走向“触手可及的工具”。

GPT-4o：综合能力最强，推理深度出色，支持图像、音频、文字实时交互，端到端训练，在实时语音对话方面尤为突出。
Gemini系列：采用原生多模态架构，从一开始就进行多模态联合训练，视频理解能力超强，可处理长达1小时的视频，在MMMU（多学科多模态基准）上处于领先地位先。
Cluade 3系列：它将长上下文（200K token）与视觉理解相结合，安全性与可控性突出，其“宪法式AI”对齐技术特别适合企业级敏感场景。
Qwen系列：作为国内顶级的多模态模型，中文理解能力及多图对比能力强劲，支持多图交错输入，能够比较两张图片的异同。
LLaVA系列：架构简洁（LLaMA+视觉编码器），训练数据完全开源，是入门和二次开发的首选，适合学术研究及快速原型验证。
CogVLM2：视觉理解性能接近GPT-4V，支持多轮对话，适合需要本地部署、对数据隐私敏感的行业。
InternVL 2.0：参数量灵活（1B-108B），OCR（文字识别）能力突出，适用于文档分析、截图理解等应用场景。
DeepSeek-VL：采用高效训练策略，性价比极高，适合资源有限的中小团队。

未来发展

未来，多模态大模型将朝着几个重要方向持续演进：首先，模型架构将变得更加“原生”。当前多数多模态模型采用的是“大语言模型+外挂感官”的拼接方式，未来则会走向真正的端到端原生多模态——模型从零开始就同时学习文字、图像、音频、视频甚至触觉信号，不同模态之间的融合也将更深入、更自然。

在此基础上，多模态大模型的终极目标是理解物理世界，即构建“世界模型”。想象一下：当多模态模型看完一段“一个人把杯子推到桌边”的视频后，它能够预判出“如果继续往前推，杯子将会掉下去”。这需要模型内化重力、摩擦力等物理规律，而这正是世界模型的雏形。

最后，如果当多模态大模型与机器人结合，便产生了“具身智能”。想象一下：机器人能够看到“红色的杯子在桌子左边”，也能听懂“帮我把杯子拿过来”的指令，然后自主规划路径、完成抓取和移动操作——这是人工智能从“数字世界”走向“物理世界”最为关键的一步

。

当然，要实现以上愿景，还需要解决当前多模态模型计算量巨大的问题！巨量燃烧的token是多模态技术发展的最大绊脚石。毕竟，只有少数人能玩得起的科技并不是真正未来的科技。未来的发展方向包括：设计更轻量的视觉编码器、采用更智能的token选择策略（只处理图像中的重要部分），以及通过模型蒸馏技术，用大模型来教导小模型，从而在保持性能的同时，大幅降低计算成本，让更多的人能“用得起”

。

我们大胆预测：在未来的几年，多模态将成为AI产品的标配！就像今天的手机都支持触摸屏一样，未来不支持多模态的大模型就相当于今天的“老人机”一样落后。在后续的教程中，我们将深入拆解一个开源多模态模型（LLaVA或Qwen2-VL），手把手教你如何本地运行它，并用它分析自己的图片，甚至可以将此功能融入嵌入式项目中，增加可玩性，敬请关注。

全篇完

声明：

本文由智源科普原创，转载请注明来源；文中部分图片源于网络，如有侵权可联系我们删除；本文内容仅代表个人观点，无任何政治立场、无任何商业目的，且个人见识有限，不当之处请各位看官权当笑话，不喜勿喷。