产业研读|一文读懂多模态AI行业

这个春节，国内大模型公司“深度求索”推出的DeepSeek震动全球AI圈，作为多模态AI领域的最新突破，DeepSeek-R1能同时处理文字、图像等，推理效率较之前大幅提升，并已尝试应用于医疗、金融、自动驾驶等领域。乘胜放大招，DeepSeek又发布了全新Janus-Pro多模态大模型，正式进军文生图领域。

2025年，人工智能行业迎来了以多模态智能体为核心的技术跃迁。多模态AI通过融合文本、图像、语音、视频等多维度数据，实现更接近人类认知的交互与决策能力，成为驱动产业升级的核心力量。根据行业预测，全球多模态AI市场规模将在2025年快速增长，并将在医疗、教育、制造、城市管理等场景中实现规模化落地。

多模态AI（Multimodal AI）是指能够同时处理、关联和理解多种模态数据（如文本、图像、语音、视频、传感器信号等）的智能系统。其核心价值在于通过跨模态信息融合，模拟人类多感官协同的认知能力，从而在复杂场景中实现更精准的决策与交互。

——·多模态大模型框架·——

目前，多模态大模型已成为大模型发展前沿方向。2022年及之前，大模型处于单模态预训练大模型阶段。2017年，Transformer模型提出，奠定了当前大模型的主流算法结构；2018年，基于Transformer架构训练的BERT模型问世，ChatGPT引爆全球大模型创新热潮。步入 2025年，大模型发展从文本、图像等单模态任务逐渐发展为支持多模态的多任务，更为符合人类感知世界的方式。大模型公司的比拼重点转移为多模态信息整合和数据挖掘，精细化捕捉不同模态信息的关联。

通用人工智能（AGI）旨在让机器具备人类般的智能，能够理解、学习和适应各种不同的任务与环境。多模态技术作为实现AGI 的关键环节，其重要性不言而喻。

多模态AI 能够让机器从多个维度理解复杂的现实世界，打破单一模态信息的局限性。例如在自动驾驶领域，多模态传感器融合技术可以让车辆综合利用摄像头视觉信息、雷达距离信息等，更精准地识别道路状况、交通标志和其他车辆行人的行为，从而实现安全、高效的自动驾驶。

——·主要的多模态大模型类型·——

以谷歌、微软、Meta为代表的科技巨头在多模态大模型（如GPT-4V、Gemini）研发中占据领先地位，重点布局医疗、教育、娱乐领域；中国的深度求索（Deepseek-R1）、腾讯（混元大模型）、阿里巴巴（Qwen大模型）等企业在政务、金融、零售场景加速落地；欧盟通过《人工智能法案》推动多模态技术的安全应用，尤其在工业自动化领域。

2024年2月19日召开的人工智能专题推进会议中提出加快建设一批智能算力中心；开展AI+专项行动，加快重点行业赋能，构建一批产业多模态优质数据集，打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业生态。2025年明确将多模态技术列为重点攻关方向，北上广深等地设立AI产业基金。

OpenAI发布的文生视频大模型Sora，是多模态AI领域的一个重要里程碑。Sora能够快速生成准确反映用户提示的视频，这一技术突破极大地拓展了多模态AI的应用场景。

Google推出了Gemini2.0Flash-Lite的多模态大模型，其在大多数基准测试中表现好于上一代Gemini1.5Flash模型，同时，继续主打性价比卖点。

1. 技术水平：加速对齐海外

国内企业和科研机构在多模态AI领域积极布局。例如，百度2023年3月发布文心一言，对标ChatGPT的大模型，其后，阿里巴巴、腾讯等互联网大厂，商汤科技等大模型公司以及智源研究院、智谱等初创公司或研究所均发布了国产多模态大模型。

年初，DeepSeek更是为AI领域带来了一场振奋人心的突破。这一成果标志着我国AI大模型与国际顶尖水平并驾齐驱，更折射出我国AI产业从“技术跟跑”到“技术并跑”的跨越式发展。

DeepSeek的低成本特性打破了高昂成本对行业的束缚，使得更多中小企业、创新团队能够涉足多模态AI领域，推动多模态AI行业从少数大厂主导逐渐向多元化、普惠化发展。

2. 市场格局：科技巨头主导、垂直领域深耕者突围、初创企业创新驱动

a. 科技巨头主导技术研发与生态构建

百度、阿里巴巴、腾讯（BAT）：凭借庞大的数据资源、算法积累和资金优势，布局多模态大模型。如百度“文心大模型”、腾讯“混元大模型”，重点覆盖智慧城市、金融、教育等领域。

b. 垂直领域厂商深耕行业应用

商汤科技、科大讯飞：聚焦垂直场景，如商汤在医疗影像分析和工业质检领域推出多模态解决方案，科大讯飞则强化语音与文本融合的智能交互系统。

金融、医疗、智能制造：传统行业企业通过合作或自研，将多模态AI与业务结合。例如，三大运营商全面接入DeepSeek，推动云业务持续放量；比亚迪璇玑架构接入DeepSeek，大幅提升了自动化数据生成效率。

c. 初创企业聚焦技术与场景创新

AI芯片与边缘计算：如地平线、寒武纪等企业研发专用AI芯片，支持多模态模型在自动驾驶、物联网终端的轻量化部署。

自ChatGPT掀起大模型浪潮以来，微软、谷歌、亚马逊、Meta等海外科技巨头在AI领域纷纷发力，大部分巨头从硬件基础设施到应用端进行了全产业链布局，并在不同的环节各有侧重。当下AI+办公软件主要有两类，一类是如Microsoft365Copilot的工具套件，另一类是细分不同用途的单工具应用。

目前，多模态大模型发展路径逐步清晰。发展思路主要有三：①利用单模态模型如LLMs 来调动其他数据类型的功能模块完成多模态任务，典型代表有Visual、ChatGPT、Hugging GPT等；②直接利用图像和文本信息训练得到多模态大模型，典型代表有KOSMOS-1等；③将LLMs与跨模态编码器等有机结合，融合LLMs的推理检索能力和编码器的多模态信息整合能力，典型代表有Flamingo、BLIP2等。

创意工具包括图片、视频、音频、3D模型等AIGC应用。在多种模态的生成中，现阶段最具前景的是图片和3D模型的生成，目前市场上已有许多ChatGPT、Midjourney、Magic3D、DreamFusion等应用浮现。

——·Al+创意工具领域的主流应用情况·——

1. AI+企业服务:目前生成式AI已经与企业服务领域的主要产品CRM、ERP、财务、HR、OA实现了不同程度的结合，且已经初步实现商业化。龙头参与厂商是Salesforce。

2. Al+IT运维:生成式AI+IT运维主要结合点在于智能运维（AlOps），提升IT 运维的自动化和智能化水平。目前这一领域的龙头厂商是Servicenow。

3. AI+教育:目前AI的应用根据功能的不同分为语言学习、在线课程、学习工具三个层面，而目前应用最多的是语言学习和学习工具。目前国外有多邻国，国内有学而思等厂商参与。

4. AI+金融:生成式AI技术在金融领域的主要应用为数据分析工具，通过对金融大数据的挖掘来实现知识洞察，典型应用包括证券领域的智能投顾，银行领域的智能风控等。目前彭博社推出500亿参数大语言模型BloombergGPT。

5. Al+医疗:Al+医疗通常应用于医药研发、医院诊疗、医疗器械等场景。AI+医疗参与者众多，除了亚马逊等科技巨头的加入，还包括Sensely等医疗科技公司。

1. 政策与数据红利：

政策规划明确支持多模态技术研发，地方也积极响应，提供了一系列极具吸引力的政策举措。北京海淀区发布了《中关村科学城通用人工智能创新引领发展实施方案(2023—2025年)》《关于加快中关村科学城人工智能大模型创新发展的若干措施》《关于加快中关村科学城人工智能创新引领发展的十五条措施》等一系列产业政策，设立科技成长基金，以推动大模型的创新发展。

2. 中文场景深度优化：

中文有丰富的语义内涵和独特的语法结构，方言种类繁多且差异巨大。国产多模态AI模型在中文语义理解任务上表现卓越。这一优势在智能客服、语音助手等应用场景中尤为突出，可以满足国内不同地区用户的需求，提升用户体验。

3. 垂直场景快速落地：

国内金融、政务等行业对多模态AI技术有着强烈的定制化需求。在金融领域，多模态AI技术被广泛应用于风险评估、客户服务和投资决策等环节；政务服务中，多模态AI技术可实现政务办理的自动化和智能化；在城市治理方面，多模态AI技术可用于交通监控、舆情分析等，为政府决策提供数据支持和技术保障。

1. 复杂场景技术短板：

多模态模型五大方向：视觉理解、视觉生成、统一视觉、ILM支持、多模态Agent。视觉生成中动态视频的处理能力是多模态AI发展的一大掣肘。无法精准识别和跟踪视频中的多个动态目标，并根据场景变化做出反应，会限制多模态AI在诸如智能安防、自动驾驶等领域的应用与发展。物理规律推理能力是国内多模态AI的薄弱环节。如机械臂的精准操作、机器人在复杂物理环境中的自主行动等。

2. 算力与生态依赖：

算力是多模态AI发展的重要支撑。部分企业对海外开源框架存在依赖，如TensorFlow、PyTorch等在全球范围内被广泛使用；另一方面，依赖海外开源框架也可能导致企业缺乏自主研发核心技术的能力，不利于多模态AI行业的长期健康发展。

1. 技术路径：通用多模态大模型与垂直领域专用模型的平衡

通用大模型在训练过程中需要海量的数据和极高的算力支持，且在面对特定垂直领域的复杂业务场景时，可能无法精准满足专业需求。

企业需要合理分配研发资源，一方面探索通用大模型的创新应用，提升技术的前沿性；另一方面深耕垂直领域，打造具有核心竞争力的专用模型。

2. 端云协同：轻量化模型在移动端、物联网设备的部署能力

移动端和物联网设备拥有庞大的用户基数和广泛的应用场景，如智能手机、智能摄像头、智能家居设备等。然而，这些设备通常难以运行复杂的多模态AI模型。未来，竞争将体现在如何研发出轻量化模型，并实现其在设备上的稳定部署。这需要企业在模型压缩、优化算法等方面进行技术创新，同时还需要构建高效的端云通信架构。

3. 数据安全与伦理：深度伪造防控、用户隐私保护技术的标准化

随着多模态AI技术的广泛应用，数据安全和伦理问题日益凸显。未来，企业需要开发出能够准确检测和识别深度伪造内容的技术，同时建立完善的用户隐私保护体系，遵循相关的标准和规范，赢得用户的信任和市场的认可。

本资料文字及图片仅供参考，涉及全部内容以官方文件为准，本公司保留对本资料进行修改的权利，且不另行通知