


这个春节,国内大模型公司“深度求索”推出的DeepSeek震动全球AI圈,作为多模态AI领域的最新突破,DeepSeek-R1能同时处理文字、图像等,推理效率较之前大幅提升,并已尝试应用于医疗、金融、自动驾驶等领域。乘胜放大招,DeepSeek又发布了全新Janus-Pro多模态大模型,正式进军文生图领域。
2025年,人工智能行业迎来了以多模态智能体为核心的技术跃迁。多模态AI通过融合文本、图像、语音、视频等多维度数据,实现更接近人类认知的交互与决策能力,成为驱动产业升级的核心力量。根据行业预测,全球多模态AI市场规模将在2025年快速增长,并将在医疗、教育、制造、城市管理等场景中实现规模化落地。



多模态AI(Multimodal AI)是指能够同时处理、关联和理解多种模态数据(如文本、图像、语音、视频、传感器信号等)的智能系统。其核心价值在于通过跨模态信息融合,模拟人类多感官协同的认知能力,从而在复杂场景中实现更精准的决策与交互。
——·多模态大模型框架·——


目前,多模态大模型已成为大模型发展前沿方向。2022年及之前,大模型处于单模态预训练大模型阶段。2017年,Transformer模型提出,奠定了当前大模型的主流算法结构;2018年,基于Transformer架构训练的BERT模型问世,ChatGPT引爆全球大模型创新热潮。步入 2025年,大模型发展从文本、图像等单模态任务逐渐发展为支持多模态的多任务,更为符合人类感知世界的方式。大模型公司的比拼重点转移为多模态信息整合和数据挖掘,精细化捕捉不同模态信息的关联。

通用人工智能(AGI)旨在让机器具备人类般的智能,能够理解、学习和适应各种不同的任务与环境。多模态技术作为实现AGI 的关键环节,其重要性不言而喻。
多模态AI 能够让机器从多个维度理解复杂的现实世界,打破单一模态信息的局限性。例如在自动驾驶领域,多模态传感器融合技术可以让车辆综合利用摄像头视觉信息、雷达距离信息等,更精准地识别道路状况、交通标志和其他车辆行人的行为,从而实现安全、高效的自动驾驶。
——·主要的多模态大模型类型·——



以谷歌、微软、Meta为代表的科技巨头在多模态大模型(如GPT-4V、Gemini)研发中占据领先地位,重点布局医疗、教育、娱乐领域;中国的深度求索(Deepseek-R1)、腾讯(混元大模型)、阿里巴巴(Qwen大模型)等企业在政务、金融、零售场景加速落地;欧盟通过《人工智能法案》推动多模态技术的安全应用,尤其在工业自动化领域。

2024年2月19日召开的人工智能专题推进会议中提出加快建设一批智能算力中心;开展AI+专项行动,加快重点行业赋能,构建一批产业多模态优质数据集,打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业生态。2025年明确将多模态技术列为重点攻关方向,北上广深等地设立AI产业基金。

OpenAI发布的文生视频大模型Sora,是多模态AI领域的一个重要里程碑。Sora能够快速生成准确反映用户提示的视频,这一技术突破极大地拓展了多模态AI的应用场景。
Google推出了Gemini2.0Flash-Lite的多模态大模型,其在大多数基准测试中表现好于上一代Gemini1.5Flash模型,同时,继续主打性价比卖点。

1. 技术水平:加速对齐海外
2. 市场格局:科技巨头主导、垂直领域深耕者突围、初创企业创新驱动
a. 科技巨头主导技术研发与生态构建
百度、阿里巴巴、腾讯(BAT):凭借庞大的数据资源、算法积累和资金优势,布局多模态大模型。如百度“文心大模型”、腾讯“混元大模型”,重点覆盖智慧城市、金融、教育等领域。
b. 垂直领域厂商深耕行业应用
商汤科技、科大讯飞:聚焦垂直场景,如商汤在医疗影像分析和工业质检领域推出多模态解决方案,科大讯飞则强化语音与文本融合的智能交互系统。
金融、医疗、智能制造:传统行业企业通过合作或自研,将多模态AI与业务结合。例如,三大运营商全面接入DeepSeek,推动云业务持续放量;比亚迪璇玑架构接入DeepSeek,大幅提升了自动化数据生成效率。
c. 初创企业聚焦技术与场景创新
AI芯片与边缘计算:如地平线、寒武纪等企业研发专用AI芯片,支持多模态模型在自动驾驶、物联网终端的轻量化部署。



创意工具包括图片、视频、音频、3D模型等AIGC应用。在多种模态的生成中,现阶段最具前景的是图片和3D模型的生成,目前市场上已有许多ChatGPT、Midjourney、Magic3D、DreamFusion等应用浮现。
——·Al+创意工具领域的主流应用情况·——


1. AI+企业服务:目前生成式AI已经与企业服务领域的主要产品CRM、ERP、财务、HR、OA实现了不同程度的结合,且已经初步实现商业化。龙头参与厂商是Salesforce。
2. Al+IT运维:生成式AI+IT运维主要结合点在于智能运维(AlOps),提升IT 运维的自动化和智能化水平。目前这一领域的龙头厂商是Servicenow。
3. AI+教育:目前AI的应用根据功能的不同分为语言学习、在线课程、学习工具三个层面,而目前应用最多的是语言学习和学习工具。目前国外有多邻国,国内有学而思等厂商参与。
4. AI+金融:生成式AI技术在金融领域的主要应用为数据分析工具,通过对金融大数据的挖掘来实现知识洞察,典型应用包括证券领域的智能投顾,银行领域的智能风控等。目前彭博社推出500亿参数大语言模型BloombergGPT。
5. Al+医疗:Al+医疗通常应用于医药研发、医院诊疗、医疗器械等场景。AI+医疗参与者众多,除了亚马逊等科技巨头的加入,还包括Sensely等医疗科技公司。


1. 政策与数据红利:
政策规划明确支持多模态技术研发,地方也积极响应,提供了一系列极具吸引力的政策举措。北京海淀区发布了《中关村科学城通用人工智能创新引领发展实施方案(2023—2025年)》《关于加快中关村科学城人工智能大模型创新发展的若干措施》《关于加快中关村科学城人工智能创新引领发展的十五条措施》等一系列产业政策,设立科技成长基金,以推动大模型的创新发展。

2. 中文场景深度优化:
中文有丰富的语义内涵和独特的语法结构,方言种类繁多且差异巨大。国产多模态AI模型在中文语义理解任务上表现卓越。这一优势在智能客服、语音助手等应用场景中尤为突出,可以满足国内不同地区用户的需求,提升用户体验。
3. 垂直场景快速落地:
国内金融、政务等行业对多模态AI技术有着强烈的定制化需求。在金融领域,多模态AI技术被广泛应用于风险评估、客户服务和投资决策等环节;政务服务中,多模态AI技术可实现政务办理的自动化和智能化;在城市治理方面,多模态AI技术可用于交通监控、舆情分析等,为政府决策提供数据支持和技术保障。

1. 复杂场景技术短板:
多模态模型五大方向:视觉理解、视觉生成、统一视觉、ILM支持、多模态Agent。视觉生成中动态视频的处理能力是多模态AI发展的一大掣肘。无法精准识别和跟踪视频中的多个动态目标,并根据场景变化做出反应,会限制多模态AI在诸如智能安防、自动驾驶等领域的应用与发展。物理规律推理能力是国内多模态AI的薄弱环节。如机械臂的精准操作、机器人在复杂物理环境中的自主行动等。
2. 算力与生态依赖:
算力是多模态AI发展的重要支撑。部分企业对海外开源框架存在依赖,如TensorFlow、PyTorch等在全球范围内被广泛使用;另一方面,依赖海外开源框架也可能导致企业缺乏自主研发核心技术的能力,不利于多模态AI行业的长期健康发展。

1. 技术路径:通用多模态大模型与垂直领域专用模型的平衡
通用大模型在训练过程中需要海量的数据和极高的算力支持,且在面对特定垂直领域的复杂业务场景时,可能无法精准满足专业需求。
企业需要合理分配研发资源,一方面探索通用大模型的创新应用,提升技术的前沿性;另一方面深耕垂直领域,打造具有核心竞争力的专用模型。
2. 端云协同:轻量化模型在移动端、物联网设备的部署能力
移动端和物联网设备拥有庞大的用户基数和广泛的应用场景,如智能手机、智能摄像头、智能家居设备等。然而,这些设备通常难以运行复杂的多模态AI模型。未来,竞争将体现在如何研发出轻量化模型,并实现其在设备上的稳定部署。这需要企业在模型压缩、优化算法等方面进行技术创新,同时还需要构建高效的端云通信架构。
3. 数据安全与伦理:深度伪造防控、用户隐私保护技术的标准化
随着多模态AI技术的广泛应用,数据安全和伦理问题日益凸显。未来,企业需要开发出能够准确检测和识别深度伪造内容的技术,同时建立完善的用户隐私保护体系,遵循相关的标准和规范,赢得用户的信任和市场的认可。


本资料文字及图片仅供参考,涉及全部内容以官方文件为准,本公司保留对本资料进行修改的权利,且不另行通知
夜雨聆风