【新书预告】《多模态AI Agent开发实践》

本书看点

（1）AI应用开发专家、广工大副教授、东北大学计算机应用博士邓立国开发团队最新力作。

（2）全程示例与实战案例引导，所有代码经过测试均能运行无误。

（3）所有实战案例可作为课程论文素材，随意复用，随意修改。

（4）围绕多模态技术，详解LangChain框架的核心组件、Agent、数据处理与存储，以及集成多模态大模型的方法。

（5）深入多模态智能体概念、多模态智能体开发方法，构建多模态智能体的完整技术路径。

（6）实战多模态文档分析智能体、视觉问答与行动智能体、多模态内容创作智能体、多模态客服智能体。

（7）探索多模态数据增强、容错设计、可解释性与多轮对话融合等进阶优化议题。

（8）配套源码、PPT课件、读者交流微信群。

本书目的

本书系统讲解基于LangChain与LangGraph构建多模态智能体的完整技术路径，从环境搭建、框架核心、案例实战到进阶优化，层层递进，为读者掌握多模态Agent开发技术提供系统化指导。

内容简介

本书分为13章，多模态智能体概述、开发环境搭建与配置、LangChain核心组件入门、LangChain Agent智能体核心、LangChain数据处理与存储、多模态大模型基础、LangChain集成多模态模型、多模态智能体开发方法论、多模态文档分析智能体实战、视觉问答与行动智能体实战、多模态内容创作智能体实战、多模态客服智能体实战、多模态智能体进阶优化。

内容导图

适合的读者

l多模态智能体开发初学者。

l多模态AI Agent开发人员。

l多模态AI Agent架构师。

l大模型应用开发人员。

l将AI能力产品化的工程师。

l技术负责人。

l行业AI应用解决方案提供商。

l学习大模型应用开发相关课程的学生。

作者简介

邓立国，东北大学计算机应用博士，广东工业大学副教授。主要研究方向为数据挖掘、知识工程、大数据处理、云计算、分布式计算。以第一作者发表学术论文30多篇（26篇EI），主编科研著作5部，主持科研课题10项，多次获得省校级科研优秀奖。著有《LangGraph开发AI Agent实践》《AI Agent智能体开发实践》《Python大数据分析师的算法手册》《Python数据分析与挖掘实战》《Python大数据分析算法与实例》《数据库原理与应用（SQL Server 2016版本）》。

周驰岷，四川开放大学副教授。主要研究方向为区块链、AI数字资源制作。主持或参与完成了多项省部级科研项目，发表中文核心、EI检索论文多篇。获得全国仿真创新应用大赛国赛二等奖、省赛一等奖，制作课程入选国家终身教育智慧教育平台。著有《LangGraph开发AI Agent实践》《AI Agent智能体开发实践》。

邓淇文，南乌拉尔国立大学硕士。嵌入式软件工程师。著有《LangGraph开发AI Agent实践》《AI Agent智能体开发实践》《Python大数据分析师的算法手册》《数据库原理与应用（SQL Server 2016版本）》。

本书目录

第 1 章  多模态智能体概述	11.1  多模态智能体的定义与应用场景	11.1.1  多模态智能体的核心定义与技术边界	11.1.2  多模态智能体的核心应用场景（前沿落地）	21.1.3  多模态智能体的应用价值与产业影响	41.2  LangChain与多模态智能体的结合价值	41.2.1  LangChain的核心能力适配多模态智能体的开发需求	41.2.2  LangChain与多模态智能体的核心结合点（前沿技术）	71.2.3  LangChain 赋能多模态智能体的落地案例（前沿实践）	81.2.4  LangChain与多模态智能体结合的未来趋势	91.3  多模态智能体开发的核心挑战与解决方案	91.3.1  核心挑战一：跨模态语义对齐精度不足（技术核心瓶颈）	91.3.2  核心挑战二：多模态工具协同复杂，任务规划能力薄弱	111.3.3  核心挑战三：多模态数据处理效率低，数据质量难以保障	121.3.4  核心挑战四：工程化部署困难，适配性与稳定性不足	131.4  本书学习路径与前置知识要求	141.5  本章小结	15第 2 章  开发环境搭建与配置	162.1  基础开发环境准备（Python/conda/虚拟环境）	162.1.1  操作系统与硬件环境适配	162.1.2  Python版本选型与安装	172.1.3  conda环境管理核心操作	182.1.4  虚拟环境补充（非conda用户）	182.2  LangChain核心依赖安装	192.2.1  LangChain版本选型与适配说明	192.2.2  基础版安装流程（核心依赖）	202.2.3  完整版安装流程（含多模态依赖）	202.2.4  依赖版本管理与更新	212.3  多模态开发依赖（图像处理/音频处理/模型调用）	212.3.1  图像处理依赖配置（核心多模态依赖）	212.3.2  音频处理依赖配置（核心多模态依赖）	222.3.3  模型调用依赖配置（多模态大模型适配）	232.4  大模型API密钥配置（OpenAI/阿里云/百度等）	232.4.1  API密钥获取流程（主流平台）	242.4.2  API密钥配置方法（LangChain适配）	252.4.3  API密钥安全管理规范	262.5  开发工具链推荐（IDE/调试工具/日志工具）	262.5.1  IDE推荐（核心开发工具）	262.5.2  调试工具推荐（多模态专属）	282.5.3  日志工具推荐（工程化开发必备）	282.6  环境验证与常见问题排查	292.6.1  环境全面验证流程（多模态专属）	292.6.2  常见问题排查（多模态开发专属）	302.7  本章小结	34第 3 章  LangChain核心组件入门	353.1  LangChain核心概念（Chain/Agent/Prompt/VectorStore）	353.1.1  核心概念解析（结合多模态场景）	353.1.2  四大核心概念的关联关系	363.2  Prompt模板设计与优化	363.2.1  Prompt模板的核心作用与设计原则	363.2.2  基础Prompt模板设计（含多模态案例）	373.2.3  多模态Prompt优化技巧	393.2.4  Prompt优化常见问题与解决方案	403.3  Document Loader与数据预处理	403.3.1  Document Loader 核心作用与分类	403.3.2  多模态Document Loader 实操用法	413.3.3  多模态数据预处理核心流程	423.3.4  数据预处理工具与注意事项	423.4  Chains基础用法	423.4.1  Chains核心原理与基础分类	423.4.2  LLMChain 基础用法（含多模态案例）	433.4.3  SimpleSequentialChain基础用法（含多模态案例）	463.4.4  Chains基础用法注意事项	503.5  Memory 组件：智能体的记忆能力实现	503.5.1  Memory组件核心作用与设计逻辑	503.5.2  Memory核心类型（适配多模态场景）	513.5.3  Memory组件实操用法（含多模态案例）	513.6  Tools工具调用：连接外部能力	623.6.1  Tools组件核心作用与设计逻辑	623.6.2  LangChain内置多模态工具（常用）	623.6.3  自定义Tool开发与集成（多模态专属）	633.6.4  Tools工具调用注意事项	643.7  本章小结	64第 4 章  LangChain Agent的核心技术	664.1  Agent的工作原理与核心类型	664.1.1  Agent核心工作原理（多模态适配）	664.1.2  Agent核心类型（适配多模态场景）	674.2  ReAct模式与智能体决策逻辑	684.2.1  ReAct模式核心流程（多模态适配）	684.2.2  多模态Agent决策逻辑解析	694.2.3  ReAct Agent实操案例（多模态场景）	694.3  自定义Tool开发与集成	744.3.1  多模态自定义Tool开发核心规范	744.3.2  多模态自定义Tool实操开发（工业巡检场景）	754.3.3  自定义Tool与Agent集成（Agent自主调用）	774.4  Agent执行流程监控与调试	814.4.1  Agent执行流程监控方法	814.4.2  Agent常见问题排查方案（多模态专属）	824.5  多Agent协作基础	834.5.1  多Agent协作核心原理与优势	834.5.2  多Agent核心协作模式（多模态适配）	844.5.3  多Agent协作实操案例（多模态场景）	844.6  本章小结	93第 5 章  LangChain数据处理与存储	945.1  多模态数据加载（图片/音频/视频/文本）	945.1.1  依赖确认与环境准备	945.1.2  四大类多模态数据加载实操	955.1.3  多模态数据加载注意事项	975.2  数据分割与特征提取	975.2.1  多模态数据分割（核心方法）	975.2.2  多模态数据特征提取（适配向量存储）	995.2.3  数据分割与特征提取注意事项	1005.3  向量数据库集成（Chroma/Pinecone/Milvus）	1005.3.1  向量数据库集成基础准备	1005.3.2  Chroma本地向量数据库集成（开发测试首选）	1025.3.3  Pinecone云端向量数据库集成（生产环境适配）	1035.3.4  Milvus分布式向量数据库集成（大规模数据适配）	1045.3.5  向量数据库集成注意事项	1045.4  多模态数据检索策略	1055.4.1  多模态数据检索核心原理	1055.4.2  常用多模态数据检索策略（实操适配）	1055.4.3  多模态检索优化技巧	1125.6  本章小结	112第 6 章  多模态大模型基础	1146.1  多模态大模型的发展与核心架构	1146.2  主流多模态模型（GPT-4V/CLIP/BLIP/Qwen-VL）	1156.3  多模态模型的输入输出格式	1156.4  多模态模型的能力边界与局限性	1166.5  多模态大模型qwen-vl-plus基础实操	1176.6  本章小结	119第 7 章  LangChain集成多模态模型	1207.1  多模态模型API调用封装	1207.1.1  qwen-vl-plus API封装（核心）	1207.1.2  GPT-4V API封装（补充）	1217.2  LangChain与qwen-vl-plus的集成实战	1227.3  开源多模态模型本地化部署与调用	1267.3.1  本地化部署准备	1267.3.2  LangChain集成本地化qwen-vl-plus	1287.4  多模态Prompt工程最佳实践	1337.4.1  多模态Prompt核心原则	1337.4.2  最佳实践Prompt模板（适配LangChain）	1347.5  多模态响应解析与后处理	1357.5.1  常用输出解析器（适配多模态响应）	1357.5.2  响应后处理实操（qwen-vl-plus为例）	1357.6  本章小结	140第 8 章  多模态智能体开发方法论	1418.1  需求分析与场景拆解	1418.1.1  核心需求分析流程	1418.1.2  场景拆解方法与模板	1428.2  多模态智能体架构设计	1428.2.1  架构设计核心原则	1428.2.2  通用架构组成（LangChain+LangGraph）	1438.2.3  场景化架构适配	1438.3  开发流程与测试方法	1448.3.1  标准化开发流程（6步落地）	1448.3.2  核心测试方法	1448.4  性能优化与成本控制	1458.4.1  性能优化方法	1458.4.2  成本控制策略	1468.5  本章小结	146第 9 章  案例实战：多模态文档分析智能体	1479.1  场景需求：复杂文档（含图片/表格/文字）解析	1479.2  技术方案设计	1489.2.1  整体技术架构	1489.2.2  核心技术选型	1499.2.3  核心流程拆解	1499.3  代码实现	1499.4  功能测试与效果验证	1569.5  部署与工程化优化	1579.5.1  本地部署（适配低并发场景）	1589.5.2  云端部署（适配高并发场景）	1589.5.3  工程化优化措施	1589.6  本章小结	159第 10 章  案例实战：视觉问答+行动智能体	16010.1  场景需求：基于图片的问答与指令执行	16010.2  技术方案：多模态理解+工具调用+结果反馈	16110.2.1  整体技术架构	16110.2.2  核心技术选型	16210.2.3  核心流程拆解	16310.3  代码实现：智能体核心逻辑开发	16310.3.1  环境搭建与配置	16310.3.2  完整代码实现	16410.3.3  代码解析	17010.4  交互优化与用户体验提升	17210.4.1  多轮交互优化	17210.4.2  性能优化	17310.5  实际应用场景适配	17310.5.1  工业巡检场景适配	17310.5.2  电商运营场景适配	17410.5.3  智能家居场景适配	17410.6  本章小结	174第 11 章  案例实战：多模态内容创作智能体	17611.1  场景需求：图文结合的内容生成（海报/文案/短视频脚本）	17611.2  技术方案：多模态输入理解+内容生成+格式输出	17711.2.1  整体技术架构	17711.2.2  核心技术选型	17811.2.3  核心流程拆解	17911.3  代码实现：创作逻辑与模型调优	17911.3.1  环境搭建与配置	18011.3.2  主程序代码实现	18111.3.3  代码解析	18611.4  案例效果展示与迭代优化	18911.5  商业化落地注意事项	19011.5.1  商业化落地适配方案	19011.5.2  商业化落地注意事项	19111.6  本章小结	192第 12 章  案例实战：多模态客服智能体	19312.1  场景需求：处理含图片/语音/文字的客户咨询	19312.2  技术方案：多模态输入解析+意图识别+答案生成	19512.2.1  整体技术架构	19512.2.2  核心技术选型	19612.2.3  核心流程拆解	19712.3  代码实现：客服智能体核心流程	19712.3.1 环境搭建与配置	19712.3.2  完整代码实现	19812.3.3  代码解析	20512.3.4  代码关键细节说明	20712.4  知识库构建与多模态检索	20912.4.1  多模态知识库构建方法	20912.4.2  多模态检索逻辑优化	21012.4.3  多模态检索与智能体各模块的协同适配	21112.5  多模态客服智能体的场景拓展与落地适配	21112.5.1  行业场景拓展	21212.5.2  部署场景适配	21212.6  多模态客服智能体的未来优化方向	21312.6  本章小结	214第 13 章  多模态智能体进阶优化	21513.1  多模态数据增强与质量提升	21513.1.1  核心问题与需求分析	21513.1.2  依赖配置与环境准备	21613.1.3  案例实战：多模态数据增强方法与实现	21613.1.4  数据质量管控体系简介	23913.1.5  案例实战：多模态客服智能体数据优化与实现	24013.2  智能体的容错与鲁棒性设计	25513.2.1  核心异常场景与容错需求	25513.2.2  依赖配置与核心组件初始化	25613.2.3  案例实战：全流程容错机制设计与实现	25613.2.4  鲁棒性优化	28913.3  多模态智能体的可解释性	28913.3.1  可解释性核心问题与需求分析	29013.3.2  依赖配置与核心组件准备	29013.3.3  实战案例：可解释性方案设计与实现	29213.4  多模态与多轮对话的融合	34113.4.1  多轮对话核心痛点与优化需求	34113.4.2  依赖配置与核心组件初始化	34213.4.3  实战案例：多轮对话融合优化方案与实现	34513.5  本章小结	378