AI车载大模型与AI智能体架构开发全流程高级培训班

各有关单位:

随着人工智能及汽车行业技术的飞速发展，AI大模型已成为驱动产业升级的核心引擎。车载智能体作为智能座舱的关键技术，正在重塑用户交互体验和车辆智能化水平。同时，座舱硬件的快速迭代升级——包括高性能芯片、多模态传感器、边缘计算能力的提升——为大模型和智能体的端侧部署创造了前所未有的机遇。这种端侧硬件能力的增强，使得复杂的AI应用不再完全依赖云端，而是可以在车端实现更低延迟、更高隐私保护的智能交互。为推动制造业系统掌握车载大模型与智能体的架构设计、开发全流程技术，深刻理解座舱硬件演进对AI应用的影响，破解工程化落地难题，提升企业级应用实战能力，助力学员打通从理论到实践的关键链路。北京车联盟科技发展有限公司邀请到资深专家于2026年6月26-27日（周五、六）在上海举办一期“ AI车载大模型与AI智能体架构开发全流程高级培训班”。本次培训聚焦车载大模型与智能体架构设计的核心技术，内容兼具深度与实用性。从大模型基础原理到车载场景特殊性，从座舱硬件演进带来的端侧部署机遇，到智能体架构设计与工程化实现，全方位拆解理论要点，帮助学员建立完整的车载AI技术认知体系，掌握在硬件约束下的最优架构设计方案。希望各有关汽车主机厂，零部件厂家能够积极参与交流，课堂以集中授课，互动研讨及案例学习。现将具体内容说明如下：

培训内容

第一部分：AI大模型核心技术与车载实战

一. 车载大模型基础理论（车厂视角）

1.1 为什么车载场景需要大模型

1.1.1 车载业务痛点与大模型的适配（车载场景核心差异对比）

1.1.2 行业实操：主流车企大模型上车路径

1.2 建模单位的统一：从各自为政到Token化

1.2.1 传统模型建模单位各自独立（语音帧、文本字符/词、图像像素）

1.2.2 大模型时代的统一：一切皆Token

1.2.2.1 文本Token化

1.2.2.2 语音Token化

1.2.2.3 视觉Token化

1.2.3 Token统一的工程价值（多模态融合的基础与端到端训练的前提）

1.3 位置编码：各类大模型如何感知序列顺序

1.3.1 为什么位置编码对车载场景至关重要（长对话、流式输入、多模态对齐）

1.3.2 绝对位置编码 vs 相对位置编码

1.3.3 RoPE旋转位置编码

（LLaMA/Qwen等主流车载模型的标配方案）

1.3.4 多模态位置编码（视觉2D位置 + 文本1D位置的融合策略）

1.4 训练方式全景：车厂能做什么、不能做什么

1.4.0 大模型训练完整步骤总览

备注：预训练/监督微调/对齐/推理部署的选择

1.4.1 预训练

1.4.1.1 预训练的数据规模、算力成本与工程门槛

1.4.1.2 行业案例

（Li汽车自研MindGPT投入预测）

1.4.2 监督微调（SFT）（大多数车厂的核心战场）

1.4.2.1 全参数微调 vs 参数高效微调（LoRA/QLoRA）的工程权衡

1.4.2.2 不同种类车载大模型数据集构建

1.4.3 对齐训练（RLHF/DPO）（提升车载交互安全与质量）

1.4.3.1 车载场景DPO数据构建（安全合规偏好对齐实战）

1.4.4 Prompt Engineering与RAG（不改模型参数的轻量方案）

1.4.4.1 何时用Prompt/RAG、何时必须微调（决策树）

1.5 车载主流基座模型架构选型

1.5.1 Qwen/LLaMA/MiniCPM/ChatGLM 车载选型对比

1.6 车端模型其他

1.6.1 Scaling Law与车端工程意义

1.6.1.1 参数规模、数据量、算力的幂律关系

1.6.1.2 车端约束下的Scaling Law（小模型如何逼近大模型能力）

案例分析：Li端侧Scaling Law——免训练推算最优架构

1.6.2 稀疏算力与稠密算力

备注：稠密算力/稀疏算力介绍与使用

1.6.2.1 车载芯片算力标注解读与选型影响

（高通8797/英伟达Thor）

1.6.2.2 稀疏算力在大模型部署

（MoE天然适合稀疏计算；LLM瓶颈往往在带宽而非TOPS）

二. 车载大模型分类与全景图

2.1 车载场景下的大模型分类体系

2.1.1 按功能分类（理解型、生成型、多模态型）

2.1.2 按部署方式分类（云端模型、端侧模型、端云协同模型）

2.1.3 按模态分类（语音/VLM&VLA/LLM）

2.2 车载LLM整体架构设计原则

2.2.1 硬件约束下的模型规模选型策略

2.2.2 端云协同架构的任务分配与调度设计

三. 语音识别大模型

3.1 为什么车载语音识别需要大模型

3.1.1 车载噪声环境的特殊挑战（风噪、路噪、多人对话）

3.1.2 传统ASR模型的瓶颈（领域泛化差、多语种/方言支持弱）

3.2 与传统ASR的核心区别

3.2.1 传统ASR

（级联模型vs 端到端统一建模）

3.2.2 泛化能力跃升（68万小时多语种弱监督训练带来的鲁棒性）

3.3 训练：车载语音识别模型的微调实战

3.3.1 车载语音数据采集与标注（噪声环境语料处理）

3.3.2 实战演示（Whisper模型车载场景LoRA微调）

3.4 推理：车端部署与低延迟优化

3.4.1 流式识别与低延迟工程实现

3.4.2 端侧量化部署

（Whisper INT8车载芯片量化实践）

案例分析：Whisper车载微调/INT4/INT8量化精度分析

四. 语音合成大模型（TTS）

4.1 为什么车载场景需要语音合成大模型

4.1.1 车载语音交互对合成语音的核心要求（自然度、情感表达、低延迟、个性化音色）

4.1.2 传统TTS的瓶颈

（拼接机械感强、参数合成表现力不足）

4.2 与传统TTS的核心区别

4.2.1 传统TTS

（级联合成vs 端到端神经网络合成）

4.2.2 表现力跃升

（零样本音色克隆、情感迁移、多语种自适应）

4.3 训练：车载语音合成模型的微调实战

4.3.1 车载场景TTS数据集构建

（多情感标注+噪声录制+品牌音色采集）

4.3.2 大规模预训练+精标注SFT的两阶段训练

案例分析：jili TTS——海量预训练+精标注SFT实现高自然度合成

4.3.3 音色定制与情感控制微调

（LoRA微调品牌音色与多情感切换）

4.4 推理：车端TTS部署与实时合成优化

4.4.1 流式合成与首音延迟优化

4.4.2 端侧量化部署（TTS模型INT8量化在车载芯片上的实践）

案例分析：CosyVoice端侧TTS——阿里

五. 语音端到端交互大模型

5.1 为什么需要语音端到端大模型

5.1.1 传统ASR+NLU+TTS流水线的延迟与信息损失问题

5.1.2 端到端模型的核心优势（低延迟、情感保真、上下文连贯）

5.2 与传统语音交互流水线的核心区别

5.2.1 级联架构 vs 端到端架构（延迟、精度、工程复杂度对比）

5.2.2 语音直接驱动LLM的端到端架构设计

5.3 训练：端到端语音交互模型的构建

5.3.1 语音-文本对齐数据集构建（多模态Token对齐训练）

5.3.2 语音编码器与LLM的联合训练策略（连续对话场景下的内存管理）

案例分析：Li MindGPT-4o——自研端到端语音大模型实现全双工低延迟类人对话

（MindGPT-4o-Audio实现"边听边说"自然对话，百毫秒级反馈，多角色高表现力语音）

六. VLM（视觉语言模型）

6.1 为什么车载场景需要VLM

6.1.1 座舱视觉感知需求（驾驶员状态监测、手势识别、舱内外场景理解）

6.1.2 传统CV模型的局限（单任务、缺乏语义理解、无法自然交互）

6.2 与传统视觉模型的核心区别

6.2.1 传统CV

（分类/检测/分割独立 vs VLM统一理解）

6.2.2 交互范式变化（从固定输出到自然语言问答）

6.3 训练：车载VLM的微调

6.3.1 座舱视觉感知与语言理解的融合架构

6.3.2 车载视觉数据集构建（舱内外场景标注与多模态对齐）

6.3.3 实战案例（驾驶员状态监测与视觉问答VLM微调）

6.4 推理：端侧VLM部署优化

6.4.1 视觉编码器+LLM的端侧联合推理优化

案例分析：面壁MiniCPM端侧多模态——舱内外视觉感知

案例分析：xiaopeng天玑AIOS 6.0——基于VLM实现座舱主动服务与智能迎宾

七. VLA（视觉语言行动模型）

7.1 为什么需要VLA

7.1.1 从"看懂"到"做到"（感知-理解-行动的闭环需求）

7.1.2 VLA在智驾与座舱协同控制中的应用前景

案例分析：Li全新L9"具身智能机器人"定位——汽车从交通工具向智能体演进

案例分析：xiaomi首发XLA认知大模型——打通辅助驾驶与具身机器人，融入MiMo-Embodied基座模型

7.2 与VLM的核心区别

7.2.1 VLM止步于理解，VLA延伸到行动（输出从文本到控制信号）

7.2.2 从感知到行动的端到端控制链路

7.3 训练：VLA模型的数据工程与训练策略

7.3.1 驾驶视频+控制信号的对齐数据集构建

案例分析：xiaopengVLA——1亿clips真实驾驶视频免标注训练

7.4 推理：端侧VLA的部署挑战

7.4.1 实时性要求（从感知到行动的端到端延迟控制）

案例分析：jiliM9+面壁0.9B端侧VLA量产首发

7.4.2 VLA端侧量化部署（INT4量化对控制精度的影响评估）

八. 中枢LLM

8.1 为什么座舱需要专属中枢LLM

8.1.1 通用大模型的不足（领域知识缺失、交互风格偏差、车控能力缺乏）

8.1.2 中枢LLM的定位

（座舱"大脑"，连接语音/视觉/车控）

8.2 与传统NLU的核心区别

8.2.1 传统NLU

（槽位填充vs LLM开放域理解与生成）

8.2.2 多轮对话能力跃升（上下文记忆、指代消解、隐式意图理解）

8.3 训练：座舱LLM的全流程微调实战

8.3.1 Prompt Engineering实战

（ReAct/CO-STAR车载场景应用）

8.3.2 RAG工程方案（车载知识库构建（车主手册、POI数据））

8.3.3 LoRA微调实战

（QLoRA/AdaLoRA/DoRA对比选型）

8.3.4 实战演示

（LLaMA-Factory座舱LLM微调全流程）

8.4 推理：座舱LLM的端侧部署与优化

8.4.1 车端算力/内存/功耗三重约束分析

8.4.2 主流推理框架对比（vLLM、TensorRT-LLM、llama.cpp等）

8.4.3 实战演示：车载模型瘦身全流程（量化+剪枝+vLLM PagedAttention推理加速）

第二部分：AI智能体（Agent）架构与车载开发实战

九. 车载智能体核心概念与技术栈

9.1 为什么需要智能体：与大模型的本质区别

9.1.1 功能定位差异：LLM是"大脑"，Agent是"完整执行者"

9.1.2 系统架构差异：单次推理 vs 多步规划与工具调用

9.1.3 实战对比：DeepSeek（LLM）vs Manus（Agent）能力边界分析

9.2 智能体的定义与核心组成

9.2.1 智能体概念定义与核心架构图解

9.2.2 组成要素：感知模块、记忆模块、规划模块、执行模块

9.3 智能体技术栈实战

9.3.1 记忆技术：短期记忆/长期记忆/情景记忆

9.3.1.1 记忆类型及功能（记忆存储/提取/遗忘）

9.3.1.2 实战案例：车载用户偏好记忆系统设计

9.3.2 工具调用技术：Function Call与MCP协议

9.3.2.1 Function Call工程实现与车载API对接

9.3.2.2 MCP与skill在车载工具扩展中的应用

9.3.3 规划与反思：ReAct、Chain-of-Thought等在车端的应用

9.4 车载智能体技术难度分级与案例

9.4.1 基于LangChain的四级难度体系

9.4.1.1 初级：单工具调用Agent

（案例：车载导航指令执行）

9.4.1.2 中级：多工具协同Agent

（案例：音乐+天气+导航联动）

9.4.1.3 高级：多步规划Agent

（案例：复杂行程规划与车控联动）

9.4.1.4 专家级：多Agent协作系统

（案例：协同多智能体）

案例分析：jili全域AI 2.0"1+2+N"多智能体协同框架——基于世界行为模型（WAM）的量产方案

十. 车载智能体开发全流程工程实践

10.1 开发全流程总览

10.1.1 需求分析→架构设计→功能实现→测试优化→灰度上线→持续迭代

10.2 任务需求分析

10.2.1 车载场景任务识别

10.2.2 详细需求拆解：功能边界、异常处理、性能指标

10.2.3 背景信息整合：车型差异、用户画像、使用场景

10.3 系统架构设计

10.3.1 整体系统设计：端云分工与数据流设计

10.3.2 链路设计：感知→理解→规划→执行→反馈闭环

10.3.3 组件设计：各模块接口规范与解耦策略

10.4 功能实现

10.4.1 平台选型：LangChain vs 自研框架的工程权衡

10.4.2 提示词设计：CO-STAR框架

（Context/Objective/Style/Tone/Audience/Response）

10.4.3 工程注意事项：幻觉控制、超时处理、降级策略

10.5 测试与优化

10.5.1 测试方法：单元测试、集成测试、端到端场景测试

10.5.2 核心测试指标：任务完成率、响应延迟、意图识别准确率

10.6 用户灰度发布

10.6.1 灰度策略设计：用户分层、按场景分批

10.6.2 线上监控指标与快速回滚机制

10.7 持续迭代更新

10.7.1 反馈数据闭环：Bad Case与模型迭代

10.7.2 OTA更新与Agent版本迭代

十一. 典型车载智能体应用案例深度剖析

11.1 车载智能体整体架构

11.1.1 端云协同多模态智能体架构解析

11.1.1.1 云端大模型与端侧轻量模型的任务分工

11.1.1.2 多模态输入融合：语音+视觉+触控的统一处理

11.2 主要垂直场景Agent实战

11.2.1 车书Agent：车主手册智能问答与故障诊断

11.2.1.1 案例架构：RAG知识库构建+意图识别+故障诊断推理链路

11.2.2 视觉Agent：座舱视觉感知与舱内外分析

11.2.2.1 案例架构：VLM感知+DMS行为分析+主动安全干预链路

11.2.3 音乐Agent：情境感知的个性化音乐推荐与控制

案例分析：weilaiNOMI生成类Agent——专属歌单生成与情境化推荐

11.2.4 美食Agent：基于位置与偏好的餐厅推荐与导航联动

11.2.4.1 案例架构：LBS定位+偏好记忆+POI检索+支付+导航联动链路

案例分析：weilai×麦当劳——餐饮品牌首个车载AI语音点餐智能体

案例分析：weilai×支付宝——CUA框架对接支付宝生态，一句话点咖啡

11.2.5 出行Agent：复杂行程规划与多模式出行协同

11.2.5.1 案例架构：多步规划+多工具调用+导航+车控协同链路

案例分析：Li×支付宝停车缴费——车外摄像头自动识别二维码+自动填写车牌

11.2.6 绘画Agent：车载娱乐场景下的AI创作交互

11.2.6.1 案例架构：自然语言描述+图像生成模型+风格迁移+座舱展示链路

11.2.7 音乐生成Agent：实时情境音乐生成与氛围营造

11.2.7.1 案例架构：场景感知+情绪分析+音乐生成模型+氛围灯联动链路

11.3 标杆案例：Li i8重点车载智能体深度拆解

11.3.1 复杂车控Agent

11.3.1.1 多步车控指令的意图理解与安全执行策略

11.3.1.2 车控失败的降级处理与用户反馈机制

11.3.2 自主工具调用Agent

11.3.2.1 500+功能工具化改造与语音直达调用架构

11.3.2.2 跨生态工具链：支付宝支付+美团点餐+停车缴费全链路

（调用车外摄像头识别停车场二维码，自动填写车牌号、选择优惠券、快速缴费）

11.3.3 桌面大师

11.3.3.1 多应用协同调度与界面自动化操作

11.3.3.2 自然语言驱动的车载UI交互实现

（汽车行业首个AI代码生成工具）

十二. 车载智能体发展趋势

12.1 端云多模态协作的演进路径

12.1.1 从云端主导到端侧增强的架构迁移趋势

12.1.2 端侧大模型能力提升对云端依赖的逐步替代

12.2 工具调用边界的扩大与安全考量

12.2.1 车载工具生态扩展：从信息查询到物理世界控制

12.2.2 工具调用的安全边界设计与权限管控

案例分析：tesla Grok+FSD V14

案例分析：lingke语音控车关灯

12.2.3 软硬解耦与"统一物理API"理念对车载的启示

（底盘/智驾/智舱统一接口——专用→通用Agent OS）

案例分析：IM Ultra Agent——舱驾一体架构+千问大模型实现"全域代劳"

12.3 汽车具身机器人

12.3.1 舱驾融合：智能座舱与智能驾驶的统一智能体架构

12.3.1.1 座舱Agent感知意图+智驾VLA执行控制的协同链路

12.3.1.2 统一数据层与模型层：从独立域控到跨域融合

（座舱语音/视觉感知→中枢LLM决策→VLA驾驶执行，共享世界模型）

12.3.2 整车其他部分的融合：从座舱到底盘、动力的全域智能化

12.3.2.1 底盘/动力/热管理等域控制器接入Agent统一调度

12.3.2.2 汽车作为"具身智能机器人"的终极形态展望

（从交通工具到具身智能体：感知-认知-行动全闭环）

案例分析：jili Eva智能体——全域AI 2.0实现舱驾底盘全域融合

时间地点及联系方式

1、报到时间：2026年6月25日

2、培训时间：2026年6月26-27日

3、培训地点：上海（具体地点提前一周发报到通知）

4、联系人：时雷

咨询电话：17701380144 (同微信)

5、报名方式：填写好后E-mail至 shilei@bjclm.org

6、注意事项：

（1）请在开课前将报名表以邮件或微信的方式回执给我们，我们将严格按报名顺序安排座位。

（2）确认报名成功后会务组将以电话或邮件通知您并在开课前一周发报到通知。

*如需报名表请添加客服微信领取

26年6月培训课程：