大模型算法:强化学习、微调与对齐pdf电子书下载-夜雨聆风

大模型算法:强化学习、微调与对齐pdf电子书下载

作者:余昌叶

出版社:电子工业出版社

出版时间:2025年04月

编辑推荐

适读人群：AI方向的大学生、工程师、研究者。希望学习大模型技术的跨行业读者

精心绘制100 全彩架构图，深入浅出，直击核心

资深算法工程师撰写，深度契合大厂所用所需

全程独著打磨，确保至臻品质、始终如一

开创性地系统讲解强化学习等大模型算法

电子版原理图及相关资料

内容简介

本书系统地讲解了大模型技术、训练算法（包括强化学习、RLHF、GRPO、DPO、SFT与CoT蒸馏等）、微调与对齐、效果优化及其实践。全书以大语言模型（LLM）为主线，绝大部分内容也适用于多模态大模型（VLM 和MLLM）。本书面向AI算法与工程领域的从业者、相关专业的学生，以及希望深入了解大模型技术、拥抱AI与大模型浪潮的跨行业读者。

作者简介

余昌叶

资深算法工程师，哈尔滨工业大学优秀毕业生。曾就职于腾讯等多家头部互联网企业，拥有十年行业经验。主要研究方向为大模型、强化学习、推荐系统及图像处理。具备扎实的数学功底与深厚的算法理论基础，主导并完成多项核心AI技术项目的工程化落地。已获六项国家发明专利，曾荣获科研类全国航空航天模型锦标赛亚军等专业奖项，以及腾讯卓越研发奖（团队）、腾讯知识奖等多项企业级荣誉。

目　　录

第1章大模型原理与技术概要

1.1 图解大模型结构

1.1.1 大语言模型（LLM）结构全景图

1.1.2 输入层：分词、Token映射与向量生成

1.1.3 输出层：Logits、概率分布与解码

1.1.4 多模态语言模型（MLLM、VLM）

1.2 大模型训练全景图

1.3 Scaling Law（性能的四大扩展规律）

第2章 SFT（监督微调）

2.1 多种微调技术图解

2.1.1 全参数微调、部分参数微调

2.1.2 LoRA（低秩适配微调）——四两拨千斤

2.1.3 LoRA衍生：QLoRA、AdaLoRA、PiSSA等

2.1.4 基于提示的微调：Prefix-Tuning等

显示全部信息

前　　言

近年来，大模型、具身智能机器人、自动驾驶、AGI、AIGC等技术方向已成为科技行业与资本市场的关注焦点，被广泛视为未来数年的核心发展趋势。这些技术正逐步改变人类的生活方式、社会形态及全球科技竞争格局。大模型作为推动这些技术进步的核心引擎，其潜力与重要性正日益突显。

在大模型的训练与应用中，大语言模型（LLM）占据核心地位，并进一步衍生出视觉语言模型（VLM）和多模态大语言模型（MLLM）等形式。本书以LLM为主线，深入解析大模型的结构、原理、训练算法与实践，其中绝大部分内容也适用于多模态模型（VLM 和MLLM）。大模型的训练与调优算法是其技术体系的核心，通常分为预训练和后训练两个阶段。预训练阶段依赖海量数据和高性能算力，成本高昂，单次训练往往耗资数千万元乃至数亿元，主要由少数公司主导。相比之下，后训练阶段更贴近实际应用场景，拥有庞大的开发者和从业者群体。开源大模型为开发者提供了利用基座模型进行特定训练的灵活性，而闭源大模型通常以API、网页或云服务形式封装训练与微调过程，使模型的训练与调优更加高效便捷。

本书作者拥有丰富的AI算法经验及互联网一线大厂背景，倾心著述打磨，深度契合大厂需求。书中精心绘制100 架构图，深入浅出地系统解析大模型核心技术，帮助读者高效理解并落地应用。

显示