乐于分享
好东西不私藏

大模型算法:强化学习、微调与对齐pdf电子书下载

大模型算法:强化学习、微调与对齐pdf电子书下载

作者:余昌叶

出版社:电子工业出版社

出版时间:2025年04月

编辑推荐

适读人群 :AI方向的大学生、工程师、研究者。希望学习大模型技术的跨行业读者

精心绘制100 全彩架构图,深入浅出,直击核心

资深算法工程师撰写,深度契合大厂所用所需

全程独著打磨,确保至臻品质、始终如一

开创性地系统讲解强化学习等大模型算法

电子版原理图及相关资料

内容简介

本书系统地讲解了大模型技术、训练算法(包括强化学习、RLHF、GRPO、DPO、SFT与CoT蒸馏等)、 微调与对齐、效果优化及其实践。全书以大语言模型(LLM)为主线,绝大部分内容也适用于多模态大模型(VLM 和MLLM)。本书面向AI算法与工程领域的从业者、相关专业的学生,以及希望深入了解大模型技术、拥抱AI与大模型浪潮的跨行业读者。

作者简介

余昌叶

资深算法工程师,哈尔滨工业大学优秀毕业生。曾就职于腾讯等多家头部互联网企业,拥有十年行业经验。主要研究方向为大模型、强化学习、推荐系统及图像处理。具备扎实的数学功底与深厚的算法理论基础,主导并完成多项核心AI技术项目的工程化落地。已获六项国家发明专利,曾荣获科研类全国航空航天模型锦标赛亚军等专业奖项,以及腾讯卓越研发奖(团队)、腾讯知识奖等多项企业级荣誉。

目  录

第1章 大模型原理与技术概要

1.1 图解大模型结构

1.1.1 大语言模型(LLM)结构全景图

1.1.2 输入层:分词、Token映射与向量生成

1.1.3 输出层:Logits、概率分布与解码

1.1.4 多模态语言模型(MLLM、VLM)

1.2 大模型训练全景图

1.3 Scaling Law(性能的四大扩展规律)

第2章 SFT(监督微调)

2.1 多种微调技术图解

2.1.1 全参数微调、部分参数微调

2.1.2 LoRA(低秩适配微调)——四两拨千斤

2.1.3 LoRA衍生:QLoRA、AdaLoRA、PiSSA等

2.1.4 基于提示的微调:Prefix-Tuning等

显示全部信息

前  言

近年来,大模型、具身智能机器人、自动驾驶、AGI、AIGC等技术方向已成为科技行业与资本市场的关注焦点,被广泛视为未来数年的核心发展趋势。这些技术正逐步改变人类的生活方式、社会形态及全球科技竞争格局。大模型作为推动这些技术进步的核心引擎,其潜力与重要性正日益突显。

在大模型的训练与应用中,大语言模型(LLM)占据核心地位,并进一步衍生出视觉语言模型(VLM)和多模态大语言模型(MLLM)等形式。本书以LLM为主线,深入解析大模型的结构、原理、训练算法与实践,其中绝大部分内容也适用于多模态模型(VLM 和MLLM)。大模型的训练与调优算法是其技术体系的核心,通常分为预训练和后训练两个阶段。预训练阶段依赖海量数据和高性能算力,成本高昂,单次训练往往耗资数千万元乃至数亿元,主要由少数公司主导。相比之下,后训练阶段更贴近实际应用场景,拥有庞大的开发者和从业者群体。开源大模型为开发者提供了利用基座模型进行特定训练的灵活性,而闭源大模型通常以API、网页或云服务形式封装训练与微调过程,使模型的训练与调优更加高效便捷。

本书作者拥有丰富的AI算法经验及互联网一线大厂背景,倾心著述打磨,深度契合大厂需求。书中精心绘制100 架构图,深入浅出地系统解析大模型核心技术,帮助读者高效理解并落地应用。

显示