有源代码实操,红帽专家精讲 vLLM 高效部署大模型,吴恩达联合出品

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

全球AI大牛吴恩达创办的DeepLearning.AI联合红帽刚推出了一个新课程，教你如何用vLLM高效部署大模型。

这是一个难度适中的中级实战课程，整体学习时间也就1小时40分钟。一共有9大章节，三个可直接上手复刻的代码案例。还有一次结业计分考核，完成考核后还能拿到专属的课程认证。

教课的老师也很硬核，是红帽的高级开发者布道师主讲Cedric Clyburn，有一线项目落地实战经验，没有空洞的理论堆砌。

已关注

关注

重播分享赞

课程地址：https://www.deeplearning.ai/courses/fast-and-efficient-llm-inference-with-vllm

为什么学这个课程

做过AI落地开发的朋友应该深有体会，大模型训练只是第一步，真正难的是后续的高效部署。

很多时候我们拿到效果不错的模型，一上线就遇到各种问题，例如，显存不够用、并发请求一多就卡顿延迟、算力浪费严重等一系列难题。

而这个课程就是来帮助大家吃透，当下很火的大模型部署工具vLLM，搞懂到底凭什么能实现超高并发推理。

我们日常部署模型时，多用户同时请求很容易造成排队卡顿，而vLLM自带的多种优化机制，能充分榨干GPU的算力，轻松应对海量并发请求，让服务运行得又稳又快。

我觉得更关键的一点，让你建立完整的工程取舍思维。很多新手部署模型只会盲目追求速度或者盲目保留精度，不懂平衡取舍。

这门课会教大家完整的压测和评测方法，学会根据自身业务场景，在推理速度、使用成本和模型效果之间找到最优平衡点。

课程核心内容

这个课程前面会帮我们先打好基础，搞懂大模型推理的完整过程，理解显存层级结构对推理性能的影响，同时摸清模型优化的底层逻辑。

大家会明白量化压缩技术的核心原理，知道怎么在尽可能不损失模型效果的前提下，缩小模型体积、提升推理速度、降低延迟。

之后会上手实操模型压缩工具，亲手对完整精度的模型做量化处理，直观对比压缩前后的模型大小差异。

还会通过专业的评测方式，判断瘦身之后的模型是否还能满足业务使用需求，彻底告别盲目压缩的误区。

这个课程最核心的干货，就是拆解vLLM的三大王牌优化能力。持续批处理技术能让GPU始终保持高效运转，不会出现算力空闲浪费的情况。

分页注意力机制可以精细化管理推理缓存，彻底杜绝显存资源的无故消耗。

前缀缓存则能针对重复的用户请求内容，跳过重复计算步骤，大幅提升响应速度。这三项技术也是vLLM超过传统部署方式的关键。

掌握原理之后就进入实战部署环节，会教你如何搭建vLLM推理服务，通过通用的接口发送推理请求，全程监控各项运行指标，直观看到各类优化机制的实际运行效果。

最后还会模拟真实的高并发业务场景做压力测试，同时全方位评测模型的输出质量，确保部署后的服务稳定、好用、性价比高。

其实这个课程定位很挺精准的，主要面向需要落地大模型部署的机器学习工程师、平台运维人员和后端开发者。

不管是工作中需要做模型上线部署，还是想提升AI工程实战能力，这门课都很合适。

学习门槛不算高，不用掌握高深的算法知识，只要你会基础的Python编程，了解大模型推理、token、显存这些最基础的AI概念，就能轻松跟上课程节奏。

想系统掌握AI核心技能、获取行业认可资质？

CAIE注册人工智能工程师认证

助你拓宽职业赛道，成为AI领域持证实力派

企业、高校及渠道合作

请联系微信：FYLlaoshi