TurboQuant+:老电脑3.8倍压缩跑大模型,让你本地跑104B不卡顿
"你的MacBook能跑104B参数的大模型,而且支持128K上下文——这不是科幻,是TurboQuant+正在做的事。"
Github地址
https://github.com/TheTom/turboquant_plus

为什么需要这个项目?
- 痛点1:显存/内存永远不够用。跑大模型时,KV cache吃掉的内存往往比模型权重还多,128K上下文的KV cache轻松占用几十GB。
- 痛点2:长上下文推理速度断崖下降。随着上下文变长,attention计算量急剧增加,token生成速度可能降到个位数。
- 痛点3:量化后质量损失难以接受。传统4-bit量化对KV cache压缩太粗暴,长文本检索准确率暴跌,PPL(困惑度)飙升。
- 痛点4:跨平台适配困难。Apple Silicon、NVIDIA CUDA、AMD HIP——三大平台各自为战,一套方案无法通用。
- 痛点5:大模型本地部署门槛极高。想本地跑70B甚至104B的模型?没有TurboQuant+这类压缩技术,基本不可能。
核心内容
1. 三级压缩格式灵活选择
TurboQuant+提供三种压缩档位,适配不同场景:
- turbo4(4-bit,3.8x压缩):质量最接近q8_0基线,PPL仅增加0.23%,NIAH检索准确率甚至超过q8_0(31/33 vs 30/33)
- turbo3(3-bit,4.6-5.1x压缩):极致压缩,prefill速度反而比q8_0快6-10%
- turbo2(2-bit,6.4x压缩):极限压缩场景,适合搭配非对称K/V使用
2. 非对称K/V压缩——突破质量瓶颈
核心发现:KV cache的质量退化几乎全部来自Key压缩,Value压缩到2-bit几乎无影响。因此TurboQuant+支持K和V独立配置——Key保持q8_0精度,Value用turbo压缩。在Qwen2.5-7B Q4_K_M上,非对称配置(q8_0-K + turbo4-V)PPL仅增加1.0%,而对称turbo3直接崩溃(PPL飙到3556)。
3. Boundary V层感知压缩
Transformer的首尾两层对精度极度敏感。Boundary V默认保护前2层+后2层使用q8_0精度,中间层使用turbo2压缩。仅15行代码改动,零速度损失,就能恢复37-91%的质量差距(在64层MoE模型上恢复率高达91%)。
4. Sparse V稀疏解码加速
在attention权重低于1e-6的位置跳过Value反量化操作。长上下文场景下,大部分attention权重微乎其微——这一优化可节省约一半的反量化开销。在32K上下文MoE模型上,解码速度提升22.8%,且PPL变化为零(ON/OFF差值=0.000)。
5. 实测104B模型在笔记本上跑128K
Command-R+ 104B Q4_K_M在M5 Max 128GB上使用turbo4/turbo4配置,128K上下文PPL 6.312(仅比q8_0高1.9%),NIAH检索10/10全通过。Llama-70B Q4_K_M在48K上下文PPL仅4.019。
技术亮点
- PolarQuant + Walsh-Hadamard旋转:通过随机旋转将KV cache向量高斯化(峰度从900降至2.9),再进行最优标量量化,这是TurboQuant的理论核心
- q8_0 prefill速度平齐:经过7轮优化(fp32 WHT 739 tok/s → block-32存储 2747 tok/s),turbo3/turbo4的prefill速度与q8_0持平甚至更快
- 三大GPU平台全覆盖:Metal(Apple Silicon M1-M5)、CUDA(RTX 3080Ti/3090/4090/5090)、HIP(AMD RX 9070 XT RDNA 4),均有社区实测数据
- 500+ Python测试,100%代码覆盖率:14个测试文件覆盖所有核心模块,含CI可信区间验证(+/-0.021)
- ICLR 2026顶会论文背书:基于Google Research的TurboQuant论文(arXiv 2504.19874),且有独立于论文的新发现
- M1 Max上turbo4解码反超q8_0:在38K上下文场景下,turbo4解码速度比q8_0快33.9%,因为压缩后的KV cache带宽节省超过了反量化开销
适合人群
- 本地大模型玩家:在MacBook上跑70B/104B模型的硬核用户,需要最大化利用有限内存
- AI推理工程师:关注KV cache优化、长上下文推理效率、模型部署性能的专业人士
- Mac开发者:拥有Apple Silicon设备,希望充分发挥Metal GPU潜力的开发者
- 量化研究者:对PolarQuant、Walsh-Hadamard变换、标量量化等底层技术感兴趣的研究人员
如何开始学习
1. 快速体验:下载预编译二进制文件(macOS Metal版或Windows CUDA版),解压即用,无需编译
2. 跑第一个推理:使用llama-server加载模型,添加--cache-type-k turbo4 --cache-type-v turbo4参数启动
3. 深入理解原理:阅读Python原型的turboquant/目录源码和docs/papers/下的工程论文
4. 参与社区测试:在你的硬件上跑benchmark,提交结果到GitHub Issues
| 你是谁 | 推荐起点 |
|--------|----------|
| 想直接用的用户 | 下载预编译包,用turbo4跑你的模型 |
| Mac本地部署玩家 | clone仓库 → Metal编译 → 搭配Ollama或llama.cpp使用 |
| 量化研究爱好者 | 先跑Python原型的demo.py,再看tests/理解算法细节 |
| GPU内核开发者 | 重点看ggml-metal.metal和ggml-turbo-quant.c的Metal/CUDA实现 |
项目特色
- 开箱即用的预编译包:提供macOS Metal和Windows CUDA两个平台的即下即用二进制,零编译门槛
- 社区驱动的硬件验证:30+测试者覆盖M1/M2/M3/M5 Mac、RTX 3080Ti/3090/4090/5090、AMD 6800XT/9070XT
- 完整的工程文档体系:25+篇工程文档记录每个优化决策、失败尝试和性能调优过程
- MLX框架移植同步进行:Apple MLX框架的Python/Swift移植也在推进,已实现97-100%基线解码速度
- 向上游llama.cpp贡献:这不是一个长期fork,目标是逐步将稳定的改进以小patch形式合入llama.cpp主线
- Swift MLX原生端口:与ekryski/mlx-swift-lm合作,Swift原生实现比Python mlx-lm快约2.5倍
声明
- 本文仅作技术介绍,不构成任何投资或使用建议
- TurboQuant+为实验性项目,API和功能可能随版本迭代变化
- 具体压缩效果因模型、硬件、上下文长度而异,请以实际测试为准
- 项目基于Apache 2.0协议开源,使用时请遵守相应许可条款
写在最后
TurboQuant+是目前在本地大模型KV cache压缩领域做得最扎实、文档最完善的开源项目之一。它不只是复现了一篇ICLR论文,而是在此基础上做出了非对称K/V、Boundary V、Sparse V等独立的技术贡献。500+测试、30+社区硬件验证、104B模型的端到端实测——这种工程严谨度在开源AI项目中并不多见。如果你正在折腾本地部署大模型,尤其是Apple Silicon设备,TurboQuant+值得一试。
如果这个项目对你有帮助,别忘了给它一个 Star ⭐
推荐理由:KV cache压缩3.8-6.4倍,104B模型在笔记本上跑128K上下文,ICLR 2026论文的工程级实现。
夜雨聆风