TurboQuant+:老电脑3.8倍压缩跑大模型,让你本地跑104B不卡顿

TurboQuant+：老电脑3.8倍压缩跑大模型，让你本地跑104B不卡顿

"你的MacBook能跑104B参数的大模型，而且支持128K上下文——这不是科幻，是TurboQuant+正在做的事。"

Github地址

https://github.com/TheTom/turboquant_plus

为什么需要这个项目？

痛点1：显存/内存永远不够用。跑大模型时，KV cache吃掉的内存往往比模型权重还多，128K上下文的KV cache轻松占用几十GB。
痛点2：长上下文推理速度断崖下降。随着上下文变长，attention计算量急剧增加，token生成速度可能降到个位数。
痛点3：量化后质量损失难以接受。传统4-bit量化对KV cache压缩太粗暴，长文本检索准确率暴跌，PPL（困惑度）飙升。
痛点4：跨平台适配困难。Apple Silicon、NVIDIA CUDA、AMD HIP——三大平台各自为战，一套方案无法通用。
痛点5：大模型本地部署门槛极高。想本地跑70B甚至104B的模型？没有TurboQuant+这类压缩技术，基本不可能。

核心内容

1. 三级压缩格式灵活选择

TurboQuant+提供三种压缩档位，适配不同场景：

turbo4（4-bit，3.8x压缩）：质量最接近q8_0基线，PPL仅增加0.23%，NIAH检索准确率甚至超过q8_0（31/33 vs 30/33）
turbo3（3-bit，4.6-5.1x压缩）：极致压缩，prefill速度反而比q8_0快6-10%
turbo2（2-bit，6.4x压缩）：极限压缩场景，适合搭配非对称K/V使用

2. 非对称K/V压缩——突破质量瓶颈

核心发现：KV cache的质量退化几乎全部来自Key压缩，Value压缩到2-bit几乎无影响。因此TurboQuant+支持K和V独立配置——Key保持q8_0精度，Value用turbo压缩。在Qwen2.5-7B Q4_K_M上，非对称配置（q8_0-K + turbo4-V）PPL仅增加1.0%，而对称turbo3直接崩溃（PPL飙到3556）。

3. Boundary V层感知压缩

Transformer的首尾两层对精度极度敏感。Boundary V默认保护前2层+后2层使用q8_0精度，中间层使用turbo2压缩。仅15行代码改动，零速度损失，就能恢复37-91%的质量差距（在64层MoE模型上恢复率高达91%）。

4. Sparse V稀疏解码加速

在attention权重低于1e-6的位置跳过Value反量化操作。长上下文场景下，大部分attention权重微乎其微——这一优化可节省约一半的反量化开销。在32K上下文MoE模型上，解码速度提升22.8%，且PPL变化为零（ON/OFF差值=0.000）。

5. 实测104B模型在笔记本上跑128K

Command-R+ 104B Q4_K_M在M5 Max 128GB上使用turbo4/turbo4配置，128K上下文PPL 6.312（仅比q8_0高1.9%），NIAH检索10/10全通过。Llama-70B Q4_K_M在48K上下文PPL仅4.019。

技术亮点

PolarQuant + Walsh-Hadamard旋转：通过随机旋转将KV cache向量高斯化（峰度从900降至2.9），再进行最优标量量化，这是TurboQuant的理论核心
q8_0 prefill速度平齐：经过7轮优化（fp32 WHT 739 tok/s → block-32存储 2747 tok/s），turbo3/turbo4的prefill速度与q8_0持平甚至更快
三大GPU平台全覆盖：Metal（Apple Silicon M1-M5）、CUDA（RTX 3080Ti/3090/4090/5090）、HIP（AMD RX 9070 XT RDNA 4），均有社区实测数据
500+ Python测试，100%代码覆盖率：14个测试文件覆盖所有核心模块，含CI可信区间验证（+/-0.021）
ICLR 2026顶会论文背书：基于Google Research的TurboQuant论文（arXiv 2504.19874），且有独立于论文的新发现
M1 Max上turbo4解码反超q8_0：在38K上下文场景下，turbo4解码速度比q8_0快33.9%，因为压缩后的KV cache带宽节省超过了反量化开销

适合人群

本地大模型玩家：在MacBook上跑70B/104B模型的硬核用户，需要最大化利用有限内存
AI推理工程师：关注KV cache优化、长上下文推理效率、模型部署性能的专业人士
Mac开发者：拥有Apple Silicon设备，希望充分发挥Metal GPU潜力的开发者
量化研究者：对PolarQuant、Walsh-Hadamard变换、标量量化等底层技术感兴趣的研究人员

如何开始学习

1. 快速体验：下载预编译二进制文件（macOS Metal版或Windows CUDA版），解压即用，无需编译

2. 跑第一个推理：使用llama-server加载模型，添加--cache-type-k turbo4 --cache-type-v turbo4参数启动

3. 深入理解原理：阅读Python原型的turboquant/目录源码和docs/papers/下的工程论文

4. 参与社区测试：在你的硬件上跑benchmark，提交结果到GitHub Issues

| 你是谁 | 推荐起点 |

|--------|----------|

| 想直接用的用户 | 下载预编译包，用turbo4跑你的模型 |

| Mac本地部署玩家 | clone仓库 → Metal编译 → 搭配Ollama或llama.cpp使用 |

| 量化研究爱好者 | 先跑Python原型的demo.py，再看tests/理解算法细节 |

| GPU内核开发者 | 重点看ggml-metal.metal和ggml-turbo-quant.c的Metal/CUDA实现 |

项目特色

开箱即用的预编译包：提供macOS Metal和Windows CUDA两个平台的即下即用二进制，零编译门槛
社区驱动的硬件验证：30+测试者覆盖M1/M2/M3/M5 Mac、RTX 3080Ti/3090/4090/5090、AMD 6800XT/9070XT
完整的工程文档体系：25+篇工程文档记录每个优化决策、失败尝试和性能调优过程
MLX框架移植同步进行：Apple MLX框架的Python/Swift移植也在推进，已实现97-100%基线解码速度
向上游llama.cpp贡献：这不是一个长期fork，目标是逐步将稳定的改进以小patch形式合入llama.cpp主线
Swift MLX原生端口：与ekryski/mlx-swift-lm合作，Swift原生实现比Python mlx-lm快约2.5倍

声明

本文仅作技术介绍，不构成任何投资或使用建议
TurboQuant+为实验性项目，API和功能可能随版本迭代变化
具体压缩效果因模型、硬件、上下文长度而异，请以实际测试为准
项目基于Apache 2.0协议开源，使用时请遵守相应许可条款

写在最后

TurboQuant+是目前在本地大模型KV cache压缩领域做得最扎实、文档最完善的开源项目之一。它不只是复现了一篇ICLR论文，而是在此基础上做出了非对称K/V、Boundary V、Sparse V等独立的技术贡献。500+测试、30+社区硬件验证、104B模型的端到端实测——这种工程严谨度在开源AI项目中并不多见。如果你正在折腾本地部署大模型，尤其是Apple Silicon设备，TurboQuant+值得一试。

如果这个项目对你有帮助，别忘了给它一个 Star ⭐

推荐理由：KV cache压缩3.8-6.4倍，104B模型在笔记本上跑128K上下文，ICLR 2026论文的工程级实现。