乐于分享
好东西不私藏

谷歌没开源TurboQuant源码,他7天写完了

谷歌没开源TurboQuant源码,他7天写完了

太魔幻了🤯
这波真的有点 “个人开发者 + AI = 硬刚大厂” 的味道了。

事情是这样的——

谷歌刚丢出一个重磅论文:KV Cache 压缩算法(TurboQuant),
号称能把大模型推理内存直接压到 1/6,甚至更低,还几乎不掉精度  

听起来很炸对吧?
但问题是——

👉 只有论文,没有代码。

结果,一个程序员老哥 Tom Turney,
直接开干。

他干了什么?

——啃论文里的数学公式
——打开终端
——拉上 Claude 当“外挂大脑”

然后只用了 7天时间:
• 前3天:写出核心算法 + 搭测试体系(141个用例)
• 中间2天:直接移植进 llama.cpp + 写 Metal GPU 内核
• 最后2天:疯狂优化性能

最终结果有多离谱?

👉 推理速度:从 739 tok/s → 2747 tok/s(3.7倍)
👉 KV Cache:压缩 4.6 倍
👉 35B 大模型:MacBook 本地流畅跑

而且他还不是照抄论文——
直接在谷歌方案上加了三刀:
• 跳过90%无用 value 解压(长上下文优化)
• K/V 非对称压缩(保 key 精度,狠压 value)
• 老 token 自动降精度(动态压缩)

一句话总结:

👉 论文只是起点,工程才是爆点。

更魔幻的是——

这个开源项目上线一周,直接几百星,
而谷歌自己的官方实现……

👉 至今没开源。

说实话,这才是 2026 年最真实的画面:

不是“大厂 vs 大厂”,
而是——

👉 普通人 + AI = 小团队级战斗力

你不需要几百人的团队,
你只需要:
• 一篇论文
• 一个终端
• 一个 Claude

就能把“实验室技术”,
直接变成“人人可用的工具”。

这波,不是优化,是范式变了🚀

github 地址评论区自取👇