谷歌没开源TurboQuant源码,他7天写完了-夜雨聆风

谷歌没开源TurboQuant源码,他7天写完了

太魔幻了🤯
这波真的有点 “个人开发者 + AI = 硬刚大厂” 的味道了。

事情是这样的——

谷歌刚丢出一个重磅论文：KV Cache 压缩算法（TurboQuant），
号称能把大模型推理内存直接压到 1/6，甚至更低，还几乎不掉精度

听起来很炸对吧？
但问题是——

👉 只有论文，没有代码。

结果，一个程序员老哥 Tom Turney，
直接开干。

他干了什么？

——啃论文里的数学公式
——打开终端
——拉上 Claude 当“外挂大脑”

然后只用了 7天时间：
• 前3天：写出核心算法 + 搭测试体系（141个用例）
• 中间2天：直接移植进 llama.cpp + 写 Metal GPU 内核
• 最后2天：疯狂优化性能

最终结果有多离谱？

👉 推理速度：从 739 tok/s → 2747 tok/s（3.7倍）
👉 KV Cache：压缩 4.6 倍
👉 35B 大模型：MacBook 本地流畅跑

而且他还不是照抄论文——
直接在谷歌方案上加了三刀：
• 跳过90%无用 value 解压（长上下文优化）
• K/V 非对称压缩（保 key 精度，狠压 value）
• 老 token 自动降精度（动态压缩）

一句话总结：

👉 论文只是起点，工程才是爆点。

更魔幻的是——

这个开源项目上线一周，直接几百星，
而谷歌自己的官方实现……

👉 至今没开源。

⸻

说实话，这才是 2026 年最真实的画面：

不是“大厂 vs 大厂”，
而是——

👉 普通人 + AI = 小团队级战斗力

你不需要几百人的团队，
你只需要：
• 一篇论文
• 一个终端
• 一个 Claude

就能把“实验室技术”，
直接变成“人人可用的工具”。

这波，不是优化，是范式变了🚀

github 地址评论区自取👇