谷歌没开源TurboQuant源码,他7天写完了
太魔幻了🤯
这波真的有点 “个人开发者 + AI = 硬刚大厂” 的味道了。
事情是这样的——
谷歌刚丢出一个重磅论文:KV Cache 压缩算法(TurboQuant),
号称能把大模型推理内存直接压到 1/6,甚至更低,还几乎不掉精度
听起来很炸对吧?
但问题是——
👉 只有论文,没有代码。
结果,一个程序员老哥 Tom Turney,
直接开干。
他干了什么?
——啃论文里的数学公式
——打开终端
——拉上 Claude 当“外挂大脑”
然后只用了 7天时间:
• 前3天:写出核心算法 + 搭测试体系(141个用例)
• 中间2天:直接移植进 llama.cpp + 写 Metal GPU 内核
• 最后2天:疯狂优化性能
最终结果有多离谱?
👉 推理速度:从 739 tok/s → 2747 tok/s(3.7倍)
👉 KV Cache:压缩 4.6 倍
👉 35B 大模型:MacBook 本地流畅跑
而且他还不是照抄论文——
直接在谷歌方案上加了三刀:
• 跳过90%无用 value 解压(长上下文优化)
• K/V 非对称压缩(保 key 精度,狠压 value)
• 老 token 自动降精度(动态压缩)
一句话总结:
👉 论文只是起点,工程才是爆点。
更魔幻的是——
这个开源项目上线一周,直接几百星,
而谷歌自己的官方实现……
👉 至今没开源。
⸻
说实话,这才是 2026 年最真实的画面:
不是“大厂 vs 大厂”,
而是——
👉 普通人 + AI = 小团队级战斗力
你不需要几百人的团队,
你只需要:
• 一篇论文
• 一个终端
• 一个 Claude
就能把“实验室技术”,
直接变成“人人可用的工具”。
这波,不是优化,是范式变了🚀
github 地址评论区自取👇
夜雨聆风