Redis 之父下场写 AI 引擎,说明了什么
通用框架的尽头,是专用引擎。
Salvatore Sanfilippo 是谁?
你可能不记得他的名字,但你一定用过他的作品——Redis。
这位数据库界的传奇人物,最近干了一件很有意思的事:
为 DeepSeek V4 Flash 专门写了一个推理引擎,只服务这一个模型。
项目叫 ds4.c,代码库刚出,性能数据已经炸了。
一、这事有多极客?
先看看他放弃了什么
通用推理框架(比如 llama.cpp)的设计目标:
支持几百个模型架构 兼容各种量化格式 跨平台运行(CPU/GPU/Metal/CUDA)
antirez 的选择:
❌ 不支持其他模型 ❌ 不兼容其他量化格式 ❌ 只跑 Apple Silicon(Mac)
"非通用框架,不兼容其他模型,极致精简、无多余抽象。"
这是什么概念?
相当于:
有人专门为《黑神话:悟空》写了一个游戏引擎,不跑其他游戏 有人专门为 H.265 写了一个视频解码器,不解码其他格式 有人专门为某个数据库查询写了一个执行引擎,不处理其他 SQL
放弃通用性,换极致性能。
二、性能数据有多夸张?
测试环境
| 设备 | 配置 |
|---|---|
| MacBook Pro M3 Max | 128GB 统一内存 |
| Mac Studio M3 Ultra | 512GB 统一内存 |
实测结果
128GB MacBook Pro M3 Max:
预填充速度:58.52 token/s 生成速度:26.68 token/s
512GB Mac Studio M3 Ultra:
长 prompt 预填充:468.03 token/s 生成速度:27.39 token/s
这是什么水平?
468 token/s 的预填充 ≈ 不到 1 秒处理 500 字 27 token/s 的生成 ≈ 比正常人说话快
284B 参数的 MoE 模型,在本地 Mac 上跑出了云 API 的速度。
三、技术细节拆解
1. 非对称量化策略
MoE 架构的特点是:
专家层(Experts):计算密集,但每次只激活部分 共享层(Shared):每次推理都用
antirez 的做法:
| 层级 | 量化精度 | 理由 |
|---|---|---|
| 专家层 | 2-bit | 计算量大,量化换速度 |
| 共享层/投影层/路由层 | Q8 (8-bit) | 保留精度,保证质量 |
不是无脑量化,而是根据层级重要性分配精度预算。
2. KV 缓存硬盘化
长上下文场景的痛点:
对话历史越长,预填充越慢 重复的前缀计算被浪费
ds4.c 的做法:
对话状态存盘 重复前缀直接复用 大幅减少长上下文预填充耗时
用空间换时间,用硬盘换计算。
3. API 兼容层
内置 OpenAI、Anthropic 协议兼容层。
这意味着什么?
主流 Agent 客户端(Continue、Cursor、LangChain 等)可以开箱对接,不需要改代码。
四、设计理念的冲击
通用框架的代价
llama.cpp、vLLM、TGI……这些框架的设计哲学是:
"一次开发,支持百模。"
代价是:
中间抽象层多 性能优化有上限 代码复杂度高
ds4.c 的哲学
"一模型一引擎。"
好处是:
去掉所有中间层 针对单一架构极致优化 代码精简,调试容易
这像什么?
浏览器 JS 引擎:V8 专门为 Chrome 优化,不追求通用 数据库:Redis 专门为特定场景设计,不是关系型通吃 现在:AI 推理引擎 → 为特定模型定制
五、行业影响
1. 本地推理正在变现实
284B 参数的 MoE 模型,以前想都别想本地跑。
现在:
高端 Mac + 专用引擎 = 可用 隐私敏感场景(金融/医疗/法律)可以完全离线 延迟、成本、隐私三个问题同时解决
2. "一模型一引擎"会是趋势吗?
| 场景 | 专用引擎 | 通用框架 |
|---|---|---|
| 企业生产环境(固定模型) | ✅ 强烈推荐 | ⚠️ 性能浪费 |
| 研究/实验(多模型切换) | ❌ 不划算 | ✅ 合适 |
| 隐私敏感场景 | ✅ 本地离线 | ✅ 本地离线 |
| 成本敏感场景 | ⚠️ 开发成本高 | ✅ 开箱即用 |
结论: 专用引擎不会取代通用框架,但会在高端生产场景占据一席之地。
3. 人类 + AI 协作开发
这个项目还有一个细节:
由 GPT-5.5 辅助开发,人类负责创意、测试与调试。
这本身就是一个信号:AI 写基础设施代码已经可行了。
六、我的判断
短期(1-2 年)
专用引擎会在头部模型中出现(DeepSeek、Qwen、Llama 等) 通用框架仍是主流(研究/实验场景需求大) 高端 Mac 成为本地推理首选设备
中期(3-5 年)
模型架构趋于稳定 → 专用引擎开发成本下降 企业私有化部署需求增加 → 专用引擎市场扩大 可能出现"引擎即服务"商业模式
长期
通用和专用会共存,但边界会清晰:
研究/实验/多模型切换 → 通用框架 生产/固定模型/性能敏感 → 专用引擎
写在最后
antirez 用 ds4.c 证明了一件事:
当模型足够重要时,为它重写一个引擎是值得的。
这背后是对"通用性"的反思——有时候,放弃兼容,才能做到极致。
就像他当年写 Redis 一样:
"不是另一个数据库,而是最好的键值存储。"
现在:
"不是另一个推理框架,而是最快的 DeepSeek 引擎。"
你怎么看"一模型一引擎"的趋势?欢迎在评论区聊聊。
如果觉得有启发,点个"在看"呗 👇
夜雨聆风