Redis 之父下场写 AI 引擎,说明了什么

Redis 之父下场写 AI 引擎，说明了什么

通用框架的尽头，是专用引擎。

Salvatore Sanfilippo 是谁？

你可能不记得他的名字，但你一定用过他的作品——Redis。

这位数据库界的传奇人物，最近干了一件很有意思的事：

为 DeepSeek V4 Flash 专门写了一个推理引擎，只服务这一个模型。

项目叫 ds4.c，代码库刚出，性能数据已经炸了。

一、这事有多极客？

先看看他放弃了什么

通用推理框架（比如 llama.cpp）的设计目标：

支持几百个模型架构
兼容各种量化格式
跨平台运行（CPU/GPU/Metal/CUDA）

antirez 的选择：

❌ 不支持其他模型
❌ 不兼容其他量化格式
❌ 只跑 Apple Silicon（Mac）

"非通用框架，不兼容其他模型，极致精简、无多余抽象。"

这是什么概念？

相当于：

有人专门为《黑神话：悟空》写了一个游戏引擎，不跑其他游戏
有人专门为 H.265 写了一个视频解码器，不解码其他格式
有人专门为某个数据库查询写了一个执行引擎，不处理其他 SQL

放弃通用性，换极致性能。

二、性能数据有多夸张？

测试环境

设备	配置
MacBook Pro M3 Max	128GB 统一内存
Mac Studio M3 Ultra	512GB 统一内存

实测结果

128GB MacBook Pro M3 Max：

预填充速度：58.52 token/s
生成速度：26.68 token/s

512GB Mac Studio M3 Ultra：

长 prompt 预填充：468.03 token/s
生成速度：27.39 token/s

这是什么水平？

468 token/s 的预填充 ≈ 不到 1 秒处理 500 字
27 token/s 的生成 ≈ 比正常人说话快

284B 参数的 MoE 模型，在本地 Mac 上跑出了云 API 的速度。

三、技术细节拆解

1. 非对称量化策略

MoE 架构的特点是：

专家层（Experts）：计算密集，但每次只激活部分
共享层（Shared）：每次推理都用

antirez 的做法：

层级	量化精度	理由
专家层	2-bit	计算量大，量化换速度
共享层/投影层/路由层	Q8 (8-bit)	保留精度，保证质量

不是无脑量化，而是根据层级重要性分配精度预算。

2. KV 缓存硬盘化

长上下文场景的痛点：

对话历史越长，预填充越慢
重复的前缀计算被浪费

ds4.c 的做法：

对话状态存盘
重复前缀直接复用
大幅减少长上下文预填充耗时

用空间换时间，用硬盘换计算。

3. API 兼容层

内置 OpenAI、Anthropic 协议兼容层。

这意味着什么？

主流 Agent 客户端（Continue、Cursor、LangChain 等）可以开箱对接，不需要改代码。

四、设计理念的冲击

通用框架的代价

llama.cpp、vLLM、TGI……这些框架的设计哲学是：

"一次开发，支持百模。"

代价是：

中间抽象层多
性能优化有上限
代码复杂度高

ds4.c 的哲学

"一模型一引擎。"

好处是：

去掉所有中间层
针对单一架构极致优化
代码精简，调试容易

这像什么？

浏览器 JS 引擎：V8 专门为 Chrome 优化，不追求通用
数据库：Redis 专门为特定场景设计，不是关系型通吃
现在：AI 推理引擎 → 为特定模型定制

五、行业影响

1. 本地推理正在变现实

284B 参数的 MoE 模型，以前想都别想本地跑。

现在：

高端 Mac + 专用引擎 = 可用
隐私敏感场景（金融/医疗/法律）可以完全离线
延迟、成本、隐私三个问题同时解决

2. "一模型一引擎"会是趋势吗？

场景	专用引擎	通用框架
企业生产环境（固定模型）	✅ 强烈推荐	⚠️ 性能浪费
研究/实验（多模型切换）	❌ 不划算	✅ 合适
隐私敏感场景	✅ 本地离线	✅ 本地离线
成本敏感场景	⚠️ 开发成本高	✅ 开箱即用

结论： 专用引擎不会取代通用框架，但会在高端生产场景占据一席之地。

3. 人类 + AI 协作开发

这个项目还有一个细节：

由 GPT-5.5 辅助开发，人类负责创意、测试与调试。

这本身就是一个信号：AI 写基础设施代码已经可行了。

六、我的判断

短期（1-2 年）

专用引擎会在头部模型中出现（DeepSeek、Qwen、Llama 等）
通用框架仍是主流（研究/实验场景需求大）
高端 Mac 成为本地推理首选设备

中期（3-5 年）

模型架构趋于稳定 → 专用引擎开发成本下降
企业私有化部署需求增加 → 专用引擎市场扩大
可能出现"引擎即服务"商业模式

长期

通用和专用会共存，但边界会清晰：

研究/实验/多模型切换 → 通用框架
生产/固定模型/性能敏感 → 专用引擎

写在最后

antirez 用 ds4.c 证明了一件事：

当模型足够重要时，为它重写一个引擎是值得的。

这背后是对"通用性"的反思——有时候，放弃兼容，才能做到极致。

就像他当年写 Redis 一样：

"不是另一个数据库，而是最好的键值存储。"

现在：

"不是另一个推理框架，而是最快的 DeepSeek 引擎。"

你怎么看"一模型一引擎"的趋势？欢迎在评论区聊聊。

如果觉得有启发，点个"在看"呗 👇