Memcached 生产实战指南:从安装配置到故障排查全流程

做运维这些年，缓存这玩意儿我算是玩出花来了。Memcached 这东西，装起来确实快，yum/apt 一条命令的事儿，启动之后就能用。但很多兄弟装完之后，默认配置直接跑，内存给个 64MB、连接数 1024、还绑在 0.0.0.0 上 —— 这不等于给全网留了个后门吗？

今天这篇文章，我把 Memcached 从安装配置、Python 客户端接入、生产环境调优到故障排查的完整流程给你讲透。所有配置和命令都来自 memcached 1.6 官方文档和多年实战经验，直接复制就能上生产。咱们不讲虚的，只讲能用的。

一、安装与启动：先把服务跑起来

Memcached 在主流 Linux 发行版上都有现成的包，不需要自己编译。不管你是 RHEL/CentOS/AlmaLinux 还是 Ubuntu/Debian，包管理器一条命令搞定。

1.1 安装

# RHEL/CentOS/AlmaLinux 9

yum install -y memcached

# Or on Debian/Ubuntu:

apt-get install -y memcached libmemcached-tools

安装完成后，Memcached 会自动创建一个 memcached 系统用户，以非 root 身份运行，这是安全最佳实践。

1.2 配置

配置文件的位置因发行版而异。RHEL 系在 /etc/sysconfig/memcached，Debian 系在 /etc/memcached.conf。

RHEL/CentOS 系：

# /etc/sysconfig/memcached (RHEL系)

PORT="11211"

USER="memcached"

MAXCONN="4096"

CACHESIZE="2048"

OPTIONS="-l 0.0.0.0"

Debian/Ubuntu 系：

# /etc/memcached.conf (Debian系)

-d

-m 2048

-p 11211

-u memcache

-l 0.0.0.0

-c 4096

-t 8

几个关键参数的含义：

PORT/-p：监听端口，默认 11211

CACHESIZE/-m：分配给缓存的内存（MB），默认 64MB，生产环境至少给 1024MB 以上

MAXCONN/-c：最大并发连接数，默认 1024，生产环境建议 4096 或更高

OPTIONS/-l：监听地址，默认 0.0.0.0（所有网卡），生产环境建议绑内网 IP

-t：工作线程数，默认 4，建议设为 CPU 核心数

-U：UDP 端口，设为 0 表示禁用 UDP（生产环境建议禁用）

1.3 启动与验证

# Start and enable memcached service

systemctl enable --now memcached

# Verify service is running

systemctl status memcached

# Quick connectivity test

echo "stats" | nc -q 1 localhost 11211 | head -5

Memcached 安装与启动验证

二、详细使用指南：从命令行到代码

Memcached 的协议极其简单，就是一组基于 ASCII 的命令：set、get、delete、incr、decr。但它没有列表功能、不支持持久化、不能做复杂查询。简单归简单，速度快是真的快，单机轻松扛几十万 QPS。

2.1 命令行工具

先装客户端工具包，里面自带了好几个实用的 CLI 工具：

# Install python3-memcached (pure Python client)

pip install python-memcached

# OR install pymemcache (recommended, better performance)

pip install pymemcache

# OR install libmemcached (C client + CLI tools)

yum install -y libmemcached

libmemcached 自带的几个工具，日常运维特别好用：

# Install libmemcached tools (RHEL系)

yum install -y libmemcached

# memcp - store data

echo "hello memcached" | memcp --servers=127.0.0.1:11211 mykey

# memcat - retrieve data

memcat --servers=127.0.0.1:11211 mykey

# memstat - server stats

memstat --servers=127.0.0.1:11211

# memdump - dump all keys

memdump --servers=127.0.0.1:11211

2.2 Python 客户端接入

实际项目里肯定不会用命令行操作缓存，都是通过代码接入。Python 这边有两个主流库：

python-memcached：纯 Python 实现，API 简单，社区广

pymemcache（推荐）：Twitter 出品，性能更好，支持连接池，API 更接近原生协议

推荐用 pymemcache，性能更好。下面是基本用法：

from pymemcache.client.base import Client

client = Client(('192.168.1.10', 11211))

# Store a value (key, value, expire_time)

client.set('user:1001', '{"name":"张三","age":30}', expire=300)

# Retrieve

result = client.get('user:1001')

print(result)

# Delete

client.delete('user:1001')

# Batch set (mget/mset)

client.set_many({

'user:1002': '{"name":"李四","age":25}',

'user:1003': '{"name":"王五","age":28}'

}, expire=300)

# Batch get

results = client.get_many(['user:1002', 'user:1003'])

2.3 集群模式（客户端分片）

Memcached 本身不支持集群，所谓的"集群"是客户端做的 key 分布。多个 Memcached 节点之间互不通信，客户端根据 key 的 hash 值决定存到哪个节点上。

from pymemcache.client.hash import HashClient

client = HashClient([

'192.168.1.10:11211',

'192.168.1.11:11211',

'192.168.1.12:11211',

])

# Keys are automatically distributed across nodes

client.set('session:abc', 'data') # goes to one node

client.get('session:abc') # reads from same node

这种架构的优点是简单、扩展方便，加节点就行。缺点也很明显：某个节点挂了，它上面的数据就丢了，不会自动迁移。所以 Memcached 适合存"丢了也不心疼"的数据，比如 Session、页面缓存、验证码等。重要数据别往里面放。

三、生产环境优化：让缓存跑得更快更稳

默认配置跑测试可以，上生产就得调。这部分是真正考验运维功力的地方。

3.1 内存规划

CACHESIZE 是最核心的参数。给少了缓存频繁淘汰，命中率上不去；给多了系统内存紧张，触发 swap，性能直接雪崩。

经验公式：CACHESIZE = 总 RAM × 60% ~ 70%

比如 16GB 的机器，给 10240MB ~ 11264MB（约 10~11GB），剩下的留给系统和应用

千万不要让 Memcached 的内存占用超过物理 RAM，一旦开始 swap，延迟直接从亚毫秒跳到几十毫秒

3.2 连接数调优

MAXCONN 决定了能同时接受多少个客户端连接。生产环境默认 1024 绝对不够。但也不是越大越好，每个连接会占用少量内存。

经验值：MAXCONN = 应用服务器数 × 每台服务器连接池大小 × 1.5（冗余系数）

比如有 10 台应用服务器，每台连接池 200，那就是 10 × 200 × 1.5 = 3000，取 4096 或 8192

3.3 线程数配置

-t 参数控制工作线程数。Memcached 是多线程架构，每个线程处理一部分客户端请求。默认 4 个线程，在现代多核机器上完全浪费了。

建议设为 CPU 核心数，8 核机器就 -t 8，16 核就 -t 16

注意：线程数不是越多越好。过多的线程反而会加剧锁竞争，降低性能

3.4 LRU 优化（1.6.x 新特性）

Memcached 1.6.x 引入了一些重要的 LRU（Least Recently Used）优化选项，生产环境强烈建议开启：

lru_maintainer：独立的 LRU 维护线程，不再阻塞请求线程做淘汰

lru_crawler：后台定时扫描过期键并释放内存

slab_automove：自动在 slab class 之间迁移空闲页，解决"某个尺寸的数据特别多导致其他 slab 浪费"的问题

开启方式：

# /etc/sysconfig/memcached — Production config

PORT="11211"

USER="memcached"

MAXCONN="8192"

CACHESIZE="4096"

OPTIONS="-l 192.168.1.10 -U 0 -t 8"

或者通过 systemd override 的方式：

# /etc/systemd/system/memcached.service.d/override.conf

[Service]

ExecStart=

ExecStart=/usr/bin/memcached \

-u ${USER} \

-p ${PORT} \

-m ${CACHESIZE} \

-c ${MAXCONN} \

-o lru_maintainer,lru_crawler,slab_automove \

${OPTIONS}

# Reload systemd and restart

systemctl daemon-reload

systemctl restart memcached

3.5 系统级优化

3.5.1 文件描述符限制

每个 TCP 连接都要消耗一个文件描述符。如果 MAXCONN 设得很大但系统 ulimit 不够大，Memcached 会无法接受新连接。

# /etc/security/limits.d/99-memcached.conf

memcached soft nofile 1048576

memcached hard nofile 1048576

memcached soft nproc 65535

memcached hard nproc 65535

3.5.2 TCP 参数调优

高并发场景下，TCP 参数也要跟着调：

# /etc/sysctl.d/99-memcached.conf

# Increase max open files

fs.file-max = 1048576

# Optimize TCP buffer sizes

net.core.rmem_max = 16777216

net.core.wmem_max = 16777216

net.core.rmem_default = 4194304

net.core.wmem_default = 4194304

# Apply changes

sysctl -p /etc/sysctl.d/99-memcached.conf

3.5.3 关闭 THP（透明大页）

透明大页（Transparent Huge Pages）会导致 Memcached 出现延迟毛刺。生产环境建议关闭：

# Disable THP on RHEL/CentOS

echo never > /sys/kernel/mm/transparent_hugepage/enabled

echo never > /sys/kernel/mm/transparent_hugepage/defrag

# Add to /etc/rc.d/rc.local for persistence

if test -f /sys/kernel/mm/transparent_hugepage/enabled; then

echo never > /sys/kernel/mm/transparent_hugepage/enabled

3.5.4 生产级完整配置清单

# Production /etc/sysconfig/memcached

PORT="11211"

USER="memcached"

MAXCONN="8192"

CACHESIZE="4096"

OPTIONS="-l 192.168.1.10 -U 0 -t 8 \

-o lru_maintainer,lru_crawler,slab_automove \

-o slab_reassign,slab_automove_freereserve"

四、安全加固：别让缓存变漏勺

Memcached 没有任何内置认证机制。任何能连上 11211 端口的客户端都可以 get、set、甚至 flush_all 清空所有数据。这就是为什么 2018 年那场 memcached DDoS 攻击能搞出 1.35 Tbps 的流量 —— 全网裸奔的 memcached 服务器被人拿来做了反射放大器。

4.1 网络隔离（最重要）

Memcached 的安全，核心就一句话：不要让公网能访问 11211 端口。做好网络隔离比什么都重要。

# Listen on localhost and private IP only

OPTIONS="-l 127.0.0.1,192.168.1.10"

# Or use firewall rules

firewall-cmd --permanent --add-rich-rule='

rule family="ipv4"

source address="192.168.1.0/24"

port protocol="tcp" port="11211" accept'

firewall-cmd --reload

4.2 防火墙白名单

# Install iptables (if not present)

yum install -y iptables-services

# Allow only app servers to access port 11211

iptables -A INPUT -p tcp -s 192.168.1.0/24 --dport 11211 -j ACCEPT

iptables -A INPUT -p tcp --dport 11211 -j DROP

# Save rules

iptables-save > /etc/sysconfig/iptables

systemctl enable iptables

4.3 禁用 UDP（防范反射攻击）

2018 年的 DDoS 攻击就是通过 UDP 反射放大的。生产环境直接禁用 UDP：

在 OPTIONS 中加上 -U 0，或者直接不设 -U 参数。确认一下：

ss -ulnp | grep 11211 —— 没有输出就说明 UDP 已经禁用了。

4.4 SASL 认证（可选）

如果你的 Memcached 必须暴露在不太可信的网络里（比如和第三方应用共用 VLAN），可以考虑启用 SASL 认证：

# Install SASL support

yum install -y cyrus-sasl-plain cyrus-sasl cyrus-sasl-devel

# Create SASL password file

saslpasswd2 -a memcached -c cache_user

Password: ********

# Make SASL config readable by memcached user

chown memcached:memcached /etc/sasldb2

chmod 400 /etc/sasldb2

# Add -S flag to OPTIONS in /etc/sysconfig/memcached

OPTIONS="-l 192.168.1.10 -S -t 8"

# Restart memcached

systemctl restart memcached

注意：启用 SASL 会带来约 5%~10% 的性能开销。如果网络已经做了严格隔离，就不需要开 SASL。

五、监控与状态分析：掌握缓存的健康状况

Memcached 提供了一个极其丰富的 stats 命令，通过 telnet 或 nc 就能看。这是排查所有问题的第一手资料。

5.1 基础 stats 解读

$ echo "stats" | nc localhost 11211

STAT pid 12345

STAT uptime 86400

STAT time 1704067200

STAT version 1.6.29

STAT curr_items 45678

STAT total_items 892156

STAT bytes 2147483648

STAT curr_connections 2048

STAT total_connections 5678901

STAT cmd_get 15432876

STAT cmd_set 8921567

STAT get_hits 13876543 # Cache hit count

STAT get_misses 1556333 # Cache miss count

STAT evictions 0 # 0 = no memory pressure

STAT bytes_read 987654321

STAT bytes_written 123456789

STAT limit_maxbytes 4294967296 # Total memory limit

END

其中最关键的几个指标：

get_hits / cmd_get：缓存命中率，生产环境建议在 85% 以上

evictions：因内存不足被淘汰的键数量。如果这个数字持续增长，说明内存不够用了

curr_connections：当前连接数，接近 MAXCONN 说明要扩容了

bytes / limit_maxbytes：已用内存 vs 总内存限制

Memcached 核心指标解读

5.2 计算命中率

# Calculate hit rate

echo "stats" | nc localhost 11211 | awk '/get_hits/{h=$2} /cmd_get/{g=$2} END{printf "Hit Rate: %.2f%%\n", (h/g)*100}'

# Hit Rate: 89.92%

命中率低于 80% 就得警惕了。常见原因：TTL 设得太短、缓存策略不合理、热点数据没做预热。

5.3 Slab 分配分析

$ echo "stats slabs" | nc localhost 11211

STAT 1:chunk_size 80

STAT 1:chunks_per_page 13107

STAT 1:total_pages 1

STAT 1:total_chunks 13107

STAT 1:used_chunks 8234

STAT 1:free_chunks 4873

...

STAT active_slabs 12

STAT total_malloced 4294967296

END

Memcached 的内存被分成多个 slab class，每个 class 管理固定大小的 chunk。如果你的数据大部分是 100 字节左右，但 slab class 1 的 chunk_size 是 80 字节，那这些数据就会被塞到 class 2（比如 100 字节），而 class 1 的内存就浪费了。

可以通过 -f 参数调整 slab growth factor（默认 1.25），让 class 之间的间隔更细密或更粗犷。

5.4 Items 统计

$ echo "stats items" | nc localhost 11211

STAT items:1:number 8234

STAT items:1:age 86400

STAT items:1:evicted 0

STAT items:1:evicted_nonzero 0

STAT items:1:evicted_time 0

STAT items:1:outofmemory 0

STAT items:1:tailrepairs 0

...

END

items 统计能告诉你每个 slab class 里有多少有效数据、淘汰了多少、有没有 OOM 事件。如果某个 class 的 evicted 数字很大，说明这个尺寸的缓存占满了内存，需要针对性优化。

六、故障排查：生产环境常见坑和解决方案

这部分是我在生产环境里踩过的坑，总结出来的排查清单。遇到 Memcached 问题，按这个顺序过一遍，基本都能定位。

6.1 Memcached 进程没了（服务宕机）

# Check if memcached is running

systemctl status memcached

# Quick test

echo "version" | nc localhost 11211

# Check logs

journalctl -u memcached --since "1 hour ago"

# Check if port is listening

ss -tlnp | grep 11211

排查思路：

查看 systemd 日志：journalctl -u memcached

如果是 OOM Killer 杀掉的：dmesg | grep -i "killed process"

如果是配置文件有语法错误，启动就会失败，日志里会明确报错行

修复后重启：systemctl restart memcached

6.2 缓存命中率暴跌

命中率从 90% 掉到 50%，这是最常见也最影响业务的故障。

第一步：检查 evictions。如果 evictions 持续增长，说明内存满了在疯狂淘汰旧数据，解决方案是加大 CACHESIZE 或加节点

第二步：检查是不是有应用重启。应用重启会导致缓存全部失效（冷启动），命中率会短暂下降然后慢慢回升

第三步：检查 key 的 TTL 是否合理。如果 TTL 太短（比如 10 秒），大部分请求都会 miss

第四步：检查是否有新的缓存穿透。比如某个不存在的 key 被大量请求，每次都 miss 到数据库

# Check if evictions > 0 (memory full)

echo "stats" | nc localhost 11211 | grep evictions

STAT evictions 1234567

# If evictions > 0, cache memory is insufficient

# Solutions:

# 1. Increase CACHESIZE in /etc/sysconfig/memcached

# 2. Add more memcached nodes

# 3. Set appropriate TTL for keys

# 4. Enable slab_automove for dynamic slab rebalancing

6.3 连接数打满（Connection Refused）

# Check current connections vs limit

echo "stats" | nc localhost 11211 | grep connections

STAT curr_connections 4096

STAT total_connections 5678901

# If curr_connections approaches MAXCONN:

# 1. Increase MAXCONN in config

# 2. Enable connection pooling on client side

# 3. Use persistent connections instead of short-lived

# 4. Check for connection leaks in application code

临时方案：加大 MAXCONN，systemctl restart memcached

根本方案：检查应用侧是否没有用连接池，每次请求都新建连接。换成 pymemcache 的 PooledClient

# Enable persistent connections

client = Client(('192.168.1.10', 11211),

connect_timeout=1,

timeout=1,

no_delay=True,

keepalive=True)

# Use connection pooling

from pymemcache.client.base import PooledClient

client = PooledClient(('192.168.1.10', 11211),

max_pool_size=100)

6.4 内存分配不均（某些 slab 爆满，某些空闲）

这是 Memcached 的经典问题。不同大小的数据被分到不同 slab class，如果某个 class 的 chunk 用完了，即使其他 class 有大量空闲内存，也无法利用。

# Check slab distribution

echo "stats slabs" | nc localhost 11211

# Check for out-of-memory events

echo "stats items" | nc localhost 11211 | grep outofmemory

# Check slab class utilization

# If free_chunks is very low in a specific class,

# that class is the bottleneck

# Tune slab growth factor (default 1.25)

# Smaller factor = more granular but more overhead

# OPTIONS="-f 1.1" (in /etc/sysconfig/memcached)

6.5 系统级问题

6.5.1 Swap 导致性能雪崩

Memcached 是纯内存数据库，一旦出现 swap，延迟直接从亚毫秒跳到几十毫秒。排查方法：

# Check system memory pressure

free -h

vmstat 1 5

# Check if system is swapping

vmstat 1 3 | awk 'NR>3{print $7}'

# If swap usage > 0, memcached performance will degrade

# Fix: increase CACHESIZE, add RAM, or reduce MAXCONN

解决方案：减少 CACHESIZE（留出更多系统内存）、增加物理 RAM、或者在系统层面限制 swap（vm.swappiness=0）。

6.5.2 TIME_WAIT 堆积

# Monitor with sar (sysstat package)

sar -n TCP 1 10

# Check for TIME_WAIT accumulation

ss -s | grep TIME-WAIT

# If TIME_WAIT count is high, tune:

sysctl -w net.ipv4.tcp_tw_reuse=1

sysctl -w net.ipv4.ip_local_port_range="1024 65535"

总结一下

Memcached 这东西，上手容易但用好不简单。几个核心要点：

内存规划：CACHESIZE 占总 RAM 的 60~70%，永远不要让 Memcached 吃光内存

连接数：MAXCONN 要根据应用服务器数量 × 连接池大小来算，默认 1024 肯定不够

网络隔离：bindIp 绑内网 IP、禁 UDP、防火墙白名单，这三件事做了就不怕被攻击

LRU 优化：1.6.x 的 lru_maintainer、lru_crawler、slab_automove 一定要开

监控命中率：低于 80% 就要查原因，evictions 持续增长就是内存不够

数据性质：Memcached 适合存"丢了不心疼"的数据，重要数据用 Redis 或者数据库

下期我们聊聊 Redis 和 Memcached 的选型对比，以及什么时候该用 Redis 替代 Memcached。有问题评论区见。