Docker容器完全指南:从安装到生产实战

做运维这些年，我见过太多团队在部署环境上栽跟头。有一次，一个新来的小伙子花了一整天在服务器上配Python环境，装了又卸、卸了又装，最后项目还是跑不起来。旁边一个运维老鸟走过去，甩了一句：「你怎么不用Docker？」五分钟后，容器跑起来了。

这就是Docker的魔力。它把「在我机器上能跑」这句话，变成了「在任何地方都能跑」。

今天这期，咱们从Docker的安装说起，一路聊到生产环境的配置调优和故障排查。不管你是刚接触容器的新手，还是已经在用但想深入理解的老手，这篇文章都应该能帮到你。

一、Docker到底是个啥

简单说，Docker就是一个容器化平台。它把应用和它需要的一切——代码、运行时、系统工具、库文件——全部打包到一个叫镜像（Image）的东西里。镜像跑起来之后，就是一个容器（Container）。

你可以把镜像理解成一个「只读模板」，容器就是根据这个模板创建出来的「运行实例」。就像面向对象编程里的类和对象一样——镜像是类，容器是对象实例。

容器和虚拟机不一样的地方在于：虚拟机要模拟一整套硬件，启动一个系统得几分钟，占几个G的内存。容器直接跑在宿主机的内核上，启动只要几秒，内存占用以MB计。这也是为什么大家说Docker轻量。

二、Docker安装（CentOS/Ubuntu/Debian）

安装Docker其实不难，但很多人在这一步就踩坑——装了个旧版本，结果缺少一些新特性。咱们用官方仓库装，保证拿到最新版。

CentOS/RHEL/Rocky Linux

# 1. 安装依赖

sudo yum install -y yum-utils

# 2. 添加Docker官方仓库

sudo yum-config-manager --add-repo \

https://download.docker.com/linux/centos/docker-ce.repo

# 3. 安装Docker Engine

sudo yum install -y docker-ce docker-ce-cli containerd.io

# 4. 启动并设置开机自启

sudo systemctl enable --now docker

# 5. 验证安装

docker --version

docker run --rm hello-world

这里有个细节：docker-ce是社区版，containerd.io是底层容器运行时。两个都要装。

Ubuntu/Debian

# 1. 安装依赖

sudo apt-get update

sudo apt-get install -y ca-certificates curl gnupg

# 2. 添加Docker官方GPG密钥

sudo install -m 0755 -d /etc/apt/keyrings

curl -fsSL https://download.docker.com/linux/ubuntu/gpg \

| sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg

sudo chmod a+r /etc/apt/keyrings/docker.gpg

# 3. 设置仓库

echo \

"deb [arch=$(dpkg --print-architecture) \

signed-by=/etc/apt/keyrings/docker.gpg] \

https://download.docker.com/linux/ubuntu \

$(. /etc/os-release && echo $VERSION_CODENAME) stable" \

| sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

# 4. 安装

sudo apt-get update

sudo apt-get install -y docker-ce docker-ce-cli containerd.io

sudo systemctl enable --now docker

安装完成后，建议把当前用户加到docker用户组，这样就不用每次都sudo了：

sudo usermod -aG docker $USER

# 重新登录生效，然后：

docker run --rm hello-world

看到「Hello from Docker!」就说明安装没问题了。我们来看下运行效果：

从输出可以看到，Docker版本27.5.1，存储驱动用的是overlay2，这是目前最推荐的驱动。内核版本、操作系统架构这些信息都在这儿，后面排查问题的时候会用到。

三、Docker vs 其他容器运行时

很多人以为Docker就是容器的代名词，其实不是。Docker只是一个容器平台，底层真正干活的是containerd这个运行时。而且市面上还有其他几个主流的容器工具，各有各的特点。

1. Docker

Docker的核心优势在于生态完整。它有Docker Hub（最大的镜像仓库）、Docker Compose（编排工具）、Dockerfile（镜像构建标准），加上最成熟的CLI体验。对于日常开发、测试、甚至中小型生产环境，Docker依然是首选。

不过Docker有个历史包袱：它默认用一个叫dockerd的守护进程来管理所有容器。这意味着所有容器都跑在同一个进程下——一个容器出问题，理论上可能影响其他容器。另外，dockerd默认以root权限运行，在安全敏感的场景下，这是个隐患。

2. Podman

Podman是Red Hat搞的，和Docker最大的区别是——不需要守护进程。每个容器是一个独立的进程，互不干扰。而且Podman支持rootless模式，普通用户就能跑容器，不用sudo。安全方面比Docker强一截。

命令层面，Podman基本兼容Docker CLI，很多场景下你把docker换成podman就能直接用。但在Docker Compose的兼容性上，Podman还在追赶。

3. containerd

containerd是Docker公司开源出来的底层容器运行时。它不负责构建镜像、不负责编排，只管一件事：跑容器。Kubernetes默认就用containerd作为CRI（容器运行时接口）的实现。

如果你的团队主要用K8s，那containerd是最佳选择——轻量、稳定、CNCF毕业项目。但它没有Docker那么好用的CLI，日常开发不太方便。

4. LXC/LXD

LXC和应用级容器（Docker/Podman/containerd）走的是不同的路线。LXC是系统级容器——它模拟的是一个完整的操作系统环境，有自己的init进程、systemd服务。你可以把它当成一个轻量级的虚拟机来用。

适合场景：你想在一台机器上跑多个完整的Linux系统，但不想承受虚拟机的性能开销。不适合场景：微服务部署、CI/CD流水线——这些是应用级容器的天下。

选哪个？

场景推荐

─────────────────────────────────────────

日常开发/测试 Docker（生态最成熟）

安全敏感/无守护进程 Podman（rootless）

Kubernetes集群 containerd（K8s原生）

多系统隔离运行 LXC/LXD（系统级容器）

CI/CD流水线 Docker/Podman（速度快）

一句话总结：Docker依然是最通用的选择，但在特定场景下，其他工具可能更合适。了解它们的差异，才能做出正确的技术选型。

四、Docker日常操作

安装好之后，最常用的就是这几个命令了。我总结了一套日常操作的最小集合，够你80%的场景。

# 拉取镜像

docker pull nginx:latest

# 运行容器

docker run -d --name myweb -p 8080:80 nginx

# 查看运行中的容器

docker ps

# 查看所有容器（包括已停止的）

docker ps -a

# 查看容器日志

docker logs myweb --tail 50 -f

# 进入容器内部

docker exec -it myweb /bin/bash

# 停止/启动/重启容器

docker stop myweb

docker start myweb

docker restart myweb

# 删除容器

docker rm myweb

# 查看本地镜像

docker images

# 删除镜像

docker rmi nginx:latest

# 查看容器资源占用

docker stats --no-stream

# 一键清理（慎用！）

docker system prune -a

实际操作大概是这样：

docker stats这个命令特别实用。它能告诉你每个容器的CPU、内存、网络、磁盘IO使用情况。有一次一个Java应用内存泄漏，就是靠这个命令第一时间发现的——内存占用从500MB一路飙到3GB，容器眼看就要OOM了。

五、Dockerfile深度解析

Dockerfile是构建镜像的「配方文件」。它定义了一个镜像的每一层该怎么构建。理解Dockerfile，是理解Docker的核心。

5.1 一个实战Dockerfile

下面是一个生产可用的Python应用Dockerfile，我逐行解释为什么这么写：

# 基于官方Python精简镜像

FROM python:3.12-slim

# 设置工作目录

WORKDIR /app

# 先复制依赖文件，利用缓存层

COPY requirements.txt .

RUN pip install --no-cache-dir -r requirements.txt

# 再复制项目代码

COPY . .

# 创建非root用户运行

RUN useradd -m appuser && chown -R appuser:appuser /app

USER appuser

# 声明暴露端口

EXPOSE 8000

# 启动命令（exec格式）

CMD ["gunicorn", "--bind", "0.0.0.0:8000", "app:app"]

5.2 逐行拆解

FROM python:3.12-slim — 选基础镜像是第一步。slim版本去掉了不必要的系统工具，镜像体积比完整版小60%以上。更小 = 更快的拉取速度、更少的安全风险。如果是Go或Rust编译出来的静态二进制，可以直接用alpine，体积只有几MB。

WORKDIR /app — 设置工作目录。后续所有RUN、COPY、CMD命令都在这个目录下执行。不要用根目录，也不要用/tmp。

COPY requirements.txt 然后 RUN pip install — 这一步有个关键技巧：先复制依赖文件安装，再复制代码。为什么？因为Docker构建是分层的，每一层都有缓存。如果先COPY . .再install，那么代码改了就要重新安装所有依赖（缓存失效）。把requirements.txt单独COPY出来install，只要依赖没变，install这一层就直接用缓存，构建速度从几分钟缩短到几秒。

--no-cache-dir — pip默认会把下载的wheel包缓存下来，在容器里这完全没必要，加上这个参数能减少镜像体积。

RUN useradd ... USER appuser — 生产环境绝对不要用root跑容器。一旦容器被攻破，攻击者就直接拿到root权限。创建一个专门的非特权用户，是基本安全底线。

CMD用exec格式 — CMD有两种写法：CMD ["gunicorn", "..."]（exec格式）和CMD gunicorn ...（shell格式）。exec格式直接把应用作为PID 1运行，信号处理正常。shell格式会多一个/bin/sh中间层，导致Ctrl+C停不下来、优雅关闭失效。所以永远用exec格式。

5.3 多阶段构建

Dockerfile最强大的特性之一：多阶段构建。简单说就是：第一阶段用来编译，第二阶段只拿编译产物，把编译工具全扔掉。

# 第一阶段：编译

FROM golang:1.22 AS builder

WORKDIR /src

COPY . .

RUN CGO_ENABLED=0 GOOS=linux go build -o /myapp

# 第二阶段：运行

FROM alpine:3.19

RUN apk --no-cache add ca-certificates

COPY --from=builder /myapp /myapp

EXPOSE 8080

CMD ["/myapp"]

第一阶段的golang镜像有800MB+，加上编译工具和源代码，最终产物如果不用多阶段构建，镜像可能超过1GB。用多阶段之后，最终镜像只有10-20MB——一个alpine基础镜像加一个二进制文件。这个差距在生产环境中意义巨大：镜像仓库存储成本、网络传输时间、部署速度，全部大幅优化。

六、Docker文件系统——overlay2到底怎么回事

很多用Docker的人从来不看文件系统这一层。出了问题就一句「磁盘满了」完事。但如果理解了overlay2的原理，很多问题的排查思路会完全不同。

6.1 镜像是怎么存盘的

Docker的镜像是分层存储的。每一层都是一个只读的文件系统快照。比如说你拉了一个Ubuntu镜像，它可能由5个层组成：

• 第一层：基础的Linux文件系统
• 第二层：apt-get安装的基础包
• 第三层：你安装的应用
• 第四层：配置文件
• 第五层：启动脚本

当你用docker pull的时候，这些层被下载到/var/lib/docker/overlay2/目录下。每一个层是一个独立的目录。

6.2 overlay2的工作原理

overlay2利用了Linux内核的overlayfs技术。它把多个目录叠加成一个统一的视图。打个比方：你在透明的塑料片上分别画不同的东西，然后把这些塑料片叠在一起看，就合成了一幅完整的画。

具体到overlay2，它用三个目录来实现：

lowerdir（只读层）：就是镜像的各层。多个lowerdir从底向上叠加，上面层里的文件会覆盖下面层的同名文件。

upperdir（读写层）：容器启动时创建的。你在容器里新建、修改、删除文件，实际操作都在这一层。修改一个文件时，overlay2会把整个文件从lowerdir复制到upperdir，然后在upperdir里做修改——这叫「写时复制」（Copy-on-Write）。

merged（统一视图）：容器实际看到的文件系统。它是lowerdir和upperdir合并后的结果。

6.3 删除文件时发生了什么

这个比较反直觉。当你在容器里删一个来自镜像层的文件时，这个文件并没有真正被删除。overlay2会在upperdir里创建一个特殊的「白标记」文件（whiteout file），告诉系统「这个文件被隐藏了」。所以文件数据依然在磁盘上，只是被标记为不可见了。

这就是为什么在Dockerfile里用RUN apt-get clean或者rm -rf来减小镜像体积有时候不生效——删除操作本身也会增加一个层。正确的做法是在同一个RUN指令里安装和清理：

# 正确做法：安装和清理在同一个RUN里

RUN apt-get update && \

apt-get install -y package1 package2 && \

rm -rf /var/lib/apt/lists/*

# 错误做法：分成了多个层

RUN apt-get update

RUN apt-get install -y package1 package2

RUN rm -rf /var/lib/apt/lists/*

6.4 数据持久化——卷（Volume）

容器一删，里面的数据就没了（upperdir被清掉了）。如果数据需要持久化，就得用卷（Volume）或者绑定挂载（Bind Mount）。

# 方式1: Docker管理的卷（推荐）

docker volume create mydata

docker run -d -v mydata:/data myapp

# 方式2: 绑定挂载宿主机目录

docker run -d -v /host/path:/container/path myapp

# 查看卷

docker volume ls

docker volume inspect mydata

生产环境推荐用Docker管理的卷，而不是绑定挂载。卷由Docker统一管理，有备份、迁移等工具支持。绑定挂载更适合开发阶段——直接改宿主机上的代码文件，容器里实时生效。

七、Docker Compose——多容器编排

当一个项目需要多个服务协同工作的时候——比如Web应用需要Nginx做反向代理、Gunicorn跑应用代码、Redis做缓存、PostgreSQL做数据库——一个一个跑docker run命令就很痛苦了。Docker Compose就是来解决这个问题的。

一个docker-compose.yml文件，定义所有服务和它们的关系，一条命令全部启动。

7.1 安装Compose

新版Docker已经把Compose集成进来了，用的是docker compose（没有横杠）这个子命令。如果没有，手动安装：

# 安装Docker Compose插件

sudo apt-get install -y docker-compose-plugin

# 或者手动下载二进制

DOCKER_CONFIG=${DOCKER_CONFIG:-$HOME/.docker/cli-plugins}

mkdir -p $DOCKER_CONFIG/cli-plugins

curl -SL https://github.com/docker/compose/releases/latest/download/docker-compose-linux-x86_64 \

-o $DOCKER_CONFIG/cli-plugins/docker-compose

chmod +x $DOCKER_CONFIG/cli-plugins/docker-compose

# 验证

docker compose version

7.2 一个完整的compose文件

services:

web:

build: .

ports:

- "8080:8000"

environment:

- DB_HOST=db

- REDIS_URL=redis://cache:6379

depends_on:

- db

- cache

restart: unless-stopped

db:

image: postgres:16-alpine

environment:

- POSTGRES_DB=myapp

- POSTGRES_USER=appuser

- POSTGRES_PASSWORD=secret

volumes:

- pgdata:/var/lib/postgresql/data

restart: unless-stopped

cache:

image: redis:7-alpine

volumes:

- redisdata:/data

restart: unless-stopped

volumes:

pgdata:

redisdata:

7.3 常用命令

# 启动所有服务（后台运行）

docker compose up -d

# 查看服务状态

docker compose ps

# 查看日志

docker compose logs -f web

# 重新构建并启动

docker compose up -d --build

# 停止所有服务（保留数据卷）

docker compose stop

# 停止并删除所有服务+网络（保留数据卷）

docker compose down

# 停止并删除一切（包括数据卷，慎用！）

docker compose down -v

几个关键配置说明：

• depends_on：定义启动顺序。web服务会等db和cache启动后才启动。但要注意：它只等容器running，不等服务就绪（比如PostgreSQL还在初始化）。如果需要等数据库就绪，得用健康检查（healthcheck）配合。

• restart: unless-stopped：容器意外退出时自动重启，除非你手动stop它。生产环境必备。

• services之间用服务名互相访问：Compose会自动创建一个网络，所有服务在同一个网络内，直接用服务名当主机名访问。所以web里配DB_HOST=db就能直接连到PostgreSQL，不需要IP。

八、生产环境Docker配置

生产环境跑Docker，默认配置是远远不够的。这里是我一直在用的一套daemon.json配置，可以直接抄作业。

8.1 daemon.json配置

文件位置：/etc/docker/daemon.json

{

"log-driver": "json-file",

"log-opts": {

"max-size": "100m",

"max-file": "3"

"storage-driver": "overlay2",

"storage-opts": [

"overlay2.override_kernel_check=true"

"live-restore": true,

"no-new-privileges": true,

"userland-proxy": false,

"default-ulimits": {

"nofile": {

"Name": "nofile",

"Hard": 65536,

"Soft": 65536

}

8.2 逐项说明

日志轮转（log-driver + log-opts）：这是我最想强调的一条。Docker默认的日志策略是json-file，但不限制大小。结果就是——一个容器跑几个月，日志文件可能攒到几十个G，直接把宿主机磁盘撑爆。设置max-size=100m，max-file=3，意思是：单个日志文件不超过100MB，最多保留3个历史文件。这样日志占用永远不超过300MB。

live-restore: true：这个太重要了。Docker守护进程重启的时候，默认会把所有容器停掉。开启live-restore之后，dockerd重启期间容器继续运行。做维护升级的时候不用停业务。

no-new-privileges: true：禁止容器内的进程获取额外的权限。这是一个安全加固选项。

userland-proxy: false：默认情况下，Docker用用户态的docker-proxy进程来处理端口转发。关掉之后用iptables DNAT，性能更好，也减少进程数量。

8.3 镜像加速

国内拉Docker Hub镜像慢得令人发指。在daemon.json里加镜像加速器：

{

"registry-mirrors": [

"https://docker.1ms.run"

]

}

注意：镜像加速器经常变动。建议关注社区维护的最新可用列表。2026年初开始，很多传统加速器（阿里云、中科大等）陆续下线了，需要找新的替代方案。

8.4 资源限制

生产环境跑容器，一定要给资源限制。不然一个容器就能把整台机器的内存吃光：

# 限制内存1G，CPU最多用2个核心

docker run -d --name myapp \

--memory=1g \

--memory-swap=1g \

--cpus=2 \

--restart=unless-stopped \

myapp:latest

--memory-swap设为和--memory相同的值，就是完全禁用swap。容器内存不够就直接OOM，别让它把swap也吃了。这样问题暴露得更快，比拖到整台机器都卡死好处理得多。

九、故障排查实战

Docker出了问题怎么查？下面这几个场景，是我在实际运维中遇到过最频繁的。

9.1 容器启动后立即退出

最常见的现象：docker run之后容器马上退出，docker ps看不到，docker ps -a能看到状态是Exited。

排查步骤：

• 第一步：docker logs <容器名>。90%的问题日志里有答案。

• 第二步：检查退出码。docker inspect <容器名> --format '{{.State.ExitCode}}'。退出码0是正常退出，137是被OOM Killer杀了（内存不够），1通常是应用内部错误。

• 第三步：常见原因——配置文件路径不对、环境变量缺失、端口被占用、数据库连不上、应用代码有bug。

• 应急调试：用docker run -it --entrypoint /bin/sh myapp进容器手动排查。

9.2 容器之间网络不通

用docker run分别创建的两个容器，默认在各自的bridge网络里，互相访问不了。解决方案：创建一个自定义网络，把两个容器都加进来：

# 创建自定义网络

docker network create mynet

# 启动容器时指定网络

docker run -d --name web --network mynet nginx

docker run -d --name app --network mynet myapp

# 容器内直接用名字访问

docker exec app ping web

9.3 磁盘空间不足

这是Docker运维最经典的问题之一。容器跑久了，磁盘被撑满是必然的——镜像层、停止的容器、未使用的卷、日志文件，都在一点一点蚕食磁盘空间。

排查工具：

# 查看Docker磁盘占用概况

docker system df

# 清理所有未使用的镜像、容器、网络

docker system prune

# 加上 -a 会删除所有未被容器使用的镜像

# 更激进：docker system prune -a --volumes

# 找出最占空间的镜像

docker images --format "{{.Size}}\t{{.Repository}}:{{.Tag}}" \

| sort -rh | head -10

# 查看overlay2目录占用

du -sh /var/lib/docker/overlay2/

日常维护建议：在crontab里加一个每周清理任务，自动清理不用的镜像和停止的容器。加上之前daemon.json里的日志轮转配置，磁盘空间问题基本不会找上门。

9.4 端口冲突

新起的容器报「port is already allocated」，说明端口被占用了。可能是另一个容器在用，也可能是宿主机上某个服务在用。

# 查看哪个进程占用了端口

sudo lsof -i :8080

sudo ss -tlnp | grep 8080

# 查看Docker占用了哪些端口

docker ps --format "table {{.Names}}\t{{.Ports}}"

# 如果dockerd卡住了，端口没释放

docker network prune

systemctl restart docker

有时候dockerd自己出了问题，端口不会自动释放。这时候重启dockerd（记得开live-restore，这样容器不会停）能解决大部分「幽灵端口」问题。

9.5 综合排查流程

下面是一张我整理的常见故障排查速查表：

# 排查容器问题标准流程

# 1. 先看状态

docker ps -a --filter "status=exited"

# 2. 看日志

docker logs <容器名> --tail 50

# 3. 检查环境变量

docker inspect <容器名> | grep -A5 Env

# 4. 检查磁盘

df -h /var/lib/docker

docker system df

# 5. 检查网络

docker network ls

docker exec <容器> ping <目标容器>

# 6. 检查资源限制

docker stats --no-stream

dmesg | grep -i oom

dmesg | grep -i oom这个命令值得单独说。如果容器莫名其妙被杀了，退出码是137，很大概率是被Linux内核的OOM Killer干掉了。用dmesg能看到内核杀哪个进程、当时内存用了多少。这对定位内存泄漏极其有用。

总结一下

这期内容不少，咱们回顾几个核心要点：

• 安装：用官方仓库装，别用系统自带的旧版本

• 选型：Docker生态最全，Podman更安全，containerd适合K8s，LXC适合系统级隔离

• Dockerfile：分层缓存是核心技巧，多阶段构建能大幅减小镜像，永远用exec格式写CMD，永远不用root跑容器

• 文件系统：overlay2分层存储+写时复制，理解了这个就能理解镜像为什么小、删除为什么不释放空间

• Compose：多服务编排必备，用自定义网络实现服务间通信

• 生产配置：daemon.json里日志轮转和live-restore是必选项，资源限制不可少

• 故障排查：日志是第一步，磁盘空间是最高频问题，OOM Killer是隐形杀手

Docker这东西，上手不难，但想用好、用得稳，细节很多。希望这篇能帮你少走一些弯路。

下期预告：咱们来聊聊Docker在企业中的实际部署——镜像仓库搭建（Harbor）、CI/CD集成、容器监控告警方案。如果你正在用Docker管生产环境，那期会很实用。

#Docker #容器 #Linux #运维 #Dockerfile #DockerCompose #故障排查 #生产环境