🐧 Linux 内核协议栈源码分析(二)
IP 层处理与路由决策深度剖析
📅 2026年5月20日 ⏱️ 阅读时间:18分钟 🏷️ IP协议 / 路由决策 / 分片重组
📌 本节导读
在上节中,我们详细分析了数据包如何从网卡驱动进入内核协议栈的入口函数 netif_receive_skb()。本节将深入 IP 层,剖析从 ip_rcv() 到路由决策,再到本地交付或转发的完整流程。
本节核心内容:
1. IP 头部结构与字段解析
2. ip_rcv() 函数完整源码分析
3. IP 层校验与分片处理机制
4. 路由查找与决策流程(FIB 表、LC-trie 算法)
5. 本地交付 vs 转发
6. IP 分片重组状态机
7. 实战:排查 IP 层丢包
💡 阅读建议:本节内容较深,建议结合内核源码(推荐 5.x/6.x 版本)一起阅读,效果更佳。文章中的代码路径基于 net/ipv4/ 目录。
🔍 第一节回顾与本节路径
1.1 数据包处理路径回顾
📦 网卡接收数据包(DMA → Ring Buffer)
↓
⚡ NAPI 轮询(igb_poll → igb_clean_rx_irq)
↓
🚪 netif_receive_skb() ← 上节终点
↓
🌐 ip_rcv() ← 本节起点
↓
🔍 IP 头部校验与预处理
↓
🗺️ 路由决策(ip_route_input)
↓
├─→ 📥 ip_local_deliver()(本地交付)→ 传输层
└─→ 📤 ip_forward()(转发)→ dev_queue_xmit()
本节将重点分析上图中加粗部分的源码实现。
🧱 IP 头部结构详解
2.1 IPv4 头部格式
在深入 ip_rcv() 之前,必须先理解 IPv4 头部的二进制布局:
📋 IPv4 头部格式(共 20 字节,不含选项)
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
|Version| IHL |Type of Service| Total Length |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| Identification |Flags| Fragment Offset |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| Time to Live | Protocol | Header Checksum |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| Source Address |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
| Destination Address |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
关键字段:
• Version: IP 版本,IPv4 = 4
• IHL: 头部长度,单位 4 字节,默认 5 (20字节)
• Total Length: 总长度(头部 + 数据),最大 65535
• Identification: 分片标识,同一数据报分片相同
• Flags: DF=禁止分片, MF=还有后续分片
• Fragment Offset: 分片偏移,单位 8 字节
• TTL: 经过一跳减 1,为 0 时丢弃
• Protocol: 1=ICMP, 6=TCP, 17=UDP
• Checksum: 仅覆盖头部的校验和
2.2 内核中的 IP 头部结构体
// include/uapi/linux/ip.h
structiphdr {
#if defined(__LITTLE_ENDIAN_BITFIELD)
__u8 ihl:4, /* 头部长度 */
version:4; /* 版本号 */
#elif defined(__BIG_ENDIAN_BITFIELD)
__u8 version:4, ihl:4;
#endif
__u8 tos; /* 服务类型 */
__be16 tot_len; /* 总长度 */
__be16 id; /* 标识 */
__be16 frag_off; /* 分片偏移+Flags */
__u8 ttl; /* 生存时间 */
__u8 protocol; /* 协议号 */
__sum16 check; /* 校验和 */
__be32 saddr; /* 源地址 */
__be32 daddr; /* 目的地址 */
};
⚠️ 字节序注意:内核使用 __be16、__be32 表示大端序。x86 是小端序,需要 ntohs()、ntohl() 转换。
⚙️ ip_rcv() 函数深度剖析
3.1 函数原型与调用路径
ip_rcv() 是 IPv4 协议的入口函数,当 netif_receive_skb() 判断为 IPv4 数据包时调用此函数。
// net/ipv4/ip_input.c
intip_rcv(structsk_buff *skb,
structnet_device *dev,
structpacket_type *pt,
structnet_device *orig_dev)
{
structiphdr *iph;
u32 len;
/* ========== 第一步:基础校验 ========== */
/* 1. 确保 skb 可线性访问 */
if(!pskb_may_pull(skb,sizeof(structiphdr)))
gotodrop;
iph = ip_hdr(skb);
/* 2. 校验 IP 版本号(必须为 4) */
if(iph->version !=4)
gotodrop;
/* 3. 校验头部长度(IHL 最小 5) */
if(iph->ihl <5|| iph->ihl >15)
gotodrop;
/* 4. 确保整个 IP 头部在线性区 */
if(!pskb_may_pull(skb, iph->ihl *4))
gotodrop;
iph = ip_hdr(skb);
/* 5. 校验总长度 */
len = ntohs(iph->tot_len);
if(len < iph->ihl*4|| len > skb->len)
gotodrop;
/* 6. 校验 IP 头部校验和 */
if(ip_fast_csum((u8*)iph, iph->ihl) !=0)
gotodrop;
/* ========== Netfilter PREROUTING ========== */
returnNF_HOOK(NFPROTO_IPV4,
NF_INET_PRE_ROUTING,
dev_net(dev), NULL, skb,
dev, NULL, ip_rcv_finish);
drop:
kfree_skb(skb);
returnNET_RX_DROP;
}
🎯 关键设计:IP 校验和仅覆盖头部,不包含数据部分。路由器只需重新计算 TTL 变化后的校验和,无需处理整个数据包,大幅提升转发效率。
🗺️ 路由决策:ip_rcv_finish() 与 FIB 查找
4.1 ip_rcv_finish() 函数
// net/ipv4/ip_input.c
staticintip_rcv_finish(structnet *net,
structsock *sk,
structsk_buff *skb)
{
conststructiphdr *iph = ip_hdr(skb);
structrtable *rt;
interr;
/* 路由查找 */
if(!skb_valid_dst(skb)) {
err = ip_route_input_noref(skb,
iph->daddr, iph->saddr,
iph->tos, skb->dev);
if(unlikely(err))
gotodrop;
}
rt = skb_rtable(skb);
/* 决策:本地交付 or 转发 */
returndst_input(skb);
drop:
kfree_skb(skb);
returnNET_RX_DROP;
}
4.2 FIB 路由表
255 | ||
254 | ||
253 |
🔍 查看路由表:ip route show table all 查看所有路由表 | ip rule list 查看策略路由规则
📥 本地交付:ip_local_deliver()
当路由决策结果为本地交付时,调用 ip_local_deliver():
// net/ipv4/ip_input.c
intip_local_deliver(structsk_buff *skb)
{
/* 处理 IP 分片重组 */
if(ip_is_fragment(ip_hdr(skb))) {
if(ip_defrag(dev_net(skb->dev), skb,
IP_DEFRAG_LOCAL_DELIVER))
return0;
}
/* 通过 Netfilter 钩子(INPUT) */
returnNF_HOOK(NFPROTO_IPV4,
NF_INET_LOCAL_IN,
dev_net(skb->dev), NULL, skb,
skb->dev, NULL,
ip_local_deliver_finish);
}
ip_local_deliver_finish() 根据 protocol 字段分发:
1 | icmp_rcv() | |
6 | tcp_v4_rcv() | |
17 | udp_rcv() | |
47 | gre_rcv() |
📤 转发流程:ip_forward()
当数据包不是发给本机时,需要转发到下一跳:
// net/ipv4/ip_forward.c
intip_forward(structsk_buff *skb)
{
structiphdr *iph = ip_hdr(skb);
structrtable *rt = skb_rtable(skb);
unsignedintmtu;
/* 1. 检查 TTL(防止无限循环) */
if(iph->ttl <=1) {
icmp_send(skb, ICMP_TIME_EXCEEDED,
ICMP_EXC_TTL,0);
gotodrop;
}
/* 2. 检查 MTU 与分片标志 */
mtu = dst_mtu(&rt->dst);
if(skb->len > mtu && !skb_is_gso(skb)) {
if(iph->frag_off & htons(IP_DF)) {
/* DF 标志,不能分片 */
icmp_send(skb, ICMP_DEST_UNREACH,
ICMP_FRAG_NEEDED, htonl(mtu));
gotodrop;
}
}
/* 3. TTL 减 1 */
ip_decrease_ttl(iph);
/* 4. 通过 Netfilter FORWARD 钩子 */
returnNF_HOOK(NFPROTO_IPV4,
NF_INET_FORWARD,
dev_net(dev), NULL, skb,
skb->dev, dev,
ip_forward_finish);
drop:
kfree_skb(skb);
returnNET_RX_DROP;
}
⚠️ 重要:转发过程中 TTL 减 1。如果 TTL 降为 0,数据包将被丢弃,并发送 ICMP Time Exceeded。这是防止数据包在网络中无限循环的关键机制。
🧩 IP 分片重组机制
7.1 分片 vs 重组
📤 分片(发送端/路由器)
• 检查 MTU 与数据包大小
• 设置 MF (More Fragments) 标志
• 计算分片偏移(单位 8 字节)
• 复制 IP 头部到每个分片
• 重新计算校验和
📥 重组(接收端)
• 根据 (源IP, 目的IP, ID) 识别同一数据报
• 将分片放入重组队列(ipq 结构)
• 检查是否所有分片都到达
• 按偏移顺序拼接分片
• 超时未重组完成则丢弃
7.2 内核重组参数
# 查看分片重组参数
$ sysctl net.ipv4.ipfrag_high_thresh
net.ipv4.ipfrag_high_thresh = 4194304# 4MB
$ sysctl net.ipv4.ipfrag_time
net.ipv4.ipfrag_time = 30# 30秒超时
💡 性能调优:高带宽场景下可能需要增大 ipfrag_high_thresh 以避免分片重组失败。但要注意防止分片攻击(Fragments Flood)耗尽内存。
🔧 实战:排查 IP 层问题
ip route get <dst>iptables -L -v | ||
ping -s 2000 <dst> | ||
traceroute <dst> | ||
ethtool -S eth0 |
📝 小结与预告
❶ IP 头部结构:理解 20 字节头部的每个字段含义
❷ ip_rcv() 函数:完成版本校验、长度校验、校验和计算
❸ 路由决策:通过 FIB 表和 LC-trie 算法高效查找路由
❹ 本地交付 vs 转发:根据路由结果选择不同处理路径
❺ 分片重组:处理 IP 分片的接收与重组
🎯 下期预告:
《Linux 内核协议栈源码分析(三):传输层处理——TCP 状态机与可靠传输》
我们将深入 tcp_v4_rcv() 函数,分析 TCP 连接建立、状态转换、滑动窗口、拥塞控制等核心机制。
🙏 感谢阅读!如果您觉得本文有帮助,欢迎分享给更多对 Linux 内核感兴趣的朋友。有任何问题或建议,请在评论区留言!
© 2026 Linux 内核源码分析系列 | 转载请注明出处
欢迎关注公众号获取最新更新
夜雨聆风