兄弟们,很多网工提起AI就觉得:高深、代码多、离自己很远,平时只配交换机、排内网故障,跟AI沾不上边。
但其实AI慢、训练卡、经常断连,80%是网络问题—— 而这些网络问题,全是你天天玩的那套东西:负载均衡、流量调度、链路不偏心。
不用懂大模型、不用写代码,你会的网络技能,直接就能解决AI的大麻烦。今天就用网工大白话、华为真实命令、不搞复杂术语,讲清楚:
AI为啥卡?网工怎么调?
看完半懂AI也能明白,还能直接上手配。
今日文章阅读福利:《网工入门指南》
扫码进群,群公告处领取~进群关键词“公众号”

普通办公网络:
流量小、杂、多,随便跑,卡一点没关系;
丢几个包、延迟高点,人感觉不到。
AI 训练网络:
数据超大:GPU之间一次传几十GB;
不能卡、不能丢、不能慢:一卡,AI就停半天;
流量很“怪”:就几股超大流量,很容易一条链路堵死、另一条闲着。
一句话:普通网络“乱点没事”,AI网络 “一点不能乱”—— 而不乱的关键,就是你懂的:流量分匀、链路不偏心、不丢包。

普通路由(ECMP):
按五元组瞎分流量,AI就几股大流量,很容易全挤在一条链路上,堵到爆,另一条全程闲着。
结果:
AI训练越跑越慢,半天不动,工程师以为是GPU不行,其实是网络偏心了。
网工的活:
把流量主动分匀,不让一条链路扛所有压力—这就是AI网络的核心。
下面命令100%华为可查、不用懂AI、网工一看就会,解决AI链路偏心、卡顿问题。
1. 先把网络调成不丢包(AI必须无损)
system-viewdcb pfc enableinterface 100GE1/0/1dcb pfc priority 3 enableqos ecn enablejumboframe enable 9000quit
大白话:给AI流量开绿色通道,不丢包、不抢普通流量带宽,GPU传数据稳得很。
2. 关掉 “瞎分流量” 的普通ECMP
system-viewundo load-balance ecmp
大白话:别让设备瞎分流量,AI流量不能碰运气。
3. 开自适应调度,自动把流量分匀
system-viewload-balance graceful-adaptive-routing enableinterface Eth-Trunk 1load-balance nslb-garquit
大白话:让交换机自己看哪条链路空、哪条忙,自动把AI大流量分到空链路上,再也不偏心。

配完看流量:
display interface trafficdisplay load-balance status
以前一条100%、一条0%,现在两条各50%,AI训练速度直接提上去,工程师再也不说GPU不行了。
很多网工觉得AI离自己远,其实:
AI卡=网络偏心/丢包;
解决方法=你会的流量调度、无损配置;
你懂的交换机命令,直接能让AI跑快一倍。
不用学代码、不用懂大模型,把你平时的网络技能,用到AI场景里,你就是公司缺的AI网络运维,薪资还更高。
1.AI 流量别和普通业务抢带宽,单独开优先级;
2.MTU必须9000,大流量不分片;
3.别关PFC,一关就丢包。
一句话总结:AI慢不是GPU的锅,是网络偏心了。网工调3个简单配置,就能让AI跑飞,你懂的网络,就是AI急需的技能。
扫描下方二维码
领取【网工AI技能升级教程】大纲

夜雨聆风