起因
寄存器报错, gpu推理加速调用失败,后端退化为cpu推理了。措施
推测原因:可能是显卡驱动太旧,ubuntu24内核太新;
升级官网最新驱动, 显卡型号: NVIDIA Tesla A100 80GB。步骤
1. 打开官网,选择对应驱动型号,Linux 64-bit对应所有amd64/x64架构的linux服务器。https://www.nvidia.cn/Download/index.aspx?lang=cn
wget --referer=https://www.nvidia.cn/ https://cn.download.nvidia.com/tesla/595.71.05/NVIDIA-Linux-x86_64-595.71.05.run
wget不行的话,可以下载到本地,然后scp上传到服务器中,scp是一款远程复制工具,适用于从windows、linux、macos拷贝到远程服务器的场景。scp {驱动名}.deb root@{服务器ip}:/opt/{对应路径}
对于centos,open欧拉等系统,可以还需要 检查nouveau是否被禁用,然后升级系统内核,ubuntu24的话可以直接下一步了(坑在后续)chmod +x NVIDIA-Linux-x86_64-595.71.05.runsh NVIDIA-Linux-x86_64-595.71.05.run
8. 以后ubuntu请一行更新驱动:ubuntu-drivers autoinstall如果是云服务器,在执行nvidia驱动更改时,记得先对系统盘做一个快照,如果升级后启动不了,则恢复快照,保证系统和相关软件能快速恢复。PS:涉及ubuntu系统的内核升级操作,以后再也不碰了,没有centos系稳定。