记一次关于驱动报错的问题
背景
原始驱动版本515,cuda 11.5.。 要将cuda 版本升级到11.7
内容
我去nvidia官网下载了 11.7.1的cuda tools nvidia CUDA 下载。
按照步骤安装后,执行nvcc -V ,可以看到已经正常更新
但是执行 nvidia-smi 时报错
NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver
reboot 后依然报错。
尝试解决
由于linux内核升级,之前的nvidia驱动就不匹配。可能导致这个问题,
最常见的方法,首先查看自己的显卡版本
ls /usr/src | grep nvidia
sudo apt-get install dkms
替换成上一个命令的输出
sudo dkms install -m nvidia -v 470.86
在执行 nvidia-smi 查看,还是报错。
准备重新安装驱动
这将列出推荐的和可用的显卡驱动。查找适合你的显卡型号的驱动。
sudo ubuntu-drivers devices
下列命令将安装系统推荐的驱动
sudo ubuntu-drivers autoinstall
或者,如果你知道具体的驱动版本,你也可以使用以下命令安装:
sudo apt-get install nvidia-driver-<version>
请将 替换为你想要安装的具体版本。
我在执行了 sudo apt-get install nvidia-driver-515 和sudo apt-get install nvidia-driver-535 后报错依然存在。535为最新版本。
后来尝试执行了sudo apt-get install nvidia-driver-525 ,问题解决,可以正常显示,并且nvcc -V 版本也更新到了11.7