如何更新GPU云服务器的NVIDIA驱动

NVIDIA相关的nvidia-smi.exe位置变化不定的问题,想必很多人都有遇到过,我自己电脑是NVIDIA显卡,也遇到过,我网上搜了下,很多人有遇到。我自己遇到过系统里有2套驱动nvlddmkm.sys甚至3套nvidia-smi.exe,混乱不堪。在阿里云、腾讯云等云厂商都有nvidia显卡的GPU云服务器,也会有这些问题。了解此知识点,云上云下通用。请一定要详细阅读我这篇文档:https://cloud.tencent.com/developer/article/2076819

我自己总结了一个可靠的办法,确保升级显卡驱动后,一切正常。(NVIDIA每月出一个新版驱动,驱动本身的健壮性我不敢保障,我这里强调的是驱动安装唯独的严谨性。)

首先,卸载干净旧驱动,卸载的话先运行appwiz.cpl从程序列表正常卸载,卸载后会提示重启,重启后appwiz.cpl里是否变成低版本驱动了(我自己就遇到了,明明卸载新安装的驱动,重启后发现appwiz.cpl列表里变成了低版本,还得卸载一次,直到appwiz.cpl列表里不再有nvidia的记录),重启后用Display Driver Uninstaller 从安全模式卸载显卡驱动,我是用msconfig配置的安全模式,参考https://cloud.tencent.com/developer/article/1917677

Display Driver Uninstaller,简称DDU,我从这儿下载的,http://www.dayanzai.me/display-driver-uninstaller.html ,原本就是绿色无毒免费软件,放心使用,不涉及版权,只不过软件官网现在打不开了才贴的第三方链接

DDU卸载显卡驱动过程:

DDU卸载完成后,进入系统,msconfig反向操作,取消安全模式,然后用everything搜nvidia相关的nvlddmkm 、nvidia-smi、nvml.dll关键词,相关文件、目录尽可能别残留(一般appwiz.cpl正常卸载后、又在安全模式下用了DDU善后,基本已经干干净净了),假如用everything搜到了残留比如C:\\Program Files\\NVIDIA Corporation\\ ,最好是用revo uninstaller pro等清理注册表的软件来扫描该目录,如果对应目录有注册表残留,会识别出来让你手动清理的。

卸载完成后再安装新版的。

以上,只为确保系统内只有一套显卡驱动及其相关文件,发现system32目录下的nvml.dll的大小跟C:\\Windows\\System32\\DriverStore\\FileRepository\\nv...\\nvml.dll大小不一样,我试了几个版本的驱动貌似都是这样,这2个nvml.dll我分别替换到system32目录nvdia-smi.exe都能正常工作,可以忽略

还没完,安装完新版后,C:\\Program Files\\NVIDIA Corporation\\下面是不存在NVSMI子目录的, 需要处理下这2个目录里4个文件的一致性

C:\\Program Files\\NVIDIA Corporation\\NVSMI

C:\\Windows\\System32

首先,安装显卡驱动后,会在C:\\Windows\\System32\\DriverStore\\FileRepository\\目录下产生一些文件

一般来说,C:\\Program Files\\NVIDIA Corporation\\NVSMI目录下有这4个文件,

C:\\Program Files\\NVIDIA Corporation\\NVSMI\\MCU.exe

C:\\Program Files\\NVIDIA Corporation\\NVSMI\\nvdebugdump.exe

C:\\Program Files\\NVIDIA Corporation\\NVSMI\\nvidia-smi.exe

C:\\Program Files\\NVIDIA Corporation\\NVSMI\\nvml.dll

如果用everything(https://www.voidtools.com/zh-cn/)搜的话,能搜到C:\\Windows\\System32\\DriverStore\\FileRepository\\……某目录下有东西,比如

C:\\Program Files\\NVIDIA Corporation\\NVSMI\\MCU.exe

C:\\Windows\\System32\\DriverStore\\FileRepository\\nvgridsw.inf_amd64_c8a9594e922208d5\\MCU.exe

C:\\Program Files\\NVIDIA Corporation\\NVSMI\\nvdebugdump.exe

C:\\Windows\\System32\\DriverStore\\FileRepository\\nvgridsw.inf_amd64_c8a9594e922208d5\\nvdebugdump.exe

C:\\Program Files\\NVIDIA Corporation\\NVSMI\\nvidia-smi.exe

C:\\Windows\\System32\\DriverStore\\FileRepository\\nvgridsw.inf_amd64_c8a9594e922208d5\\nvidia-smi.exe

C:\\Program Files\\NVIDIA Corporation\\NVSMI\\nvml.dll

C:\\Windows\\System32\\DriverStore\\FileRepository\\nvgridsw.inf_amd64_c8a9594e922208d5\\nvml.dll

我升级驱动后,一般是搜那4个文件,在C:\\Windows\\System32\\DriverStore\\FileRepository\\目录下找这4个同名文件,看更新时间是不是我升级驱动的时间,是的话,我就把这4个文件往下面2个目录拷贝一份进行替换(替换之前可以先备份下目的位置的原始文件),然后多重启几次,

C:\\Program Files\\NVIDIA Corporation\\NVSMI\\

C:\\Windows\\System32\\

重启后打开cmd命令行,分别执行

"C:\\Program Files\\NVIDIA Corporation\\NVSMI\\nvidia-smi.exe"

"C:\\Windows\\System32\\nvidia-smi.exe"

2个都正常显示进程后再关机做镜像导入腾讯云购买新机器。(之前有次,2个目录的nvidia-smi.exe执行结果不一样,搞得我很恼火,发现是windows联网情况下自动更新驱动了,不知道NVIDIA咋处理的,反正是乱了,后来还是我手动搞一致的,为了避免自动更新驱动导致问题,我把自动更新驱动禁止了,参考https://cloud.tencent.com/developer/article/2070462

版权声明:
作者:Windows技术交流
链接:https://jkboy.com/archives/12738.html
来源:随风的博客
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
打赏
海报
如何更新GPU云服务器的NVIDIA驱动
NVIDIA相关的nvidia-smi.exe位置变化不定的问题,想必很多人都有遇到过,我自己电脑是NVIDIA显卡,也遇到过,我网上搜了下,很多人有遇到。我自...
<<上一篇
下一篇>>