超聚变服务器上安装GPU卡出现的问题现象及解决方案

安装OS后插入显卡无法进入图形界面

问题现象

插入带显示接口显卡时(或计算型显卡为Graphic模式),系统默认使用nouveau驱动配合外接显卡显示,由于nouveau驱动不兼容NVIDIA显卡,导致无法正常显示图形界面。

解决方案

先进入文本终端,参考下面不同Linux系统nouveau驱动禁用方式禁用nouveau驱动。

安装显卡驱动后无法进入图形界面

问题现象

在CentOS和RHEL等系统下,安装驱动时在如下步骤中选择“yes”后生成xorg文件,该文件配置用显卡显示,但计算型显卡无显示接口,导致进入图形界面失败。

解决方案

进入/etc/X11目录,删除xorg.conf文件。

未安装gcc导致驱动安装失败

问题现象

安装.run格式驱动时,出现如下报错,驱动安装失败。

解决方案

请提前安装gcc,g++等编译器。

不同Linux系统nouveau驱动禁用方式

Fedora

  • 创建文件/usr/lib/modprobe.d/blacklist-nouveau.conf,添加如下文本。

    blacklist nouveau

    options nouveau modeset=0

  • 重新生成initramfs。

    $sudo dracut --force

RHEL/CentOS

  • 创建文件/etc/modprobe.d/blacklist-nouveau.conf,添加如下文本。

    blacklist nouveau

    options nouveau modeset=0

  • 重新生成initramfs。

    $sudo dracut --force

OpenSUSE

  • 创建文件/etc/modprobe.d/blacklist-nouveau.conf,添加如下文本。

    blacklist nouveau

    options nouveau modeset=0

  • 重新生成initrd。

    $sudo /sbin/mkinitrd

SLES

SLES中未安装nouveau驱动。

Ubuntu

  • 创建文件/etc/modprobe.d/blacklist-nouveau.conf,添加如下文本。

    blacklist nouveau

    options nouveau modeset=0

  • 重新生成initramfs。

    $sudo update-initramfs -u

检测kernel source失败

问题现象

安装NVIDIA驱动时会使用内核源码的头文件,所以需要下载kernel source否则会报错无法继续安装。

解决方案

  1. 安装操作系统时勾选包类型为development包,则会提前安装好。

安装kernel-devel包,安装驱动时执行以下命令指定kernel source路径。

./NVIDIA-Linux-x86_64-396.26.run --kernel-source-path=/usr/src/kernels/3.10.0-x

驱动 GPU OS的兼容性关系

  • 驱动与GPU的兼容关系

    进入NVIDIA官网,找到相应的驱动版本。

    在“README”中Supported NVIDIA GPU Products章节可以确认驱动是否支持该GPU卡,建议使用最新驱动版本。

  • 驱动与OS的兼容关系

    目前NVIDIA官方未给出驱动与OS小版本的兼容关系。

    例如在CentOS 7.5安装387.44较老的驱动版本时,出现内核与驱动不兼容的报错,导致驱动安装失败,下载最新驱动则可以正常安装,所以使用新的操作系统时建议安装最新的驱动版本。

Tesla A100 40G OS下MMIOH资源不足

问题现象

2288H V5配置Tesla A100 40G时,Linux操作系统下执行lspci -vvv -s b9:00.0出现MMIOH资源不足问题,即回显中存在Region 1: Memory at <unassigned> (64-bit, prefetchable),如下图所示。

b9:00.0为Tesla A100 40G在操作系统下的bus总线地址,不同硬件配置下该bus总线地址可能不同。

解决方案

在BIOS Setup界面将MMIO High Granularity Size设置为256G及以上,详细操作步骤如下:

  1. 重启服务器并进入BIOS Setup界面。
  2. 依次进入Advanced > Socket Configuration > Common RefCode Configuration。

     

  3. 选择MMIO High Granularity Size,按Enter键,选择256G及以上,再按Enter键。

     

  4. 按“F10”。

    弹出“Save Changes&Exit”对话框。

     

  5. 选择“Yes”并按“Enter”保存设置。

    服务器将自动重启使参数生效。

     

  6. 在Linux操作系统下再次执行lspci -vvv -s b9:00.0,回显中Region 1可以正常分配地址空间,如下图示例中的Region 1: Memory at <eb000000000> (64-bit, prefetchable) [size=64G],其中eb000000000表示MMIO分配的起始地址,size=64G表示MMIO分配的地址空间大小。