安装OS后插入显卡无法进入图形界面
问题现象
插入带显示接口显卡时(或计算型显卡为Graphic模式),系统默认使用nouveau驱动配合外接显卡显示,由于nouveau驱动不兼容NVIDIA显卡,导致无法正常显示图形界面。
解决方案
先进入文本终端,参考下面不同Linux系统nouveau驱动禁用方式禁用nouveau驱动。
安装显卡驱动后无法进入图形界面
问题现象
在CentOS和RHEL等系统下,安装驱动时在如下步骤中选择“yes”后生成xorg文件,该文件配置用显卡显示,但计算型显卡无显示接口,导致进入图形界面失败。
不同Linux系统nouveau驱动禁用方式
Fedora
- 创建文件/usr/lib/modprobe.d/blacklist-nouveau.conf,添加如下文本。
blacklist nouveau
options nouveau modeset=0
- 重新生成initramfs。
$sudo dracut --force
RHEL/CentOS
- 创建文件/etc/modprobe.d/blacklist-nouveau.conf,添加如下文本。
blacklist nouveau
options nouveau modeset=0
- 重新生成initramfs。
$sudo dracut --force
OpenSUSE
- 创建文件/etc/modprobe.d/blacklist-nouveau.conf,添加如下文本。
blacklist nouveau
options nouveau modeset=0
- 重新生成initrd。
$sudo /sbin/mkinitrd
SLES
SLES中未安装nouveau驱动。
Ubuntu
- 创建文件/etc/modprobe.d/blacklist-nouveau.conf,添加如下文本。
blacklist nouveau
options nouveau modeset=0
- 重新生成initramfs。
$sudo update-initramfs -u
检测kernel source失败
问题现象
安装NVIDIA驱动时会使用内核源码的头文件,所以需要下载kernel source否则会报错无法继续安装。
解决方案
- 安装操作系统时勾选包类型为development包,则会提前安装好。
安装kernel-devel包,安装驱动时执行以下命令指定kernel source路径。
./NVIDIA-Linux-x86_64-396.26.run --kernel-source-path=/usr/src/kernels/3.10.0-x
驱动 GPU OS的兼容性关系
- 驱动与GPU的兼容关系
进入NVIDIA官网,找到相应的驱动版本。
在“README”中Supported NVIDIA GPU Products章节可以确认驱动是否支持该GPU卡,建议使用最新驱动版本。
- 驱动与OS的兼容关系
目前NVIDIA官方未给出驱动与OS小版本的兼容关系。
例如在CentOS 7.5安装387.44较老的驱动版本时,出现内核与驱动不兼容的报错,导致驱动安装失败,下载最新驱动则可以正常安装,所以使用新的操作系统时建议安装最新的驱动版本。
Tesla A100 40G OS下MMIOH资源不足
问题现象
2288H V5配置Tesla A100 40G时,Linux操作系统下执行lspci -vvv -s b9:00.0出现MMIOH资源不足问题,即回显中存在Region 1: Memory at <unassigned> (64-bit, prefetchable),如下图所示。
b9:00.0为Tesla A100 40G在操作系统下的bus总线地址,不同硬件配置下该bus总线地址可能不同。
解决方案
在BIOS Setup界面将MMIO High Granularity Size设置为256G及以上,详细操作步骤如下:
- 重启服务器并进入BIOS Setup界面。
- 依次进入Advanced > Socket Configuration > Common RefCode Configuration。
- 选择MMIO High Granularity Size,按Enter键,选择256G及以上,再按Enter键。
- 按“F10”。
弹出“Save Changes&Exit”对话框。
- 选择“Yes”并按“Enter”保存设置。
服务器将自动重启使参数生效。
- 在Linux操作系统下再次执行lspci -vvv -s b9:00.0,回显中Region 1可以正常分配地址空间,如下图示例中的Region 1: Memory at <eb000000000> (64-bit, prefetchable) [size=64G],其中eb000000000表示MMIO分配的起始地址,size=64G表示MMIO分配的地址空间大小。
发表评论