华为服务器,配置了tesla P100GPU,安装ubuntu18.04系统,关机断电后无法正常进入系统

CPU/显卡/打印机/USB设备等硬件问题
回复
hmicah
帖子: 3
注册时间: 2021-01-04 11:12
系统: win10

华为服务器,配置了tesla P100GPU,安装ubuntu18.04系统,关机断电后无法正常进入系统

#1

帖子 hmicah » 2021-01-04 11:22

求助:
最近单位够买了华为2288H V5 服务器,配置了tesla P100GPU,安装了ubuntu18.04 server版系统后安装了NVIDIA-Linux-x86_64-418.165.02.run版本的显卡驱动,然后又安装了ubuntu桌面,正常运行了一段时间后,关机断电后无法正常启动,自动进入了紧急模式。
重装系统后,重复上述过程,仍然是正常运行一段时间,关机断电后无法正常启动,自动进入了紧急模式。
请问大佬们如何解决?
不能装图形桌面?装驱动时需要加上--no-opengl-files?好像又没有进入循环登录。
头像
astolia
论坛版主
帖子: 6506
注册时间: 2008-09-18 13:11

Re: 华为服务器,配置了tesla P100GPU,安装ubuntu18.04系统,关机断电后无法正常进入系统

#2

帖子 astolia » 2021-01-05 11:22

进入紧急模式,首先要做的就是用dmesg、journalctl看系统报了什么错,知道了遇到的问题才能针对性的处理。不了解问题就重装是在逃避问题,不是在解决问题。

如果你和你们单位的人不具备分析解决linux系统问题的能力,遇到问题只能重装的话,建议还是去安装个windows server版算了。
hmicah
帖子: 3
注册时间: 2021-01-04 11:12
系统: win10

Re: 华为服务器,配置了tesla P100GPU,安装ubuntu18.04系统,关机断电后无法正常进入系统

#3

帖子 hmicah » 2021-01-05 12:01

用journalctl查看了问题,有failed内容包括:
couldn't get siz 0x8...
MODSIGN: couldn't get UEFI dblist
Timed out waiting for dev-disk by \xzd uuid ....
Failed to start Flush Journal to persistent storage
Failed to start udev kernel Device Manager
没找到解决这些问题的办法
头像
astolia
论坛版主
帖子: 6506
注册时间: 2008-09-18 13:11

Re: 华为服务器,配置了tesla P100GPU,安装ubuntu18.04系统,关机断电后无法正常进入系统

#4

帖子 astolia » 2021-01-05 20:08

系统启动时有存储设备出问题了。检查/etc/fstab,看Timed out waiting那行后面的uuid对应的是哪个分区,fsck做个磁盘检查
hmicah
帖子: 3
注册时间: 2021-01-04 11:12
系统: win10

Re: 华为服务器,配置了tesla P100GPU,安装ubuntu18.04系统,关机断电后无法正常进入系统

#5

帖子 hmicah » 2021-01-25 17:17

版主好,好像不是存储设备的问题,应该跟GPU驱动相关。每次只要关机后断电都会出现这个问题,卸载并重装Nvidia驱动后会恢复正常。
回复