事件起因:老板投资的一个公司,想把这个公司的产品部署到本地,由于此产品涉及到AI算法,所以需要一台显存大的GPU显卡。

服务器准备情况:3台32GB内存的1Udell服务器,电源模块功率的500W。

整个事件的过程:

一.首先:购买了一个24GB显存的GPU显卡,显卡型号:NVIDIA Tesla P40(部署最低要求就是显存不能小于24GB,不然到时是有会导致内存爆满),此显卡需要独立供电且功率为300W。

gpu 服务器用anaconda装pytorch 服务器安装gpu_服务器

 

 

购买显卡后出现的问题:由于这个GPU显卡需要独立供电,购买的时候没有了解清楚,卖家说是从电源直接供电,但是服务器电源无法直接给GPU显卡供电。就因为下面原因,中间耽搁了好几天。(PS:此前从来没有接触过GPU显卡)
买回来后才了解到现有的1U服务器无法使用这个显卡,原因有四个原因:
1.这个显卡的尺寸太大,无法安装到1U服务器中。(PS:这种大显存的显卡尺寸都比较大,所以最次也要2U服务器)。
2.我的三台1U服务器的电源模块的功率都是500W,500W的电源只够满载的CPU、内存使用,如果外接供电的显卡,那么500W的功率显然就不够用了,更何况我买的NVIDIA Tesla P40需要300W的功率才能带得起来,500W(服务器主板、内存、cpu使用)+300W(一张独显)=800W,所以要想使用这个显卡,电源的功率必须大于800W,但是服务器厂商都会建议使用更大功率的电源,比如:1200W、1400W的电源。

3.1U服务器自带的PCIE的扩展卡不能提供供电。

4.这个显卡带的供电线是单8pin转双8pin,单8pin是连接到GPU显卡上的,而双8pin是接到主板上的(了解到一个8pin引脚的供电功率为150W),而这个1U服务器的主板和显卡扩展坞上没有均没有供电的引脚。

下图为显卡自带的单8pin转双8pin线。

gpu 服务器用anaconda装pytorch 服务器安装gpu_引脚_02

 

 

二.然后我在公司找了一圈,最后找到了一台服务器,型号:HP DL388 GEN9(2016年的服务器),是一个2U服务器,庆幸的是这个服务器上自带了PCIE扩展卡,更庆幸的是这个扩展卡上有给显卡供电的接口(10pin引脚)。通过查看服务器指南书,了解到这个扩展卡就是给=预留给外接的GPU显卡的。这个10pin引脚的接口就是给显卡供电的。

gpu 服务器用anaconda装pytorch 服务器安装gpu_服务器_03

 

三.然后我联系HP的厂家购买大功率的电源。因为HP和H3C之前是一家,所以打了一圈电话,找到了H3C的代理商,被代理商告知800W的电源可能带不起来,所以最后选择了1400W的电源,含税1100元。

四.然后又在淘宝上买了一根HP DL388服务器使用的10pin转双8pin的供电线

gpu 服务器用anaconda装pytorch 服务器安装gpu_引脚_04

 

其实10pin引脚只接了7根线。

gpu 服务器用anaconda装pytorch 服务器安装gpu_ci_05

 

 五.最后,将买回来的1400W的电源安装到服务器上,使用单独买的10pin转双8pin的线接显卡自带的8pin转双8pin的线。从扩展卡的10pin引脚给GPU显卡供电。

安装完之后,在没有安装显卡驱动的情况下,在系统命令行界面输出命令查看显卡信息。(PS:我的系统是centos系统,不是windows系统。)

 命令行输出:lspci |grep -i nvidia   查看nvidia显卡信息显示如下:

0b:00.0 NIVIDIA compatible controller: Matrox Electronics Systems Ltd. G200eR2

如果没有lspci命令,执行:yum -y install pci*,就能在线安装lspci。

然后在命令行执行:lspci -v -s 0b:00.0    显示显卡大致信息,说明系统已经识别显卡。

gpu 服务器用anaconda装pytorch 服务器安装gpu_服务器_06

 

 最后的最后。由于这个产品是在ubuntu系统下部署的,所以需要重新安装ubuntu系统,然后下载、安装GPU显卡驱动。
ubuntu安装版本:18.04.4 LTS

系统安装完成后出现的问题:刚装完系统,重启服务器后,风扇声音很大。
问题:百度后发现,由于没有安装显卡驱动,所以服务器风扇超速转动,声音特别大。
解决方法:在英伟达官网查找P40驱动。选择Ubuntu18.04,CUDA版本11.0,查看驱动号为: 450.230.03  ,然后在ubuntu的software & update(在功能菜单中有,可以搜索到)中查看p40的驱动(找到450.230.03的),手动点击安装驱动。

最后命令行输入:nvidia-smi  查看显卡详情:

gpu 服务器用anaconda装pytorch 服务器安装gpu_服务器_07