1 相关知识了解
1.1 了解厂家
1.1.1 面向个人的平台
名称 | 特点 |
微信绑定送100,学生200 | |
便宜,国外,DBC支付(不知道是啥,不考虑) | |
VNC远程访问图形化桌面,操作简单,gpu种类多,预装tf、pytorch等多种知名框架,高校教育版老师申请大优惠,适配pycharm | |
贵,但人性化 | |
便宜,配置了tf、pytorch等多种知名框架,中途关机暂停可以再开机使用 | |
预装tf、pytorch等框架,略贵 | |
赠送大方 | |
略贵,可租出去 | |
评价很好,有近百元礼包 |
邀请注册,有注册尝试的同学可使用我的邀请链接注册,对你我都有好处~
- 恒源云
- 矩池云专属邀请码:mgLMBx6FjiWGNAO
- 极链AI云
1.1.2 大厂出品/通用服务器
名称 | 特点 |
科学上网,内存只有256mb | |
科学上网,新用户送300刀 | |
不面向学生出租GPU | |
三巨头之一 | |
三巨头之一 | |
三巨头之一 | |
微软 | |
亚马逊,可白嫖低性能云服务器 |
http://www.aliyunbc.com/newsinfo/1157113.html停止实例
1.2 了解云服务器配置
相关参数:地域、计费方式、CPU、内存、带宽、系统盘、数据盘
1.2.1 地域节点
就近原则,理论上,用户距离云服务器地域越近,网络延迟越低,速度越快。当需要部署大型项目涉及负载均衡和高并发量等时,地域节点的影响会慢慢凸显。
1.2.2 计费方式
包年包月:一般适用于24小时在线服务(无特殊需求则选择这个方案,性价比高) 按量计费:间歇使用
1.2.3 cpu
CPU是服务器的一个核心,表示云服务器的运算能力。CPU数量越多,主频越高,CPU性能越优越,对业务处理的能力也就越高
1.2.4 内存
内存作为数据的中转站,内存越大,可用缓存也就越大,如果是网站,打开速度也就越快。
1.2.5 带宽
网络带宽越大,数据传输能力越强,可以同时支持的在线用户越多(建议优先选择5M带宽)
1.2.6 系统盘
系统盘是用来存储云服务器系统的,和家用电脑的C盘差不多,购买的服务器默认会提供的系统盘一般为40G。 性能方面 ESSD云盘 > SSD云盘 > 高效云盘 > 普通云盘
1.2.7 数据盘
数据盘是用户自行创建的,可以和购买云服务器时一起创建,也可以单独创建数据盘。一般数据小于20个G是不用去买数据盘的,放在系统盘即可,系统盘也可以回滚快照,和数据盘是一样的,所以不用担心数据丢失的问题,数据盘是给数据比较大的客户用的,当存储数据量较大时必须要挂载数据盘。
1.2.7 配置及适用场景
2 平台试用
2.1 极链AI云
参考指导手册
2.1.1 创建实例
讲实话,gpu规格型号有点少,11种。但我要求并不高,因此无所谓。
选择tensorflow2.4.1版本
对应默认使用的是ubuntu18.04操作系统的镜像。
创建成功!
2.1.2 xshell连接主机及Xftp进行文件下载和上传
参考文档 连接成功效果:
可直接拖拽进行拷贝复制:
2.1.3 VNC桌面可视化工具
参考链接 windows上先安装好viewer,实例中执行./vncserver.sh install安装server。
安装成功~
./vncserver.sh start tensorboard命令进行启动。
实例中启动成功~
window中启动viewer:VNC server需要填主机域名:映射的端口号(tx-nat.videojj.com:34968)
启动成功~但好丑啊,而且好像并不便捷。
2.1.4 实战:基于ResNet实现高精度水果识别
2.1.5 jupyterLab中运行代码
参考链接
2.1.6 使用tensorboard
得有训练数据才可以进行可视化,目前暂无数据,不进行展示参考链接
2.1.7 关机
关机中~:
关机完毕,还可以再次启动(停止计费但对主机系统没有影响)或释放。
2.1.8 综合评价
还可以!优点是学生优惠大,网盘容量大。
2.2 矩池云
参考指南文档
2.2.1 数据代码下载和网盘上传
速度还挺快,秒级
2.2.2 租用主机
型号很多,总体价格比极链云便宜,但极链云的配置好像要高一点。
运行起来了~
2.2.3 基础设备验证
python和tensorflow-gpu版本都是可用的。
2.2.4 JupyterLab终端中解压资源压缩包
复制链接打开网页,点击终端
USER_ID: 0, GROUP_ID: 0
(myconda) root@36444f34f408:/# cd /mnt/
(myconda) root@36444f34f408:/mnt# ls
MyMNIST.zip
(myconda) root@36444f34f408:/mnt# unzip MyMNIST.zip
Archive: MyMNIST.zip
creating: MyMNIST/
creating: MyMNIST/MNIST/
creating: MyMNIST/MNIST/raw/
inflating: MyMNIST/MNIST/raw/train-images-idx3-ubyte.gz
inflating: MyMNIST/MNIST/raw/train-images-idx3-ubyte
extracting: MyMNIST/MNIST/raw/t10k-labels-idx1-ubyte.gz
inflating: MyMNIST/MNIST/raw/t10k-labels-idx1-ubyte
inflating: MyMNIST/MNIST/raw/t10k-images-idx3-ubyte.gz
inflating: MyMNIST/MNIST/raw/train-labels-idx1-ubyte
inflating: MyMNIST/MNIST/raw/t10k-images-idx3-ubyte
extracting: MyMNIST/MNIST/raw/train-labels-idx1-ubyte.gz
creating: MyMNIST/MNIST/processed/
inflating: MyMNIST/MNIST/processed/training.pt
inflating: MyMNIST/MNIST/processed/test.pt
inflating: MyMNIST/pytorch_mnist.ipynb
creating: MyMNIST/.ipynb_checkpoints/
inflating: MyMNIST/.ipynb_checkpoints/pytorch_mnist-checkpoint.ipynb
(myconda) root@36444f34f408:/mnt# ls
MyMNIST MyMNIST.zip
(myconda) root@36444f34f408:/mnt# cd MyMNIST
(myconda) root@36444f34f408:/mnt/MyMNIST# ls
MNIST pytorch_mnist.ipynb
(myconda) root@36444f34f408:/mnt/MyMNIST# cd MNIST/
(myconda) root@36444f34f408:/mnt/MyMNIST/MNIST# ls
processed raw
(myconda) root@36444f34f408:/mnt/MyMNIST/MNIST#
2.2.5 运行代码
安装缺少的包:
(myconda) root@36444f34f408:/mnt/MyMNIST/MNIST# pip install tqdm
Looking in indexes: https://mirrors.aliyun.com/pypi/simple/
Collecting tqdm
Downloading https://mirrors.aliyun.com/pypi/packages/8a/c4/d15f1e627fff25443ded77ea70a7b5532d6371498f9285d44d62587e209c/tqdm-4.64.0-py2.py3-none-any.whl (78 kB)
|████████████████████████████████| 78 kB 263 kB/s
Installing collected packages: tqdm
Successfully installed tqdm-4.64.0
(myconda) root@36444f34f408:/mnt/MyMNIST/MNIST#
运行:
保存模型:
# 保存训练好的模型
torch.save(net,'/mnt/MyMNIST/torch_mnist_model.pth')
2.2.6 监控硬件使用情况
可以查看机器的GPU、显存、CPU、内存、硬盘使用情况。
2.2.7 保存环境
保存环境十个很重要的操作,细节参考这个文档 保存的环境会以.snap结尾的文件存放在您的网盘中,因此,会占用您的网盘空间,如果网盘空间不足会导致保存失败。
保存环境后,下次租用机器时可以直接在我的环境中启动。
2.2.8 关机
只能停止租用并释放,不能继续重启继续前面的操作。 但可以保存环境后下一次租用时使用。有好有坏,坏是操作麻烦且占用网盘空间,好是因为可以随时保存环境版本以供租用其他机器时预装。
2.2.9 综合评价
比极链云稍微好一点好像,貌似要便宜一点。而且保存环境这一特性比较特殊,看似麻烦但可能也会在其他方面有优势。 缺点是网盘容量小,扩容费用稍高。
2.3 MistGPU
2.3.1 网盘情况
只有免费1GB,多出的部分按量计费,倒也不是很贵
2.3.2 租用服务器
可预装框架比较少,价格还偏贵的。
正在创建~
创建完成:
功能貌似较少。
2.3.3 终端连接
ssh:
界面倒有些花里胡哨。
**在线命令行:**直接在线打开,这个功能倒是比较方便。
2.3.4 进入jupyter开发环境
直接点击即可进入。
2.3.5 日常使用体验
- 服务器的信息比如预装的框架没有显示出来
- 文件管理比较隐蔽不好操作
- 没有服务器使用时长和扣费提示,容易花钱如流水
2.3.6 关机保存
点击关机之后会直接开始关机,没有缓冲,但貌似也没必要,因为可以无缝再次开机。
2.3.7 综合评价
界面稍微简陋,但功能也都还算比较全,价格偏贵。但在线终端还是比较方便的。
2.4 恒源云
粗看一下,卡很多,功能文档很全面,价格也很低,对学生很友好,有点心动
得完成全部任务才能领取礼包啊,所以必须得先充钱,离谱
因此,我也试验不了了。
3 进阶试用(分布式集群)
3.1 直接试用多机多卡(同步)
3.1.1 创建尝试
这里我配置了两台机器加入到集群,已连接便代表加入成功,可见平台自动给两台机器配置了内部可以相互通信的同网段IP,正如平台介绍所说:
3.1.2 创建实战
第二次创建之后,发现IP最后一位的数字往后顺延了,这就表明每次关机重开之后,IP都会有所改变。这就有点麻烦了,意味着每次开机之后各份代码的集群IP设置就要改变。
解决办法是:平台支持用户自己选用IP,不过目前不支持,客服说之后会支持。
但至少,训练成功了。
3.2 试用多机多卡(异步)
ParameterServerStrategy:租用了5台服务器加入分布式集群,注意集群IP设置。
实验环境没有任何问题,代码存在问题。coordinator报错。