因为课程作业需要复现DreamBooth,找了几个教程之后,发现了AutoDL这个好东西,芜湖~
相关概念
以下回答来自于ChatGPT。
云计算平台:云服务器平台是提供按需计算资源和服务的在线平台,通常包括存储、处理能力、数据库、网络等。
实例:在云计算平台中,“实例”通常是指一个虚拟服务器或虚拟机(Virtual Machine, VM),它运行在云提供商的基础设施上。实例是云计算服务的基本单元,用户可以根据需要启动、停止和配置实例。
镜像:镜像(Image)是一个包含操作系统、应用程序、配置和数据的模板,用于创建虚拟机实例。镜像使得用户可以快速和一致地部署多个相同配置的虚拟机。
基本界面
网址
AutoDL算力云 | 弹性、好用、省钱。租GPU就上AutoDL
优势
1. 实例数量较多
在我使用的几个时间段内(上午、下午、凌晨)似乎没有遇到过没有空卡的情况,而且价格便宜。
2. 操作简单快捷
根据实际使用需求,GPU数量可选,数据盘可扩容。
(本人暂时还没有使用过多块GPU进行训练,下次可以试试看会不会缩短训练的时间)
(在上次的使用过程中,因为每500步保存一次模型,保存次数过多,第一次遇到了数据盘用完的情况,感受到了数据盘可以灵活扩容的好处)
在创建镜像时,可以直接根据需求进行框架+Python+CUDA的组合搭配。
这里搭配完之后直接开机即可,非常简单。
支持正常的ssh登录访问,教程部分参考《云服务器平台Featurize--基本使用步骤与使用感受_featurize教程-CSDN博客》,也可以使用JupyterLab进行操作,JupyterLab可以和实现和命令行一样的效果。
3. 容器实例可以保存并更换硬件运行
这个功能字面意思首先就是我配置好的环境可以直接单独进行保存,这可以带来几个直接的好处:
(1)换卡开机
当原本的主机ID被占用时,可以快捷地将原本使用的环境复制到其他主机上开机运行,经过实测,同一配置的实例可以直接运行同一环境。
通过上面的克隆实例,可以直接更换运行的硬件,当原本的实例在关机后被他人占用时,该功能非常有用。
比如原本我的镜像运行在主机ID为666的一块3090上,但是我上次使用完关机之后,现在这个主机的所有GPU都被其他人租用了,现在我只需要将数据和环境都拷贝到有空GPU的主机(ID为888)上,即可继续我原本的实验,这种问题主要出现在上次使用featurize时。
(2)使用他人配置好的实例镜像
可以直接在CodeWithGPU上找到需要运行的模型所需要的环境,网址如下:
CodeWithGPU | 能复现才是好算法
就像他的slogan写到的:能复现的才是好算法。有的机器学习教程会直接给出自己在该平台的镜像分享,用户可以直接拉取,然后用一模一样的环境进行复现,再也不用担心环境不一样导致的复现效果差异,也无需在环境配置上浪费很多时间!
比如我使用的DreamBooth环境,教程中既给出了代码训练环境,也给出了webui的使用环境。
DreamBooth的教程链接如下:
CrazyBoyM/dreambooth-for-diffusion/dreambooth-for-diffusion: 首个完整封装、一体化训练stable diffusion dreambooth的镜像环境,可训练定制自己的独特大模型风格、人物,开箱即用,内含详细教程。 - CG (codewithgpu.com)
我还在这个CodeWithGPU中搜索了之前我使用过的Mask-RCNN,虽然没有配置好的环境镜像,但是也有相关的模型使用步骤,等下次看下实际的使用效果。
需要注意的是:
- 现在CodeWithGPU上能找到的环境镜像还是比较少;
- 在CodeWithGPU还是要比直接在创建镜像时检索到的内容要多些。