autodl是一家GPU服务厂商,提供专业的GPU租用服务,秒级计费、稳定好用
先去autodl把官方的帮助文档看懂先
AutoDL帮助文档
autodl注册并登陆,充钱,根据自己的情况租用新实例
创建新实例后马上关机,因为有个省钱的办法
刚创建实例,肯定需要配置环境或者上传数据,所以选择无卡模型开机,可以省钱
上传文件、下载文件
1.单个文件的话直接拖动文件上传,下载的话直接点击下载
2.文件夹目录的上传或下载,我是通过SSH来进行
复制登录指令,粘贴,你可以看到服务器ssh连接的域名和端口号
上传文件夹:
(注意与你自己实例的ssh连接的域名和端口号相同,比如下面26100是我实例的端口,connect.cqa.seetacloud.com是域名)
scp -rP 26100 .\images2\ root@connect.cqa.seetacloud.com:/root/autodl-fs
下载文件夹:
scp -rP 26100 root@connect.cqa.seetacloud.com:/root/autodl-tmp/checkpoint-merged F:\result
详情可看官方文档
配置环境
微调qwen2vl使用swift框架,根据官方文档进行环境的配置
Qwen2-VL 最佳实践 — swift 2.4.2.post2 文档
官方提供git下载加速,git下载等访问外网前使用该命令加速
source /etc/network_turbo
安装git-lfs进行克隆大文件仓库:
apt-get update
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs
git lfs install
配置环境:
git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .[llm]
pip install git+https://github.com/huggingface/transformers.git
pip install pyav qwen_vl_utils timm attrdict dashscope
可安装flash-attn库进行加速
pip install flash-attn --extra-index-url https://download.pytorch.org/whl/cu121 (注意cuda版本是12.1)
下载qwen2vl(需要指定路径)
pip install modelscope
modelscope download --model qwen/Qwen2-VL-2B-Instruct --local_dir ./path
自己准备数据集,根据目标任务转成对应模型的输入格式,然后就可以训练,测试,评估模型
微调训练命令
CUDA_VISIBLE_DEVICES=0 swift sft \
--model_type qwen2-vl-2b-instruct \
--model_id_or_path /root/autodl-tmp/code/Qwen2-VL-2B-Instruct \
--sft_type lora \
--dataset /root/autodl-fs/train.json \
--auto_find_batch_size True \
--num_train_epochs 3 \
--logging_steps 5 \
lora微调训练完毕后需要合并参数
merge-lora合并微调后的参数:
CUDA_VISIBLE_DEVICES=0 swift export \
--ckpt_dir "/root/output/checkpoint-279" \
--merge_lora true
测试推理,看效果
CUDA_VISIBLE_DEVICES=0 swift infer \
--ckpt_dir "/root/output/checkpoint-279-merge" \
--model_type qwen2-vl-2b-instruct
注意
你所看到的文件夹并不是在同一个目录,autodl-fs文件夹是特殊的文件存储,其路径是 /root/autodl-fs 你直接复制路径或者pwd命令是/autodl-fs是不一样的,要用/root/autodl-fs这个路径
配好环境后,关机后保存镜像,会把环境保存下来,下次新实例选择,直接使用该镜像
未完待续......