一. 硬件环境
1. 超微7048主板,最多可搭载4块GPU
2. 2个Intel的 Xen至强 14核 CPU
3. 目前安装了一块Nvidia 的P40 GPU,后续根据需要还最多可以扩展3块GPU
4. 4T机械 + 2T Nvme固态,
5. 4条64G DDR4内存条,共 196G内存
二.软件环境搭建
主要软件环境版本:
系统:Ubuntu 20.04
GPU驱动:515.43.04
CUDA:11.7
Python: 3.10
Pytorch: 2.0.0
3.1 ubuntu 软件源更换
1. 备份配置
sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak
2. 修改源配置
sudo gedit /etc/apt/sources.list
3. 阿里源:
deb http://mirrors.aliyun.com/ubuntu/ focal main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-security main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal-security main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-updates main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal-updates main restricted universe multiverse
# deb http://mirrors.aliyun.com/ubuntu/ focal-proposed main restricted universe multiverse
# deb-src http://mirrors.aliyun.com/ubuntu/ focal-proposed main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ focal-backports main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal-backports main restricted universe multiverse
4. 使配置生效
source /etc/apt/sources.list
3.2 GPU驱动安装
安装gcc等库:
sudo apt-get install g++ gcc make
下载安装参考这篇Ubuntu安装Nvidia显卡驱动-CSDN博客
安装过程中,选continue install;有yes no选项,选默认相反的;OK 直接选
验证:输入nvidia-smi
3.3 CUDA安装
下载CUDA 11.7版本:
wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda_11.7.0_515.43.04_linux.run
安装: sudo sh cuda_11.7.0_515.43.04_linux.run
参考这篇:【CUDA】Ubuntu系统如何安装CUDA保姆级教程(2022年最新)_ubuntu安装cuda-CSDN博客
3.4 anaconda 安装
官网下载:wget https://repo.anaconda.com/archive/Anaconda3-2023.09-0-Linux-x86_64.sh
官网下载网络缓慢时,使用清华源下载:wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2023.09-0-Linux-x86_64.sh
官方下载:
bash Anaconda3-2023.09-0-Linux-x86_64.sh
重启命令行
设置默认不进入到conda 的 base环境
conda config --set auto_activate_base false
创建一个指定python版本的名为Aigc的环境
conda create -n Aigc python=3.10.0
3.5 Pytorch安装
进入到上面配置好的conda环境中:
conda activate Aigc
国内设置使用清华源:
#添加镜像源
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
#终端显示包从哪个channel下载,以及下载地址是什么
conda config --set show_channel_urls yes
参考:
pytorch加速下载——清华镜像源(conda或者pip版本)_pytorch清华源下载-CSDN博客
【Python】Anaconda以及Pip配置清华镜像源-CSDN博客
anaconda | 镜像站使用帮助 | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror
#如命令行下载也很慢,可进入此连接Index of /anaconda/cloud/pytorch/linux-64/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror,手动下载放入对应anaconda/pkgs目录中
安装pytorch
conda install pytorch==2.0.0 torchvision==0.15.0 torchaudio==2.0.0 pytorch-cuda=11.7 -c pytorch -c nvidia
3.6 git lfs安装
目前的大模型文件,不管是huggingfac, 还是modescope, 都用git 管理,大文件需要用到git lfs
1.curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
2. sudo apt-get install git-lfs
3. 使用:
git lfs install
不下载LFS大文件: GIT_LFS_SKIP_SMUDGE=1 git lfs clone 项目地址
可选择只下载仓库中所有后缀为.bin的文件:git lfs pull --include="*.bin"
3.7 pip库更换源
使用国内源:pip国内镜像源-Python安装第三方库(一篇足以、都是干货,内含快捷方法) - 知乎
一般使用清华源:pip install xxx -i Simple Index
更改pip 的默认源地址为清华的:
pip config set global.index-url
https://pypi.tuna.tsinghua.edu.cn/simple