安装pytorch
官网连链接:https://pytorch.org/
特殊包名
cv2
pip install opencv-python
sklearn
pip install scikit-learn
PIL
pip install Pillow
使用jupyter notebook
pip install jupyter
安装显卡驱动
Windows
Linux
视频教程:
【ubuntu24 7分钟安装 cuda cudnn tensorRT】
【ubuntu系统下搭建pytorch的GPU运行环境(显卡驱动、cuda、cudnn安装)】
参考文章:Ubuntu安装和卸载CUDA和CUDNN
驱动安装
英伟达驱动下载地址:https://www.nvidia.cn/drivers/results/
选择对应的显卡驱动
不要直接点下载,赋值下载地址直接在服务器上用wget命令直接下载到服务器上。
1.下载驱动
wget https://us.download.nvidia.com/XFree86/Linux-x86_64/550.54.14/NVIDIA-Linux-x86_64-550.54.14.run
2.删除之前安装的驱动残留
sudo apt-get remove nvidia*
3.修改配置文件(禁用nouveau)
vim /etc/modprobe.d/blacklist.conf
打开文件后,末尾添加如下内容:
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
4.重建initramfs image
echo options nouveau modeset=0|sudo tee -a /etc/modprobe.d/blacklist.conf
sudo update-initramfs -u
sudo reboot
重启后,执行下面命令,如果屏幕没有输出说明禁用nouveau成功
lsmod | grep nouveau
5.安装相关依赖
sudo apt-get update
sudo apt-get install g++ gcc make
6.执行安装命令
chmod +x NVIDIA-Linux-x86_64-550.54.14.run
sudo ./NVIDIA-Linux-x86_64-550.54.14.run --no-opengl-files
7.安装完成后重启服务器
sudo reboot
8.验证安装结果
nvidia-smi
安装CUDA
cuda官网下载地址:https://developer.nvidia.com/cuda-toolkit
如果需要特定版本可以修改网址如(cuda11.8.0版本):
https://developer.nvidia.com/cuda-11-8-0-download-archive
1.下载并安装
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
sudo sh cuda_11.8.0_520.61.05_linux.run
安装过程进入安装页面:
1.输入accept
2.英伟达驱动之前已经安装(需要取消勾选)
3.安装完成
提示:
我们需要添加两个环境变量(PATH和LD_LIBRARY_PATH)
注意:安装完成后要注意查看提示信息,因为安装路径可能是/usr/local/cuda或者/usr/local/cuda-xx.x,这与后面添加环境变量以及安装卸载cudnn密切相关
2.添加环境变量
sudo vim ~/.bashrc
# 添加环境变量
######
# 必须
export PATH=$PATH:/usr/local/cuda-11.8/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.8/lib64
# 可选
export CUDA_HOME=:/usr/local/cuda-11.8
export CUDA_LIB_PATH=/usr/local/cuda-11.8/targets/x86_64-linux/lib
######
source ~/.bashrc
安装完成后查看CUDA版本
nvcc --version
nvcc -V
卸载CUDNN
首先,需要找到并删除旧版本的 CuDNN 文件。假设 CUDA 安装在 /usr/local/cuda,你可以使用以下命令删除旧版本的 CuDNN 文件:
sudo rm /usr/local/cuda/include/cudnn*.h
sudo rm /usr/local/cuda/lib64/libcudnn*
安装CUDNN
下地址:https://developer.nvidia.com/cudnn-archive
################# 下载 ###############
# 这里下载可能需要登录验证,为了正确下载 CuDNN 文件,你需要在浏览器中登录 NVIDIA 开发者账号,并手动下载文件。然后将文件通过 SCP 或者其他文件传输方法上传到你的服务器上
wget https://developer.nvidia.com/downloads/compute/cudnn/secure/9.1.1/local_installers/12.x/cudnn-linux-x86_64-9.1.1.17_cuda12-archive.tar.xz
############# 解压 ##################
tar -xvf cudnn-linux-x86_64-9.1.1.17_cuda12-archive.tar.xz
########### 安装 ##################
# 拷贝(记得提前查看cudnn解压文件夹中是lib还是lib64)
sudo cp cudnn-linux-x86_64-9.1.1.17_cuda12-archive/include/cudnn*.h /usr/local/cuda/include
sudo cp cudnn-linux-x86_64-9.1.1.17_cuda12-archive/lib/libcudnn* /usr/local/cuda/lib64
# 加权限
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
########## 验证是否安装成功 ###########
# 运行命令
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
# 若上述命令没有结果,则运行以下命令
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
验证显卡可用
nvidia-smi
pytorch验证
import torch
print(torch.__version__)
print(torch.cuda.is_available())
print(torch.version.cuda)
print(torch.backends.cudnn.version())
Pytorch
# Get cpu, gpu or mps device for training.
device = (
"cuda"
if torch.cuda.is_available()
else "mps"
if torch.backends.mps.is_available()
else "cpu"
)
print(f"Using {device} device")
Tensorflow
通过docker配置深度学习环境
# 使用NVIDIA提供的CUDA 11.8镜像,基础镜像是Ubuntu 22.04
FROM dockerproxy.net/nvidia/cuda:11.8.0-cudnn8-devel-ubuntu22.04
# 添加镜像的作者和合作信息
LABEL com.uxhao.image.authors="ahaoao"
LABEL com.uxhao.image.cooperation="VX:SystemUA"
# 设置时区、前端模式和路径环境变量
ENV TZ=Asia/Shanghai \
DEBIAN_FRONTEND=noninteractive \
PATH=/opt/miniconda3/bin:$PATH
# 设置工作目录为/root
WORKDIR /root
# 备份现有的apt源列表并替换为清华大学的源,加速软件包的下载
RUN cp /etc/apt/sources.list /etc/apt/sources.list.back && \
rm -rf /etc/apt/sources.list && \
echo "deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ noble main restricted universe multiverse \n\
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ noble-updates main restricted universe multiverse \n\
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ noble-backports main restricted universe multiverse \n\
deb http://security.ubuntu.com/ubuntu/ noble-security main restricted universe multiverse \n" >> /etc/apt/sources.list
# 更新包列表
RUN apt-get update
# 升级已安装的包
RUN apt-get upgrade -y
# 安装并配置SSH服务
RUN DEBIAN_FRONTEND=noninteractive apt-get install -y ssh && \
mkdir /var/run/sshd && \
echo 'root:root' | chpasswd && \
sed -i 's/^#PermitRootLogin.*/PermitRootLogin yes/' /etc/ssh/sshd_config && \
sed -i 's/UsePAM yes/#UsePAM yes/g' /etc/ssh/sshd_config
# 安装并配置时区数据
RUN apt install -y tzdata && \
ln -fs /usr/share/zoneinfo/${TZ} /etc/localtime && \
echo ${TZ} > /etc/timezone && \
dpkg-reconfigure --frontend noninteractive tzdata
# 安装常用工具vim、git和net-tools
RUN apt-get install -y vim && \
apt-get install -y git && \
apt-get install -y net-tools
# 配置SSH启动脚本,并添加到bashrc中
RUN echo "service ssh start >>/root/start_ssh.log" >> ~/start_ssh.sh && \
chmod 777 ~/start_ssh.sh && \
echo "# <<< ssh <<< \nif [ -f /root/start_ssh.sh ]; then \n /root/start_ssh.sh \nfi \n# <<< ssh <<<" >> ~/.bashrc
# 配置TensorBoard启动脚本,并添加到bashrc中
RUN echo '#! /bin/bash\na=$(netstat -anp |grep 6006) \nif [ -z "$a" ] \nthen \nsource /opt/miniconda3/etc/profile.d/conda.sh \nconda activate cv \nnohup python /opt/miniconda3/envs/cv/lib/python3.10/site-packages/tensorboard/main.py --logdir /gemini/logs --bind_all > /root/start_tensorboard.log 2>&1 & \nfi' >> ./start_tensorboard.sh && \
chmod 777 ~/start_tensorboard.sh && \
echo "# <<< tensorboard <<< \nif [ -f /root/start_tensorboard.sh ]; then \n /root/start_tensorboard.sh \nfi \n# <<< tensorboard <<<" >> ~/.bashrc
# 下载并安装Miniconda
RUN wget -O /opt/Miniconda3-py310_24.3.0-0-Linux-x86_64.sh "https://mirrors.bfsu.edu.cn/anaconda/miniconda/Miniconda3-py310_24.3.0-0-Linux-x86_64.sh" && \
chmod +x /opt/Miniconda3-py310_24.3.0-0-Linux-x86_64.sh && \
sh -c '/bin/echo -e "\nyes\n\nyes" | sh /opt/Miniconda3-py310_24.3.0-0-Linux-x86_64.sh -b -p /opt/miniconda3'
# 设置Miniconda的路径
ENV PATH=/opt/miniconda3/bin:$PATH
# 配置conda的源和其他设置
RUN conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ && \
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ && \
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ && \
conda config --set show_channel_urls yes && \
conda config --set auto_activate_base no && \
conda config --set ssl_verify false
# 创建名为cv的conda环境,Python版本为3.10.13
RUN conda create --name cv python=3.10.13
# 使用bash作为默认shell,并激活conda环境
SHELL ["/bin/bash","--login", "-c"]
RUN export PATH=/opt/miniconda3/bin:$PATH && \
conda update --name base conda && \
conda init bash && \
source activate && \
conda activate cv && \
conda install -y --quiet numpy pyyaml mkl mkl-include setuptools cmake cffi typing && \
conda install -y --quiet -c mingfeima mkldnn && \
python -m pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple && \
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple && \
pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 -f https://mirrors.aliyun.com/pytorch-wheels/cu118 && \
pip install pydantic pandas pillow matplotlib comet_ml openpyxl opencv-python torchmetrics lightning scikit-learn scikit-image albumentations segmentation-models-pytorch tensorboard easydict packaging timm einops yarl typing_extensions
# 安装ffmpeg和其他依赖库
RUN apt-get install -y ffmpeg libsm6 libxext6
# 创建目录结构
RUN mkdir /gemini && \
mkdir /gemini/code && \
mkdir /gemini/output
# 清理不必要的文件
RUN apt-get clean && \
rm -rf /var/lib/apt/lists/* /tmp/* /var/tmp/*
# 暴露端口
EXPOSE 22
EXPOSE 6006
EXPOSE 8888
# 设置默认命令为bash
CMD ["bash"]
参考视频
搭建深度学习docker容器
2023完整版:深度学习环境在Docker上搭建(基于Linux和WSL)
Docker部署深度学习模型
从硬件到软件零起步搭建深度学习环境 | 配置深度学习环境: Docker + Conda + Pytorch + SSH + VS Code
Ubuntu系统卸载Miniconda3
如果安装时没有做特别的设置,那么Miniconda3将会安装在/opt/anaconda3/目录下。如果不在这个目录可以试着用find名称查找
cd /
sudo find / -name anaconda3
找到安装目录后,将其全部删除
rm -rf anaconda3
# 如果之前安装目录为miniconda3目录
rm -rf miniconda3
然后打开~/.bashrc文件:
vim ~/.bashrc
将下面内容删除或者注释
Miniconda卸载完成!
Ubuntu系统安装Miniconda3
官网教程:https://docs.anaconda.com/miniconda/#quick-command-line-install
# 创建一个名为miniconda3的目录在/data目录下
mkdir -p /data/miniconda3
# 从Anaconda的官网上(镜像地址)下载最新版本的Miniconda安装脚本,并将其保存到刚才创建的目录中,命名为miniconda.sh
wget https://mirrors.bfsu.edu.cn/anaconda/miniconda/Miniconda3-py310_24.3.0-0-Linux-x86_64.sh -O /data/miniconda3/miniconda.sh
# 以非交互模式安装Miniconda,-b选项表示静默安装,-u选项表示更新已存在的安装,-p选项指定安装路径为刚才创建的/data/miniconda3目录
bash /data/miniconda3/miniconda.sh -b -u -p /data/miniconda3
# 删除安装脚本,安装完成后不再需要该脚本
rm /data/miniconda3/miniconda.sh
添加环境变量
1.打开 ~/.bashrc 文件
vim ~/.bashrc
2.在文件末尾添加以下行:
# 添加Miniconda到PATH环境变量中
export PATH=/data/miniconda3/bin:$PATH
3.更新文件
source ~/.bashrc
4.验证conda是否正常可用
conda --version
conda设置清华镜像源
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --set show_channel_urls yes
conda config --set auto_activate_base no
conda config --set ssl_verify false
查看设置结果
# 完整配置
conda config --show
# 镜像通道配置
conda config --show channels
pip设置清华镜像源
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
查看设置结果
pip config list
接下来就可以正常使用conda啦!
conda create -n yolov8 python==3.10
conda activate yolov8
# 如果报错: CondaError: Run 'conda init' before 'conda activate'
# 如果执行conda init 后依然显示上面报错
# 解决方案如下:
conda init
source ~/.bashrc
连接pycharm
ubuntu系统的conda Executeable在哪个路径?