Colab(Colaboratory)是一个基于云的交互式开发环境,专为数据科学、机器学习和人工智能任务设计。Colab 由 Google 提供,允许用户在浏览器中直接编写、运行、共享和协作处理 Python代码,特别是那些涉及大数据处理、计算密集型算法或使用 GPU/TPU 加速的代码。
Python环境 + 免费GPU
目录
- 一、Colab基本使用
- 1.1 准备工作
- 1.2 Jupyter创建
- 1.3 代码执行程序连接
- 1.4 代码运行
- 📣 注意事项
- 二、数据上传
- Kaggle API 进行下载(推荐)
一、Colab基本使用
1.1 准备工作
谷歌账户申请,主要是需要能接受短信的手机号码,具体的就不在这里展开了,当然申请谷歌账号之前,你还得先有能力访问谷歌(科学上网),这个我想网上教程很多…
1.2 Jupyter创建
按下图所示,即可新建笔记本。
1.3 代码执行程序连接
点击连接按钮即可连接到代码执行程序并分配实例空间,这时我们可以查看相应RAM和磁盘资源,或者更改运行时类型(选择GPU)
1.4 代码运行
Colab的默认文件路径是 /content
。Colab一般来说会搭配Google Drive使用,但其创建条件比较苛刻,很多小伙伴并不拥有,就比如我。如果有,那么就可以考虑挂载谷歌云盘。
from google.colab import drive
drive.mount('/content/gdrive')
并更换运行目录
import os
os.chdir("/content/gdrive/")
✅ 查看GPU信息
!nvidia-smi
Python依赖包安装
!pip install <package>
📣 注意事项
虽然Google Colab为用户提供免费的GPU,但资源的使用会受到限制。
以下几种情况会导致断开连接或者报错,那么实例空间(/content
目录下)内的所有资源都会被释放:
- 模型训练的过程中超过了内存或磁盘的限制
- 空闲状态过长(无互动操作或正在执行的代码块)
- 连接时长到达上限(免费用户最长连接12小时)
- 关闭浏览器
二、数据上传
如果想要使用 Colab 训练自己的数据集(非 Colab 自带数据集),那么先上传数据集到 Colab 平台。
Kaggle API 进行下载(推荐)
借助 Kaggle API 就可以实现数据集的高速下载
-
获取
API Token
成功Kaggle 后,点击头像->
Settings
->Account
->API
->Create New Token
,会生成一个kaggle.json
文件,包含 username 和 key 信息。
-
点击
Copy API command
-
下载数据集
import json token = {"username":"XXX","key":"XXXXXXXXXXXX"} with open('/content/kaggle.json', 'w') as file: json.dump(token, file)
!mkdir -p ~/.kaggle !cp /content/kaggle.json ~/.kaggle/ !chmod 600 ~/.kaggle/kaggle.json !kaggle config set -n path -v /content
!kaggle datasets download -d jiayuexu001/transportation0721