Google colab中如何从kaggle中接入数据?

写在前面

使用google colab进行数据分析和探索时,可引用的数据源包括但不限于:1.可上传的数据文件用本地加载的的方式打开数据资源;2.从网络链接中直接打开后加载到缓存中的文件资源;3.通过API或者外部的开放接口加载数据;

今天要介绍的就是第三种,我试图教会你如何从colab中直接从kaggle加载数据集。理论上这种方法适用于所有的云端jupyter笔记本。实施过程中如果遇到预期之外的问题,欢迎留言交流讨论。

本文涉及到两大平台内容,所以我默认你已经拥有了,并且使用过了一段时间的google账号和kaggle账号。首先介绍一下google的colab,相比于其他国内外平台,它对于免费账号也分配足够可用的GPU和TPU资源。而且升级到pro版本后,更可以借助copilot的AI补全代码功能,减少开发压力。

Google Colab 是一项托管 Jupyter Notebook 服务,无需设置即可使用,并提供对计算资源(包括 GPU 和 TPU)的免费访问。 Colab 特别适合机器学习、数据科学和教育。

对于在云端笔记本中使用kaggle数据,完全可以通过先将kaggle数据下载至本地,再将数据上传到服务器的方式解决。但本文旨在摆脱这种冗长的处理办法,试图一步到位,而对于无法实现本教程中操作办法的同学们,还是建议一切以能用为主,简化流程乃是第二位的。

kaggle 部分

  • 点击你的头像,选择Settings
  • 下拉至 API,创建一个用于google colab使用的token,点击create new Token后,会自动开始下载一个kaggle.json的配置文件,这是你的Kaggle API密钥文件,记住它的存储位置,稍后我们会用到。

在这里插入图片描述

Google Colab部分

1.将kaggle.json文件上传至Google Drive

你新建的jupyter笔记本也会默认保存在Drive的某个位置,与其他的google应用一起共享Drive的免费空间。将kaggle.json文件通过 “上传” 功能传至Google Drive,记住它的位置,之后要用。

如果是其他的在线jupyter内容,请上传至对应云端服务器上存储jupyter笔记本位置的同一文件夹内。(其实不用放到一起,只是为了便于你方便找到和操作)

上传完毕之后,在jupyter执行如下命令,查看对应的存储位置,如果当前的位置和你的jupyter位置不对应,那么就在下面给你预留的代码里改一下路径:

import os

# 当前工作目录
print("当前工作目录:", os.getcwd())

# 改变工作目录到新的文件夹
os.chdir("/content/drive/MyDrive/Colab Notebooks")		## 这里替换成kaggle.json存储的所在目录

# 现在的工作目录
print("新的工作目录:", os.getcwd())

当前工作目录: /content/drive/My Drive
新的工作目录: /content/drive/MyDrive/Colab Notebooks

确保输出结果正确即可。

2.打通Google Colab与Google Drive之间的连接(其他平台请略过这一步)

Google Drive即谷歌云盘,是谷歌生态下的公共存储空间。它本身支持多种格式文件的存储,以各种格式存储的文件,又能以不同的Google云端应用在线打开并执行操作。Colab作为.ipynb格式文件的编辑器,只要在colab中打通与Google Drive的连接,就能直接访问其中的内容。

操作很简单,只需要点击这个图标,就能够允许这个jupyter笔记本关联drive,受限于网络和网盘内的文件数量,反应时长存在差异,所以只需要参考最终图标的状态是图中这个样子,就是关联成功的状态了。

打通Google Colab与Google Drive之间的连接

然后,加载云盘存储,使用以下代码挂载Google Drive:

# 挂载Google Drive: 如果文件确实存在于Google Drive中,
# 确保正确挂载了Google Drive到Colab。使用以下代码挂载Google Drive:
from google.colab import drive
drive.mount('/content/drive')

3.获取colab对kaggle.json的访问权限

‘/content/drive/MyDrive/Colab Notebooks/kaggle.json’ 是你kaggle.json存储的位置。还记得我建议你尽可能和jupyter笔记本放在一起吗?只需要把相同的路径填入就可以。而且也不需要在执行下方的复制操作。

如果放在了其他位置也不要紧,执行以下的全部代码,会复制一份kaggle.json到你当前的工作目录里,这个工作目录是你第一步设置的位置。

# 复制文件到正确的位置: 复制 kaggle.json 文件到了
# 使用以下代码检查文件是否成功复制到了正确的位置:
import shutil
shutil.copy("/content/drive/MyDrive/Colab Notebooks/kaggle.json", "/kaggle.json")

# 获取对kaggle文件的访问权限
permissions = oct(os.stat("/root/.kaggle/kaggle.json").st_mode)[-3:]

print("文件权限:", permissions)

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount(“/content/drive”, force_remount=True).
文件权限: 600

当访问权限返回代码码值为600时,表示结果正常。已经获得了权限。

PS:如果此处报错提示路径类的错误,比如没找到.kaggle文件夹,

mkdir ~/.kaggle

新建一个就好了!
如果你是在colab里操作的,因为本身是jupyter,所以执行这些批处理命令时,要在前面加一个叹号,

!mkdir ~/.kaggle

搞定。

4.从Kaggle下载数据集到Drive内

这段代码来自于kaggle的dataset界面,我这里举个例子,如果想要获取这个数据集,那么就可以在这里点击‘copy API command’,他的内容是:

kaggle datasets download -d openfoodfacts/world-food-facts

在这里插入图片描述

随后在jupyter内执行以下代码

# 下载原始数据到本地云盘内
! kaggle datasets download -d openfoodfacts/world-food-facts  -p /content/sample_data

对参数的解释,

-d openfoodfacts/world-food-facts 表示数据集名称:world-food-facts 创建人名称:openfoodfacts
-p /content/sample_data 指定数据集文件下载到Google Drive的对应位置

5.如果下载的是压缩包格式…

import zipfile
# 切换到存储文件对应的文件夹
os.chdir("/content/sample_data")

# 要解压的文件名
zip_file = "world-food-facts.zip"

# 新建的文件夹名称
extract_folder = "world-food-facts"

# 创建新的文件夹
os.makedirs(extract_folder, exist_ok=True)

# 解压文件到新建的文件夹中
with zipfile.ZipFile(zip_file, 'r') as zip_ref:
    zip_ref.extractall(extract_folder)

print("文件已解压到:", os.path.abspath(extract_folder))

# 重新切换回工作环境内
os.chdir("/content/drive/MyDrive/Colab Notebooks")

准备完毕

ok。开始你的表演吧,接下来的操作你应该就全会了,

import pandas as pd
food = pd.read_csv('/content/sample_data/world-food-facts/en.openfoodfacts.org.products.tsv', sep='\t')

<ipython-input-40-3044500f6262>:2: DtypeWarning: Columns (0,3,5,19,20,24,25,26,27,28,36,37,38,39,48) have mixed types. Specify dtype option on import or set low_memory=False.
food = pd.read_csv(‘/content/sample_data/world-food-facts/en.openfoodfacts.org.products.tsv’, sep=‘\t’)

food.head()

在这里插入图片描述
是不是熟悉的感觉。开始操作吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/476148.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

人生亏钱指南pdf分享【谨防上当】【警钟长鸣】不知道动了多少人蛋糕,看到后赶快收藏起来

查理芒格&#xff1a;如果知道我会死在哪里&#xff0c;那我将永远不去那个地方 书中分别投资篇、知识付费篇、合伙合作篇、实体项目篇、欺诈篇、借贷篇、健康篇等方向详细解释可能亏钱的坑&#xff01; 书中说到&#xff1a; 成年人的世界&#xff0c;踩坑已是日常&#xff0…

java框架 2 springboot 过滤器 拦截器 异常处理 事务管理 AOP

Filter 过滤器 对所有请求都可以过滤。 实现Filter接口&#xff0c;重写几个方法&#xff0c;加上WebFilter注解&#xff0c;表示拦截哪些路由&#xff0c;如上是所有请求都会拦截。 然后还需要在入口处加上SvlterComponentScan注解&#xff0c;因为Filter是javaweb三大组件之…

计算机二级C语言的注意事项及相应真题-6-程序设计

目录 51.将a所指数组主对角线上的元素分别乘以2;次对角线上的元素分别乘以3&#xff0c;依次放入指针p所指的数组中。计算过程中不得修改a所指数组中的数据52.将a、b中的两个两位正整数合并形成一个新的整数放在c中。合并的方式是:将a中的十位和个位数依次放在变量c的十位和千位…

面试算法-62-盛最多水的容器

题目 给定一个长度为 n 的整数数组 height 。有 n 条垂线&#xff0c;第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线&#xff0c;使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 说明&#xff1a;你不能倾斜容器。…

Java------数据结构之栈与队列(简单讲解)

本篇碎碎念&#xff1a;时隔n个月&#xff0c;继续写博客&#xff0c;假期落下的进度&#xff0c;在开学后努力追赶&#xff0c;假期不努力&#xff0c;开学徒伤悲啊&#xff0c;此时此刻真想对自己说一句&#xff0c;活该啊~~~~ 欠下的链表练习题讲解会在下次更新~~~~ 今日份励…

基于Springboot的在线投稿系统+数据库+免费远程调试

项目介绍: Javaee项目&#xff0c;springboot项目。采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三层体系结构&#xff0c;通过Spring SpringBoot Mybatis VueMavenLayui来实现。MySQL数据库作为系统数据储存平台&a…

第十二届蓝桥杯省赛CC++ 研究生组-砝码称重

solution1&#xff08;通过10%&#xff09; 写了几种可能的组合方式&#xff0c;骗到一丢丢分数 #include<iostream> #include<algorithm> #include<map> using namespace std; int main(){int n, a[110], count 0, sum[110] {0};map<int, int> mp…

Windows系统部署GoLand结合内网穿透实现SSH远程Linux服务器开发调试

&#x1f308;个人主页: Aileen_0v0 &#x1f525;热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法|MySQL| ​&#x1f4ab;个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-HIOuHATnug3qMHzx {font-family:"trebuchet ms",verdana,arial,sans-serif;f…

PTA L2-041 插松枝 代码附注释

人造松枝加工场的工人需要将各种尺寸的塑料松针插到松枝干上&#xff0c;做成大大小小的松枝。他们的工作流程&#xff08;并不&#xff09;是这样的&#xff1a; 每人手边有一只小盒子&#xff0c;初始状态为空。每人面前有用不完的松枝干和一个推送器&#xff0c;每次推送一…

本地项目文件夹创建python文件并配置conda环境的完整流程

1 在Pycharm中创建新项目 位置就是本地的项目文件夹 2 接着打开pycharm的终端 创建conda环境&#xff08;这个过程需要保证conda.exe能够被系统路径识别&#xff09; conda create --name my_environment&#xff08;my_environment取自己想要的环境名字&#xff09; 还可以指…

(附源码)基于Spring Boot + Vue的校园综合信息服务平台设计与实现

前言 &#x1f497;博主介绍&#xff1a;✌专注于Java、小程序技术领域和毕业项目实战✌&#x1f497; &#x1f447;&#x1f3fb; 精彩专栏 推荐订阅&#x1f447;&#x1f3fb; 2024年Java精品实战案例《100套》 &#x1f345;文末获取源码联系&#x1f345; &#x1f31…

1.2 编译型语言和解释型语言的区别

编译型语言和解释型语言的区别 通过高级语言编写的源码&#xff0c;我们能够轻松理解&#xff0c;但对于计算机来说&#xff0c;它只认识二进制指令&#xff0c;源码就是天书&#xff0c;根本无法识别。源码要想执行&#xff0c;必须先转换成二进制指令。 所谓二进制指令&…

2024年上半年PETS5考试提醒/北语考前培训班(线上)招

PEST5考试每年进行两次&#xff0c;上半年和下半年各一次。目前尚未公布2024年的报考计划&#xff0c;但可以参考2023年度信息&#xff0c;上半年报名时间&#xff1a;4月11日-4月13日&#xff1b;考试时间&#xff1a;5月20日-5月21日。知识人网小编提醒拟申报者关注报考日期&…

聚焦两会:数字化再加速,VR全景助力制造业转型

近年来&#xff0c;随着信息技术、人工智能、VR虚拟现实等新兴技术的不断涌现&#xff0c;数字化正日益成为推动当今经济发展的新驱动力。在不久前的两会上&#xff0c;数字化经济和创新技术再度成为热门话题&#xff1a; 国务院总理李强作政府工作报告&#xff1a; 要深入推…

2024.3.21 QT

思维导图 自由发挥登录窗口的应用场景&#xff0c;实现一个登录窗口界面。&#xff08;不要使用课堂上的图片和代码&#xff0c;自己发挥&#xff0c;有利于后面项目的完成&#xff09; 要求&#xff1a; 1. 需要使用Ui界面文件进行界面设计 2. ui界面上的组件相关设置&…

如何设计一个安全的API接口详解

前言 在日常开发中&#xff0c;总会接触到各种接口。前后端数据传输接口&#xff0c;第三方业务平台接口。一个平台的前后端数据传输接口一般都会在内网环境下通信&#xff0c;而且会使用安全框架&#xff0c;所以安全性可以得到很好的保护。这篇文章重点讨论一下提供给第三方…

【ai技术】(3):树莓派4,成功安装ollama软件,内存4G,推荐使用命令行界面安装,使用raspi-config配置wifi,运行速度飞快

1&#xff0c;关于raspberrypi 4 项目 https://www.bilibili.com/video/BV1K2421P71h/ 【ai技术】&#xff08;3&#xff09;&#xff1a;树莓派4&#xff0c;成功安装ollama软件&#xff0c;内存4G&#xff0c;安装命令行版本&#xff0c;使用raspi-config配置wifi&#xff0…

MO尺度(大气边界层)

在大气表面层( atmospheric surface layer)中,MO参数是用来决定流动是中性或者非中性的一个重要参数。其定义是 z / L z/L z/L&#xff0c;其中 L L L为Obukhov长度&#xff0c;其含义是浮力产生的湍动能和剪切产生的湍动能之比(Hj h AIP 2023)(Monin IAS,1954)&#xff0c;具体…

C++初始化列表

本博客将讲述C初始化列表的相关内容 一.什么是初始化列表 图中红方框框的就是初始化列表 格式为&#xff1a; &#xff1a;成员变量1&#xff08;参数1&#xff09;&#xff0c;成员变量2&#xff08;参数2&#xff09; 编译器会将初始化列表一一转换成代码&#xff0c;并将…

G - Find a way

题目分析 1.双重bfs,遍历两个起点求最短路再计算总和即可 2.唯一的坑点在于对于一个KFC&#xff0c;两人中可能有一个到不了&#xff0c;所以还要对到不了的点距离做处理 #include <bits/stdc.h> using namespace std; using ll long long; const int N 220;struct pos…