1. 一般的加载方式
from datasets import load_dataset
dataset_dict = load_dataset('cmrc2018')
这种加载方式可能会显示因为连接问题导致失败,此时可以在hugging face里面找到对应的页面下载下来
然后改一下代码:
from datasets import load_dataset
dataset_dict = load_dataset('cmrc2018.py')
2. 使用google colab下载
加载失败的大多数情况是跟连接相关的,这个问题使用google colab就可以解决。
一个简单粗暴的解决方法是将整个代码上传到google colab中,然后在里面运行加载数据的代码,就可以直接拿到想要的数据了。然后将这个数据下载到本地放入文件夹中就可以用于训练模型了。
google colab支持直接在网页上运行,点击下图中的图标将代码库上穿之后就可以直接执行代码了。
举个例子:
比如hugging face上的这个项目:https://huggingface.co/moka-ai/m3e-base,其中想要获取相关的数据集并做初步处理的话就要先将代码库:https://github.com/wangyuxinwhy/uniem 下载到本地,并上传至google colab上面,创建输出文件夹之后运行:
!python scripts/process_zh_datasets.py output
即可得到用于训练模型的数据集
3. 如何将google colab上面的文件下载到本地
先将要下载的文件夹压缩成.zip格式的压缩文件
!zip -r folder_name.zip folder_name
其中,folder_name是你要下载的文件夹的名称。运行完这个命令后,压缩文件会保存在当前工作目录下。
然后在Colab左侧的文件导航栏中,找到你刚才压缩的.zip文件,右键点击它并选择“下载”。
hugging face 官方文档——datasets、optimizer
入门教程 | 使用 Colab,玩转谷歌深度学习全家桶