昇思25天学习打卡营第3天|数据集Dataset

一、简介：

数据是深度学习的基础，高质量的数据输入将在整个深度神经网络中起到积极作用。有一种说法是模型最终训练的结果，10%受到算法影响，剩下的90%都是由训练的数据质量决定。（doge）

MindSpore提供基于Pipeline的数据引擎，通过数据集（Dataset）和数据变换（Transforms）实现高效的数据预处理。其中Dataset是Pipeline的起始，用于加载原始数据。MindSpore自带的mindspore.dataset方法提供了内置的文本、图像、音频等数据集加载接口，并提供了自定义数据集加载接口。此外MindSpore的领域开发库也提供了大量的预加载数据集，可以使用API一键下载使用。

下面开始我们的实践打卡吧！

二、环境准备：

在开始之前我们先导入下面数据集处理所需的相关依赖包：

import numpy as np
import time
from mindspore.dataset import vision
from mindspore.dataset import MnistDataset, GeneratorDataset
import matplotlib.pyplot as plt

如果没有下载Mindspore包的宝子，可以看我的昇思25天学习打卡营第1天|快速入门-CSDN博客，按照我的过程走一遍（和pytorch的下载几乎一样）。

三、数据集准备：

1、数据集下载：

使用download方法从开源数据集上下载mnist数据集，并保存在本地的notebook/datasets/目录下

from download import download

url = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/" \
      "notebook/datasets/MNIST_Data.zip"
path = download(url, "./", kind="zip", replace=True)

print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())), "VertexGeek")

2、数据集迭代：

数据集加载后，一般以迭代方式获取数据，然后送入神经网络中进行训练。我们可以使用create_tuple_iterator（元组）和create_dict_iterator（字典）接口创建数据迭代器，迭代访问数据。访问的数据类型默认为Tensor；若设置output_numpy=Ture，访问的数据类型为Numpy。

# 使用matplotlib构建一个可视化的画布
def visualize(dataset):
    figure = plt.figure(figsize=(4, 4))
    cols, rows = 3, 3

    plt.subplots_adjust(wspace=0.5, hspace=0.5)

    for idx, (image, label) in enumerate(dataset.create_tuple_iterator()):
        figure.add_subplot(rows, cols, idx + 1)
        plt.title(int(label))
        plt.axis("off")
        plt.imshow(image.asnumpy().squeeze(), cmap="gray")
        if idx == cols * rows - 1:
            break
    plt.show()

visualize(train_dataset)
print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())), "VertexGeek")

figure = plt.figure(figsize=(4, 4))： 这行创建了一个新的图形对象 figure，并设置了图形的大小为 4x4 英寸。

cols, rows = 3, 3 ：这行设置了图形中的列数和行数为 3，这意味着函数将显示一个 3x3 的图像网格。

plt.subplots_adjust(wspace=0.5, hspace=0.5)： 这行设置了子图之间的水平和垂直间距分别为0.5。

plt.axis("off")：这行关闭了子图的坐标轴，以便只显示图像。plt.imshow(image.asnumpy().squeeze(), cmap="gray")：这行将图像数据 image 显示在子图上。asnumpy() 可能是一个方法，用于将图像数据转换为 NumPy 数组，以便 Matplotlib 可以处理它。squeeze() 用于移除数组中的单一维度。cmap="gray" 指定了使用灰度颜色映射来显示图像。

3、常用操作：

对数据集进行处理，以适应深度学习模型的训练和测试要求：

（1）Shuffle:

shuffle用于打乱数据集中的元素排列，以消除数据排列造成的分布不均问题。

mindspore.dataset()提供了在加载数据集中shuffle数据的快捷方法：

train_dataset = train_dataset.shuffle(buffer_size=64)

visualize(train_dataset)

print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())), "VertexGeek")

（2）Map：

map是数据处理的关键操作之一，可以针对数据集指定的列（当然也可以不指定）进行数据变换，并将数据变换应用于该列数据的每个元素，并返回包含变换后元素的新数据集。

image, label = next(train_dataset.create_tuple_iterator())
print(image.shape, image.dtype)

# 对Mnist数据集做数据缩放处理，将图像统一除以255，数据类型由uint8转为了float32
train_dataset = train_dataset.map(vision.Rescale(1.0 / 255.0, 0), input_columns='image')

image, label = next(train_dataset.create_tuple_iterator())
print(image.shape, image.dtype)

print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())), "VertexGeek")

（3) Batch:

这是在算力有限的情况下，将数据集进行划分成数个批次，每次只训练一个批次，以节约硬件资源和提升硬件使用效率。

train_dataset = train_dataset.batch(batch_size=32)

image, label = next(train_dataset.create_tuple_iterator())
print(image.shape, image.dtype)

print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())), "VertexGeek")

四、自定义数据集：

mindspore.dataset()提供了一些常用的公开数据集和标准数据集的加载API，MindSpore暂时不支持直接加载数据集，可以构造自定义数据加载类或自定义数据集生成函数的方式来生成数据集，然后通过GeneratorDataset接口实现自定义方式的数据集加载(比pytorch略显复杂)。GeneratorDataset支持通过可随机访问数据集对象、可迭代数据集对象和生成器(generator)构造自定义数据集。

1、可随机访问数据集：

可随机访问数据集是指实现了__getitem__和__len__方法的数据集，即可以通过索引/键直接访问对应位置的数据样本。

# 生成一个可随机访问数据集以便下面的实践：
class RandomAccessDataset:
    def __init__(self):
        self._data = np.ones((5, 2))
        self._label = np.zeros((5, 1))

    def __getitem__(self, index):
        return self._data[index], self._label[index]

    def __len__(self):
        return len(self._data)

loader = RandomAccessDataset()
dataset = GeneratorDataset(source=loader, column_names=["data", "label"])

for data in dataset:
    print(data)
# 支持其他类型的数据
loader = [np.array(0), np.array(1), np.array(2)]
dataset = GeneratorDataset(source=loader, column_names=["data"])

for data in dataset:
    print(data)

print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())), "VertexGeek")

__getitem__ 方法使得类的实例可以被索引。当对象被当作函数调用，并且传入一个索引 index 时，这个方法返回对应索引的数据和标签。在机器学习中，这通常用于获取单个数据样本及其对应的标签。

__len__方法用于返回数据的长度。

2、可迭代数据集对象：

可迭代的数据集是实现了__iter__和__next__方法的数据集，表示可以通过迭代的方式逐步获取数据样本。这种类型的数据集特别适用于随机访问成本太高或者不可行的情况。

class IterableDataset():
    def __init__(self, start, end):
        '''init the class object to hold the data'''
        self.start = start
        self.end = end
    def __next__(self):
        '''iter one data and return'''
        return next(self.data)
    def __iter__(self):
        '''reset the iter'''
        self.data = iter(range(self.start, self.end))
        return self
loader = IterableDataset(1, 4)
dataset = GeneratorDataset(source=loader, column_names=["data"])

for data in dataset:
    print(data)

print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())), "VertexGeek")

3、生成器：

生成器也属于可迭代的数据集类型，其直接依赖Python的生成器类型generator返回数据，直至生成器抛出StopIteration异常。

def my_generator(start, end):
    for i in range(start, end):
        yield i

dataset = GeneratorDataset(source=lambda: my_generator(3, 6), column_names=["data"])

for d in dataset:
    print(d)


print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())), "VertexGeek")