PyTorch 之 DataLoader

2024-04-19 06:14•HTML/CSS•阅读 1961

DataLoader

DataLoader 是 PyTorch 中读取数据的一个重要接口，该接口定义在 dataloader.py 文件中，该接口的目的：将自定义的 Dataset 根据 batch size 的大小、是否 shuffle 等封装成一个 batch size 大小的 Tensor，用于后面的训练。

通过 DataLoader，使得我们在准备 mini-batch 时可以多线程并行处理，这样可以加快准备数据的速度。

DataLoader 是一个高效、简洁、直观地网络输入数据结构，便于使用和扩展
DataLoader 本质是一个可迭代对象，使用 iter() 访问，不能使用 next() 访问
使用 iter(dataloader) 返回的是一个迭代器，然后使用 next() 访问
也可以使用 for features, targets in dataloaders 进行可迭代对象的访问
一般我们实现一个 datasets 对象，传入到 DataLoader 中，然后内部使用 yield 返回每一次 batch 的数据

DataLoader(object) 的部分参数：

# 传入的数据集
dataset(Dataset)

# 每个 batch 有多少个样本
batch_size(int, optional)

# 在每个 epoch 开始的时候，对数据进行重新排序
shuffle(bool, optional)

# 自定义从数据集中抽取样本的策略，如果指定这个参数，那么 shuffle 必须为 False
sampler(Sampler, optional)

# 与 sampler 类似，但是一次只返回一个 batch 的 indices（索引），如果指定这个参数，那么 batch_size, shuffle, sampler, drop_last 就不能再指定了
batch_sampler(Sampler, optional)

# 这个参数决定有多少进程处理数据加载，0 意味着所有数据都会被加载到主进程，默认为0
num_workers(int, optional)

# 如果设置为 True，则最后不足batch_size大小的数据会被丢弃，比如batch_size=64, 而一个epoch只有100个样本，则最后36个会被丢弃；如果设置为False，则最后的batch_size会小一点
drop_last(bool, optional)

Reference:
pytorch之dataloader深入剖析

上一篇 »pytorch函数之torch.normal，
下一篇 »Pytorch iter问题