在Pytorch中构建流数据集

简介: 在Pytorch中构建流数据集

在处理监督机器学习任务时,最重要的东西是数据——而且是大量的数据。当面对少量数据时,特别是需要深度神经网络的任务时,该怎么办?如何创建一个快速高效的数据管道来生成更多的数据,从而在不花费数百美元在昂贵的云GPU单元上的情况下进行深度神经网络的训练?

这是我们在MAFAT雷达分类竞赛中遇到的一些问题。我的队友hezi hershkovitz为生成更多训练数据而进行的增强,以及我们首次尝试使用数据加载器在飞行中生成这些数据。

要解决的问题

我们在比赛中使用数据管道也遇到了一些问题,主要涉及速度和效率:

它没有利用Numpy和Pandas在Python中提供的快速矢量化操作的优势

每个批次所需的信息都首先编写并存储为字典,然后使用Python for循环在getitem方法中进行访问,从而导致迭代和处理速度缓慢。

从音轨生成“移位的”片段会导致每次检索新片段时都重新构建相同的音轨,这也会减缓管道的速度。

管道无法处理2D或3D输入,因为我们同时使用了scalograms和spectrograms但是无法处理。

如果我们简单地按照批处理的方式进行所有的移位和翻转,那么批处理中就会充斥着与其他示例过于相似的示例,从而使模型不能很好地泛化。

这些低效率的核心原因是,管道是以分段作为基本单元运行,而不是在音轨上运行。

数据格式概述

在制作我们的流数据之前,先再次介绍一下数据集,MAFAT数据由多普勒雷达信号的固定长度段组成,表示为128x32 I / Q矩阵;但是,在数据集中,有许多段属于同一磁道,即,雷达信号持续时间较长,一条磁道中有1到43个段。

640.png

上面的图像来自hezi hershkovitz 的文章,并显示了一个完整的跟踪训练数据集时,结合所有的片段。红色的矩形是包含在这条轨迹中的单独的部分。白点是“多普勒脉冲”,代表被跟踪物体的质心。

借助“多普勒脉冲”白点,我们可以很容易地看到,航迹是由相邻的段组成的,即段id 1942之后是1943,然后是1944,等等。

片段相邻的情况下允许我们使用移位来创建“新的”样本。

640.png

但是,由于每个音轨由不同数量的片段组成,因此从任何给定音轨生成的增补数目都会不同,这使我们无法使用常规的Pytorch Dataset 类。这里就需要依靠Pytorch中的IterableDataset 类从每个音轨生成数据流。

数据流管道设计

这三个对象的高级目标是创建一个_Segment对象流,它能够足够灵活地处理音轨和段,并且在代码中提供一致的语义:

class_Segment(Dict, ABC):
segment_id: Union[int, str]
output_array: np.ndarraydoppler_burst: np.ndarraytarget_type: np.ndarraysegment_count: int

为此,我们创建了:

一个配置类,它将为一个特定的实验保存所有必要的超参数和环境变量——这实际上只是一个具有预定义键的简单字典。

一个DataDict类,它处理原始片段的加载,验证每一条轨迹,创建子轨迹以防止数据泄漏,并将数据转换为正确的格式,例如2D或3D,并为扩展做好准备

StreamingDataset类,是Pytorch IterableDataset的子类,处理模型的扩充和流段。

config=Config(file_path=PATH_DATA,
num_tracks=3,
valratio=6,
get_shifts=True,
output_data_type='spectrogram',
get_horizontal_flip=True,
get_vertical_flip=True,
mother_wavelet='cgau1',
wavelet_scale=3,
batch_size=50,
tracks_in_memory=25,
include_doppler=True,
shift_segment=2)dataset=DataDict(config=config)
train_dataset=StreamingDataset(dataset.train_data, config, shuffle=True)
train_loader=DataLoader(train_dataset,batch_size=config['batch_size'])

DataDict实现

在DataDict中将片段处理为音轨,然后再处理为片段,为加速代码提供了很好的机会,特别是在数据验证、重新分割和轨创建都可以向量化的情况下。

我们使用了Numpy和Pandas中的一堆技巧和简洁的特性,大量使用了布尔矩阵来进行验证,并将scalogram/spectrogram 图转换应用到音轨中连接的片段上。代码太长,但你可以去最后的源代码地址中查看一下DataDict create_track_objects方法。

生成细分流

一旦将数据集转换为轨迹,下一个问题就是以更快的方式进行拆分和移动。在这里,Numpy提供了执行快速的,基于矩阵的操作和从一条轨迹快速生成一组新的片段所需的所有工具。

defsplit_Nd_array(array: np.ndarray, nsplits: int) ->List[np.ndarray]:
ifarray.ndim==1:
indices=range(0, len(array) -31, nsplits)
segments= [np.take(array, np.arange(i, i+32), axis=0).copy() foriinindices]
else:
indices=range(0, array.shape[1] -31, nsplits)
segments= [np.take(array, np.arange(i, i+32), axis=1).copy() foriinindices]
returnsegmentsdefcreate_new_segments_from_splits(segment: _Segment, nsplits: int) ->List[_Segment]:
new_segments= []
ifsegment['output_array'].shape[1] >32:
output_array=split_Nd_array(array=segment['output_array'], nsplits=nsplits)
bursts=split_Nd_array(array=segment['doppler_burst'], nsplits=nsplits)
new_segments.extend([_Segment(segment_id=f'{segment["segment_id"]}_{j}',
output_array=array,
doppler_burst=bursts[j],
target_type=segment['target_type'],
segment_count=1)
forj, arrayinenumerate(output_array)])
else:
new_segments.append(segment)
returnnew_segments

Pytorch IterableDataset

注:torch.utils.data.IterableDataset 是 PyTorch 1.2中新的数据集类

一旦音轨再次被分割成段,我们需要编写一个函数,每次增加一个音轨,并将新生成的段发送到流中,从流中从多个音轨生成成批的段。最后一点对于确保每个批的数据分布合理是至关重要的。

生成流数据集正是IterableDataset类的工作。它与Pytorch中的经典(Map)Dataset类的区别在于,对于IterableDataset,DataLoader调用next(iterable_Dataset),直到它构建了一个完整的批处理,而不是实现一个接收映射到数据集中某个项的索引的方法。

创建批次

在这个例子的基础上,我们创建了一个实现,它的核心进程是“process_tracks_shuffle”,以确保DataLoader提供的每个批处理都包含来自多个音轨的段的良好混合。我们通过设置tracks_in_memory超参数来实现这一点,该参数允许我们调整在生成新的流之前将处理多少条音轨并将其保存到工作内存中。

defsegments_generator(self, segment_list: _Segment) ->None:
"""Generates original and augmented segments from a track."""ifself.config.get('get_shifts'):
segment_list=create_new_segments_from_splits(segment_list, nsplits=self.config['shift_segment'])
else:
segment_list=create_new_segments_from_splits(segment_list, nsplits=32)
ifself.config.get('get_vertical_flip'):
flips=create_flipped_segments(segment_list, flip_type='vertical')
segment_list.extend(flips)
ifself.config.get('get_horizontal_flip'):
flips=create_flipped_segments(segment_list, flip_type='horizontal')
segment_list.extend(flips)
forsegmentinsegment_list:
ifself.config['output_data_type'] =='scalogram':
segment.assert_valid_scalogram()
else:
segment.assert_valid_spectrogram()
self.segment_blocks.extend(segment_list)
random.shuffle(self.segment_blocks)
defprocess_tracks_shuffle(self):
fori, trackinenumerate(self.data):
self.segments_generator(track)
ifi%self.config.get('tracks_in_memory', 100) ==self.config.get('tracks_in_memory', 100):
segment_blocks=self.segment_blocksself.segment_blocks= []
random.shuffle(segment_blocks)
yieldsegment_blockssegment_blocks=self.segment_blocksself.segment_blocks= []
random.shuffle(segment_blocks)
yieldsegment_blocksdefshuffle_stream(self):
returnchain(self.process_tracks_shuffle())
#deflinear_stream(self):
#returnchain(self.segments_generator(track) fortrackinself.data)
def__iter__(self):
forsegmentsinchain(self.shuffle_stream()):
yieldfromsegments

并行化

在进一步加速数据处理方面,我们没有利用通过在多个GPU并行化的处理来生成多个流。不过需要记住的一件事是,IterableDataset的并行化并不像标准Dataset类那样简单,因为仅仅用IterableDataset添加workers会导致每个worker获得数据的底层完整副本。

结论

在Pytorch中学习使用流数据是一次很好的学习经历,也是一次很好的编程挑战。这里通过改变我们对pytorch传统的dataset的组织的概念的理解,开启一种更有效地处理数据的方式。

众所周知,我们80%的时间都花在了数据清理和管道建立上。然而,我们不应将数据处理视为必须处理而又经常被忽略的工作,而去深入研究20%建模的“乐趣”。我们而应将管道和处理视为一个同样具有乐趣和关键性的工作。因为这是必要的,因为管道速度越快,运行的实验就越多,数据处理的越好,得到的结果就会越好。


目录
相关文章
|
2月前
|
并行计算 监控 搜索推荐
使用 PyTorch-BigGraph 构建和部署大规模图嵌入的完整教程
当处理大规模图数据时,复杂性难以避免。PyTorch-BigGraph (PBG) 是一款专为此设计的工具,能够高效处理数十亿节点和边的图数据。PBG通过多GPU或节点无缝扩展,利用高效的分区技术,生成准确的嵌入表示,适用于社交网络、推荐系统和知识图谱等领域。本文详细介绍PBG的设置、训练和优化方法,涵盖环境配置、数据准备、模型训练、性能优化和实际应用案例,帮助读者高效处理大规模图数据。
57 5
|
2月前
|
机器学习/深度学习 人工智能 PyTorch
使用Pytorch构建视觉语言模型(VLM)
视觉语言模型(Vision Language Model,VLM)正在改变计算机对视觉和文本信息的理解与交互方式。本文将介绍 VLM 的核心组件和实现细节,可以让你全面掌握这项前沿技术。我们的目标是理解并实现能够通过指令微调来执行有用任务的视觉语言模型。
55 2
|
7月前
|
机器学习/深度学习 人工智能 PyTorch
|
4月前
|
并行计算 PyTorch 算法框架/工具
基于CUDA12.1+CUDNN8.9+PYTORCH2.3.1,实现自定义数据集训练
文章介绍了如何在CUDA 12.1、CUDNN 8.9和PyTorch 2.3.1环境下实现自定义数据集的训练,包括环境配置、预览结果和核心步骤,以及遇到问题的解决方法和参考链接。
178 4
基于CUDA12.1+CUDNN8.9+PYTORCH2.3.1,实现自定义数据集训练
|
5月前
|
机器学习/深度学习 人工智能 PyTorch
【深度学习】使用PyTorch构建神经网络:深度学习实战指南
PyTorch是一个开源的Python机器学习库,特别专注于深度学习领域。它由Facebook的AI研究团队开发并维护,因其灵活的架构、动态计算图以及在科研和工业界的广泛支持而受到青睐。PyTorch提供了强大的GPU加速能力,使得在处理大规模数据集和复杂模型时效率极高。
217 59
|
7月前
|
机器学习/深度学习 算法 PyTorch
【从零开始学习深度学习】38. Pytorch实战案例:梯度下降、随机梯度下降、小批量随机梯度下降3种优化算法对比【含数据集与源码】
【从零开始学习深度学习】38. Pytorch实战案例:梯度下降、随机梯度下降、小批量随机梯度下降3种优化算法对比【含数据集与源码】
|
3月前
|
机器学习/深度学习 数据采集 自然语言处理
【NLP自然语言处理】基于PyTorch深度学习框架构建RNN经典案例:构建人名分类器
【NLP自然语言处理】基于PyTorch深度学习框架构建RNN经典案例:构建人名分类器
|
4月前
|
存储 缓存 PyTorch
使用PyTorch从零构建Llama 3
本文将详细指导如何从零开始构建完整的Llama 3模型架构,并在自定义数据集上执行训练和推理。
78 1
|
5月前
|
机器学习/深度学习 自然语言处理 PyTorch
PyTorch与Hugging Face Transformers:快速构建先进的NLP模型
【8月更文第27天】随着自然语言处理(NLP)技术的快速发展,深度学习模型已经成为了构建高质量NLP应用程序的关键。PyTorch 作为一种强大的深度学习框架,提供了灵活的 API 和高效的性能,非常适合于构建复杂的 NLP 模型。Hugging Face Transformers 库则是目前最流行的预训练模型库之一,它为 PyTorch 提供了大量的预训练模型和工具,极大地简化了模型训练和部署的过程。
274 2
|
5月前
|
机器学习/深度学习 数据采集 PyTorch
构建高效 PyTorch 模型:内存管理和优化技巧
【8月更文第27天】PyTorch 是一个强大的深度学习框架,被广泛用于构建复杂的神经网络模型。然而,在处理大规模数据集或使用高性能 GPU 进行训练时,有效的内存管理对于提升模型训练效率至关重要。本文将探讨如何在 PyTorch 中有效地管理内存,并提供一些优化技巧及代码示例。
335 1