使用 PyTorch 进行音频信号处理的数据操作和转换-阿里云开发者社区

使用 PyTorch 进行音频信号处理的数据操作和转换

2023-11-27 129

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 使用 PyTorch 进行音频信号处理的数据操作和转换

torchaudio：PyTorch 的音频库

torchaudio 的目标是将PyTorch应用到音频领域。通过支持 PyTorch，torchaudio 遵循相同的理念，即提供强大的 GPU 加速，通过 autograd 系统专注于可训练的特征，并具有一致的风格（张量名称和维度名称）。因此，它主要是一个机器学习库，而不是一个通用的信号处理库。PyTorch 的好处可以在 torchaudio 中看到，因为所有计算都通过 PyTorch 操作进行，这使得它易于使用并且感觉像是一个自然的扩展。

支持音频 I/O（加载文件、保存文件）

使用 SoX 将以下格式加载到 Torch Tensor 中

mp3、wav、aac、ogg、flac、avr、cdda、cvs/vms、
aiff, au, amr, mp2, mp4, ac3, avi, wmv,
mpeg、ircam 和 libsox 支持的任何其他格式。
Kaldi (方舟/SCP)

常见音频数据集的数据加载器（VCTK，YesNo）
常见的音频转换

频谱图、AmplitudeToDB、MelScale、MelSpectrogram、MFCC、MuLawEncoding、MuLawDecoding、重采样

合规性接口：使用 PyTorch 运行与其他库一致的代码

Kaldi：频谱图、fbank、mfcc、resample_waveform

依赖关系

PyTorch（兼容版本见下文）
libsox v14.3.2 或更高版本（仅在从源代码构建时需要）
[可选] vesis84/kaldi-io-for-python commit cb46cb1f44318a5d04d4941cf39084c5b021241e 或以上

以下是对应的torchaudio版本和支持的Python版本。

安装

二元分布

要使用 anaconda 安装最新版本，请运行：

conda install -c pytorch torchaudio

要安装最新的 pip 轮子，请运行：

pip install torchaudio -f https://download.pytorch.org/whl/torch_stable.html

（如果您还没有安装 Torch，这将默认从 PyPI 安装 Torch。如果您需要不同的 Torch 配置，请在运行此命令之前预安装 Torch。）

Nightly 构建

请注意，每晚构建是在 PyTorch 的每晚构建基础上构建的。因此，当您使用每晚构建的 torchaudio 时，您需要安装最新的 PyTorch。

pip

pip install numpy
pip install --pre torchaudio -f https://download.pytorch.org/whl/nightly/torch_nightly.html

conda

conda install -y -c pytorch-nightly torchaudio

从 Source

如果您的系统配置不在上述支持的配置中，您可以从源代码构建 torchaudio。

这将需要 libsox v14.3.2 或更高版本。

如何安装 SoX 的示例

OSX（自制软件）：

brew install sox

Linux（Ubuntu）：

sudo apt-get install sox libsox-dev libsox-fmt-all

Python

conda install -c conda-forge sox

# Linux
python setup.py install
# OSX 
MACOSX_DEPLOYMENT_TARGET=10.9 CC=clang CXX=clang++ python setup.py install

或者，构建过程可以静态构建 libsox 和一些可选的编解码器，并且 torchaudio 可以通过设置环境变量来链接它们BUILD_SOX=1。构建过程将在构建扩展之前获取并构建 libmad、lame、flac、vorbis、opus 和 libsox。此过程需要cmake和pkg-config。

# Linux 
BUILD_SOX=1 python setup.py install # OSX 
BUILD_SOX=1 MACOSX_DEPLOYMENT_TARGET=10.9 CC=clang CXX=clang++ python setup.py install

众所周知，这适用于 linux 和 unix 发行版，例如 Ubuntu 和 CentOS 7 以及 macOS。如果您在新系统上尝试此操作并找到使其工作的解决方案，请随时通过打开问题来共享它。

故障排除

检查构建系统类型... ./config.guess: 无法猜测系统类型

由于编解码器的配置文件较旧，因此无法正确检测新环境，例如 Jetson Aarch。需要用最新的或替换该config.guess文件。./third_party/tmp/lame-3.99.5/config.guess``./third_party/tmp/libmad-0.15.1b/config.guess：github.com/gcc-mirror/…

另见：#658

使用“BUILD_SOX”时对“tgetnum”的未定义引用

如果在 anaconda 环境中构建时遇到类似以下的错误：

../bin/ld: console.c:(.text+0xc1): undefined reference to `tgetnum'

安装ncurses从conda-forge运行前python setup.py install：

# 从 conda-forge 安装 ncurses
conda install -c conda-forge ncurses

快速使用

import torchaudio
waveform, sample_rate = torchaudio.load('foo.wav')  # load tensor from file
torchaudio.save('foo_save.wav', waveform, sample_rate)  # save tensor to file

后端调度

默认情况下，在 OSX 和 Linux 中，torchaudio 使用 SoX 作为后端来加载和保存文件。可以使用以下命令将后端更改为SoundFile。有关安装说明，请参阅SoundFile。

import torchaudio
torchaudio.set_audio_backend("soundfile")  # 切换后台
waveform, sample_rate = torchaudio.load('foo.wav')  # 像通常一样从文件加载张量
torchaudio.save('foo_save.wav', waveform, sample_rate)  # 像往常一样将张量保存到文件中

与 SoX 不同，SoundFile 目前不支持 mp3。

API 参考

API 参考位于此处：pytorch.org/audio/

公约

由于 torchaudio 是一个机器学习库，并且构建在 PyTorch 之上，torchaudio 围绕以下命名约定进行了标准化。假定张量将“通道”作为第一个维度，将时间作为最后一个维度（如果适用）。这使其与 PyTorch 的尺寸一致。对于大小名称，使用前缀n_（例如“大小为 ( n_freq, n_mel)的张量”），而维度名称没有此前缀（例如“维度（通道，时间）的张量”）

waveform：具有维度（通道、时间）的音频样本张量
sample_rate：音频维度的速率（每秒采样数）
specgram：具有维度（通道、频率、时间）的频谱图张量
mel_specgram：具有维度（通道、mel、时间）的mel谱图
hop_length：连续帧开始之间的样本数
n_fft：傅立叶箱的数量
n_mel, n_mfcc: mel 和 MFCC bin 的数量
n_freq：线性频谱图中的 bin 数量
min_freq：频谱图中最低频段的最低频率
max_freq：频谱图中最高频段的最高频率
win_length: STFT 窗口的长度
window_fn: 对于创建窗口的函数，例如 torch.hann_window

转换期望并返回以下维度。

Spectrogram：（频道，时间）->（频道，频率，时间）
AmplitudeToDB：（频道，频率，时间）->（频道，频率，时间）
MelScale: (频道, 频率, 时间) -> (频道, mel, 时间)
MelSpectrogram：（频道，时间）->（频道，mel，时间）
MFCC：（频道，时间）->（频道，mfcc，时间）
MuLawEncode：（频道，时间）->（频道，时间）
MuLawDecode：（频道，时间）->（频道，时间）
Resample：（频道，时间）->（频道，时间）
Fade：（频道，时间）->（频道，时间）
Vol：（频道，时间）->（频道，时间）

复数经由（...，2）尺寸的张量支撑，并且提供torchaudiocomplex_norm和angle这样的张量转换成它的幅度和相位。在这里，在文档中，我们使用省略号“...”作为张量其余维度的占位符，例如可选的批处理和通道维度。

贡献指南

请参考CONTRIBUTING.md

数据集免责声明

这是一个下载和准备公共数据集的实用程序库。我们不托管或分发这些数据集，不保证其质量或公平性，也不声称您拥有使用该数据集的许可。您有责任确定您是否有权根据数据集的许可使用数据集。

如果您是数据集所有者并希望更新其中的任何部分（描述、引文等），或者不希望您的数据集包含在此库中，请通过 GitHub 问题与我们联系。感谢您对 ML 社区的贡献！

使用 PyTorch 进行音频信号处理的数据操作和转换

依赖关系

安装

二元分布

Nightly 构建

从 Source

如何安装 SoX 的示例

故障排除

快速使用

后端调度

API 参考

公约

贡献指南

数据集免责声明

GitHub

热门文章

最新文章

相关电子书

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

使用 PyTorch 进行音频信号处理的数据操作和转换

依赖关系

安装

二元分布

Nightly 构建

从 Source

如何安装 SoX 的示例

故障排除

快速使用

后端调度

API 参考

公约

贡献指南

数据集免责声明

GitHub

热门文章

最新文章

相关电子书

推荐镜像