如何用3D-CNN确认说话人身份?这里有Code+Paper

简介:
本文来自AI新媒体量子位(QbitAI)

说话人确认(Speaker Verification)是一种以语言特性确认说话人身份的技术。

近日,西弗吉尼亚大学的博士生Amirsina Torfi在Github上发布了用3D卷积神经网络(后简称3D-CNN)确认说话人身份的代码,并公布了研究论文。

Paper链接:

https://arxiv.org/abs/1705.09422

Code链接:

https://github.com/astorfi/3D-convolutional-speaker-recognition

概览

我们先利用3D卷积结构创造出说话人模型(Speaker model),它可以从说话人的表达中同时捕捉相关语音和时态信息。

说话人确认协议(SVP)

3D-CNN架构已经被利用在文本无关(Text-Independent)语句确认说话人的三个阶段:

1.在开发阶段,经过训练的CNN可以在表达层面将说话人分类。

2.在注册阶段,训练过的网络可以基于提取特征构建每个说话人的模型。

3.评估阶段中,从表达文本中提取的特征将会与存储的说话人模型做对比,最后验证说话人身份。

我们通常将上述提及的三个阶段视为SVP(Speaker Verification Protocol),构建说话人模型是目前的技术难点。之前的方法大多基于说话人的表达平均提取特征,也就是我们熟知的d-vector系统。

如何利用3D卷积神经网络

在本篇论文中,我们建议用3D-CNN直接创建开发和注册阶段的说话人模型,这两个阶段输入的是相同语句。这样网络就能够同时捕捉相关说话人信息,建立更强大的系统处理语音变化。这种方法明显优于d-vector验证系统。

代码实现

这个模型是在TensorFlow上实现的,输入管道(Input pipeline)需要由用户提供。其余部分的实现需要考虑包含了表达提取特征的数据集,它一般存储在HDF5的文件夹中。但这点也不是必须的,通过下面的代码,任何适应TensorFlow的文件格式都能实现。

 输入管道

MFCC(Mel频率倒谱系数)特征可以作为框架级语音表达的数据表示,但最后生成MFCC的DCT 1运算会导致这些特征成为非局部特征。这一操作扰乱了局部性,也与卷积操作中的局部特征形成了鲜明的对比。

在这里我们就用到了对数能量,我们也称它为MFEC。MFEC中提取的特征与丢弃DCT运算得到的特征相似,它们的时间特征是重叠的20ms窗口,跨度为10ms,这是为了生成频谱特征。

在一个0.8秒的声音样本中,可以从输入语音特征图中获得80个时间特征集合(每个都组成40个MFEC特征)。每张输入特征图的维度是ζ×80×40,它们由80个输入帧和相似的图谱特征组成,ζ代表在开发和注册阶段用到的语句数量。

3D卷积运算的实现

下面这段代码已经可以实现三维卷积运算,这些高级的slim API使我们实现起来非常简单。

我们可以看到这里用到了slim.conv2d代码块,[k_x, k_y, k_z] 和stride=[a, b, c]这样的3D内核可以将它转化为3D-conv操作。 tf.contrib.layers.conv2d是slim.conv2d的基础。

灵感来源

代码结构部分的灵感来源自Slim和Slim的图像分类库。

相关Code:

https://github.com/tensorflow/models/tree/master/slim

【完】

本文作者:安妮 
原文发布时间:2017-06-26
相关文章
|
8月前
|
机器学习/深度学习 存储 监控
数据分享|Python卷积神经网络CNN身份识别图像处理在疫情防控下口罩识别、人脸识别
数据分享|Python卷积神经网络CNN身份识别图像处理在疫情防控下口罩识别、人脸识别
|
机器学习/深度学习 数据可视化 算法
DL之CNN:卷积神经网络算法简介之原理简介——CNN网络的3D可视化(LeNet-5为例可视化)
DL之CNN:卷积神经网络算法简介之原理简介——CNN网络的3D可视化(LeNet-5为例可视化)
|
机器学习/深度学习 人工智能 编解码
训练速度远超3D CNN,提速3倍!Facebook首发「时空版」Transformer
Facebook AI推出了全新的视频理解架构TimeSformer,这也是第一个完全基于Transformer的视频架构。视频剪辑上限可达几分钟,远远超过当下最好的3D CNN,且成本更低。
235 0
训练速度远超3D CNN,提速3倍!Facebook首发「时空版」Transformer
|
机器学习/深度学习 人工智能 算法
把你手机里的照片秒变3D!Facebook训练了一个CNN端到端系统
Facebook研究人员,开发出一个卷积神经网络端到端系统,已经能实现几秒钟内,将任何设备上拍摄的2D图像转换成3D图像。
265 0
把你手机里的照片秒变3D!Facebook训练了一个CNN端到端系统
|
机器学习/深度学习 数据可视化 算法
DL之CNN:卷积神经网络算法简介之原理简介——CNN网络的3D可视化(LeNet-5为例可视化)
DL之CNN:卷积神经网络算法简介之原理简介——CNN网络的3D可视化(LeNet-5为例可视化)
DL之CNN:卷积神经网络算法简介之原理简介——CNN网络的3D可视化(LeNet-5为例可视化)
|
13天前
|
机器学习/深度学习 算法 计算机视觉
基于CNN卷积神经网络的金融数据预测matlab仿真,对比BP,RBF,LSTM
本项目基于MATLAB2022A,利用CNN卷积神经网络对金融数据进行预测,并与BP、RBF和LSTM网络对比。核心程序通过处理历史价格数据,训练并测试各模型,展示预测结果及误差分析。CNN通过卷积层捕捉局部特征,BP网络学习非线性映射,RBF网络进行局部逼近,LSTM解决长序列预测中的梯度问题。实验结果表明各模型在金融数据预测中的表现差异。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解深度学习中的卷积神经网络(CNN)##
在当今的人工智能领域,深度学习已成为推动技术革新的核心力量之一。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,因其在图像和视频处理方面的卓越性能而备受关注。本文旨在深入探讨CNN的基本原理、结构及其在实际应用中的表现,为读者提供一个全面了解CNN的窗口。 ##
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解深度学习中的卷积神经网络(CNN)
深入理解深度学习中的卷积神经网络(CNN)
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN): 从理论到实践
本文将深入浅出地介绍卷积神经网络(CNN)的工作原理,并带领读者通过一个简单的图像分类项目,实现从理论到代码的转变。我们将探索CNN如何识别和处理图像数据,并通过实例展示如何训练一个有效的CNN模型。无论你是深度学习领域的新手还是希望扩展你的技术栈,这篇文章都将为你提供宝贵的知识和技能。
399 7

热门文章

最新文章