【语音识别】从入门到精通——最全干货大合集!

简介:

入门学习

语音识别研究的四大前沿方

https://blog.csdn.net/haima1998/article/details/79094341

深度学习入门论文(语音识别领域)

https://blog.csdn.net/youyuyixiu/article/details/53764218

论语音识别三大关键技术

https://blog.csdn.net/qq_34231800/article/details/80189617

深度学习与语音识别—常用声学模型简介

https://blog.csdn.net/dujiajiyi_xue5211314/article/details/53943313

有趣的开源软件:语音识别工具Kaldi

https://blog.csdn.net/AMDS123/article/details/70313780

神经网络-CNN结构和语音识别应用

https://blog.csdn.net/xmdxcsj/article/details/54695995

语音识别概述

https://blog.csdn.net/shichaog/article/details/72528637

端到端语音识别

https://blog.csdn.net/xmdxcsj/article/details/70300546

Attention在语音识别中的应用

https://blog.csdn.net/quheDiegooo/article/details/76842201

语音合成技术

https://blog.csdn.net/wja8a45TJ1Xa/article/details/78599509?locationNum=8&fps=1

深度学习于语音合成研究综述

https://blog.csdn.net/weixin_37598106/article/details/81513816

端到端的TTS深度学习模型tacotron(中文语音合成)

https://blog.csdn.net/yunnangf/article/details/79585089

TACOTRON:端到端的语音合成

https://blog.csdn.net/Left_Think/article/details/74905928

声纹识别技术简介

https://www.cnblogs.com/wuxian11/p/6498699.html

声纹识别技术的现状、局限与趋势

https://blog.csdn.net/jojozhangju/article/details/78637221 

声纹识别

https://www.jianshu.com/p/513dadeef1fd

Deep speaker介绍

https://blog.csdn.net/Lauyeed/article/details/79936632

论文

语音识别 DNN

Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition(2012), George E. Dahl et al.

https://ieeexplore.ieee.org/document/5740583/?part=1

Deep Neural Networks for Acoustic Modeling in Speech Recognition(2012), Geoffrey Hinton et al.

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6296526

语音识别 CNN

Applying Convolutional Neural Networks concepts to hybrid NN-HMM model for speech recognition(2012), Ossama Abdel-Hamid et al.

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6288864

Deep convolutional neural networks for LVCSR(2013), Tara N. Sainath et al.

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6639347

Analysis of CNN-based speech recognition system using raw speech as input(2015), Dimitri Palaz et al.

https://infoscience.epfl.ch/record/210029/files/Palaz_INTERSPEECH_2015.pdf

Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition(2016), Yanmin Qian et al.

https://pdfs.semanticscholar.org/8043/cbfed66c98d2255ea79254de620837478099.pdf

Very deep multilingual convolutional neural networks for LVCSR(2016), Tom Sercu et al.

https://arxiv.org/pdf/1509.08967.pdf

Advances in Very Deep Convolutional Neural Networks for LVCSR(2016), Tom Sercu et al.

https://arxiv.org/pdf/1604.01792.pdf

Deep Convolutional Neural Networks with Layer-Wise Context Expansion and Attention(2016), Dong Yu et al.

https://pdfs.semanticscholar.org/716e/60cbbdacf01b3148e91a555358a96308b770.pdf?_ga=2.38333155.198966451.1540996486-1278087525.1535180761

语音识别 LSTM

Long short-term memory recurrent neural network architectures for large scale acoustic modeling(2014), Hasim Sak et al.

https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/43905.pdf

Deep LSTM for Large Vocabulary Continuous Speech Recognition(2017), Xu Tian et al.

https://arxiv.org/pdf/1703.07090.pdf

English Conversational Telephone Speech Recognition by Humans and Machines(2017), George Saon et al.

https://arxiv.org/pdf/1703.02136.pdf

语音识别 CTC

Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks(2006), Alex Graves et al.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.75.6306&rep=rep1&type=pdf

Towards End-to-End Speech Recognition with Recurrent Neural Networks(2014), Alex Graves et al.

http://proceedings.mlr.press/v32/graves14.pdf

First-Pass Large Vocabulary Continuous Speech Recognition using Bi-Directional Recurrent DNNs(2014), Andrew L. Maas et al.

https://arxiv.org/pdf/1408.2873.pdf

Deep Speech: Scaling up end-to-end speech recognition(2014), Awni Y. Hannun et al.

https://arxiv.org/pdf/1412.5567.pdf

Online Sequence Training of Recurrent Neural Networks with Connectionist Temporal Classification(2015), Kyuyeon Hwang et al.

https://arxiv.org/pdf/1511.06841.pdf

Fast and Accurate Recurrent Neural Network Acoustic Models for Speech Recognition(2015), Hasim Sak et al.

https://arxiv.org/pdf/1507.06947.pdf

Joint CTC-Attention based End-to-End Speech Recognition using Multi-task Learning(2016), Suyoun Kim et al.

https://arxiv.org/pdf/1609.06773.pdf

Deep Speech 2: End-to-End Speech Recognition in English and Mandarin(2016), Dario Amodei et al.

http://proceedings.mlr.press/v48/amodei16.pdf

Wav2Letter: an End-to-End ConvNet-based Speech Recognition System(2016), Ronan Collobert et al.

https://arxiv.org/pdf/1609.03193.pdf

Multi-task Learning with CTC and Segmental CRF for Speech Recognition(2017), Liang Lu et al.

https://arxiv.org/pdf/1702.06378.pdf

Residual Convolutional CTC Networks for Automatic Speech Recognition(2017), Yisen Wang et al.`

https://arxiv.org/pdf/1702.07793.pdf

语音识别 Sequence Transduction

Sequence Transduction with Recurrent Neural Networks(2012), Alex Graves et al.

https://arxiv.org/pdf/1211.3711.pdf

语音识别 attention

End-to-end Continuous Speech Recognition using Attention-based Recurrent NN: First Results(2014), Jan Chorowski et al.

https://arxiv.org/pdf/1412.1602.pdf

Attention-Based Models for Speech Recognition(2015), Jan Chorowski et al.

https://arxiv.org/pdf/1506.07503.pdf

End-to-end attention-based large vocabulary speech recognition(2016), Dzmitry Bahdanau et al.

https://arxiv.org/pdf/1508.04395.pdf

Listen, attend and spell: A neural network for large vocabulary conversational speech recognition(2016), William Chan et al.

https://arxiv.org/pdf/1508.01211.pdf

End-to-end attention-based distant speech recognition with Highway LSTM(2016), Hassan Taherian.

https://arxiv.org/pdf/1610.05361.pdf

Direct Acoustics-to-Word Models for English Conversational Speech Recognition(2017), Kartik Audhkhasi et al.

https://arxiv.org/pdf/1703.07754.pdf

语音识别 多通道

Multichannel Signal Processing With Deep Neural Networks for Automatic Speech Recognition(2017), Tara N. Sainath et al.

http://www.ee.columbia.edu/~ronw/pubs/taslp2017-multichannel.pdf

Multichannel End-to-end Speech Recognition(2017), Tsubasa Ochiai et al.

https://arxiv.org/pdf/1703.04783.pdf

语音合成 SampleRNN

SampleRNN: An Unconditional End-to-End Neural Audio Generation Model(2016), Soroush Mehri et al.

https://arxiv.org/pdf/1612.07837.pdf

语音合成 WaveNet

WaveNet: A Generative Model for Raw Audio(2016), Aäron van den Oord et al.

https://arxiv.org/pdf/1609.03499.pdf

语音合成 Deep Voice

Deep Voice: Real-time Neural Text-to-Speech(2017), Sercan O. Arik et al.

https://arxiv.org/pdf/1702.07825.pdf

语音合成 Deep Voice 2

Deep Voice 2: Multi-Speaker Neural Text-to-Speech(2017), Sercan Arik et al.

https://arxiv.org/pdf/1705.08947.pdf

语音合成 Tacotron

Tacotron: Towards End-to-End Speech Synthesis(2017), Yuxuan Wang et al.

https://pdfs.semanticscholar.org/f258/f0d3260e7fbdd961993086aaafa2afc714c9.pdf

语音合成 Tacotron 2

Natural tts synthesis by conditioning wavenet on mel spectrogram predictions(2018), Jonathan Shen et al.

https://sigport.org/sites/default/files/docs/ICASSP%202018%20-%20Tacotron%202.pdf

语音合成 Voiceloop

Voiceloop: Voice Fitting and Synthesis via a Phonological Loop(2018), Yaniv Taigman et al.

https://arxiv.org/pdf/1707.06588.pdf

声纹识别 x-vector 使用TDNN提取语音的embedding

Deep Neural Network Embeddings for Text-Independent Speaker Verification(2017), David Snyder et al.

http://danielpovey.com/files/2017_interspeech_embeddings.pdf

百度 端到端声纹识别 Triplet Loss

Deep Speaker: an End-to-End Neural Speaker Embedding System(2017), Chao Li et al.

https://arxiv.org/pdf/1705.02304.pdf

声纹识别 3D卷积网络

Text-independent speaker verification using 3d convolutional neural networks(2018), Amirsina Torfi et al.

https://arxiv.org/pdf/1705.09422.pdf

声纹识别 端到端 GE2E

Generalized End-to-End Loss for Speaker Verfication(2018) Wan L et al.

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8462665

代码

kaldi

使用广泛的语音工具包

https://github.com/kaldi-asr/kaldi

A TensorFlow implementation of Baidu's DeepSpeech architecture

语音识别 Baidu DeepSpeech TensorFlow实现

https://github.com/mozilla/DeepSpeech

Speech-to-Text-WaveNet : End-to-end sentence level English speech recognition based on DeepMind's WaveNet and tensorflow

语音识别 DeepMind's WaveNet TensorFlow实现

https://github.com/buriburisuri/speech-to-text-wavenet

End-to-end automatic speech recognition system implemented in TensorFlow.

端到端语音识别 TensorFlow实现

https://github.com/zzw922cn/Automatic_Speech_Recognition

A PyTorch Implementation of End-to-End Models for Speech-to-Text

端到端语音识别 PyTorch实现

https://github.com/awni/speech

A PaddlePaddle implementation of DeepSpeech2 architecture for ASR.

语音识别 DeepSpeech2 PaddlePaddle实现

https://github.com/PaddlePaddle/DeepSpeech

A TensorFlow Implementation of Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model

语音合成 Tacotron TensorFlow实现

https://github.com/Kyubyong/tacotron

Tacotron 2 - PyTorch implementation with faster-than-realtime inference

语音合成 Tacotron2 PyTorch实现

https://github.com/NVIDIA/tacotron2

Deep neural networks for voice conversion (voice style transfer) in Tensorflow

语音合成 Deep-voice TensorFlow实现

https://github.com/andabi/deep-voice-conversion

A method to generate speech across multiple speakers

语音合成 facebook PyTorch实现

https://github.com/facebookresearch/loop

Speaker embedding(verification and recognition) using Pytorch

声纹识别 PyTorch实现

https://github.com/qqueing/DeepSpeaker-pytorch

Deep Learning & 3D Convolutional Neural Networks for Speaker Verification

声纹识别 3D卷积 TensorFlow实现

https://github.com/astofi/3D-convolutional-speaker-recognition

产品应用

百度语音官网

http://yuyin.baidu.com/

腾讯AI开放平台

https://ai.qq.com/product/aaiasr.shtml

讯飞开放平台

https://xfyun.cn/services/voicedictation

必应语音

https://azure.microsoft.com/zh-cn/services/cognitive-services/speech/


原文发布时间为:2018-11-5
本文作者:刘斌
本文来自云栖社区合作伙伴“ 专知”,了解相关信息可以关注“ 专知”。
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4月前
|
存储 语音技术 Python
语音识别,函数综合案例,黑马ATM,/t/t一个对不齐,用两个/t,数据容器入门,数据容器可以分为列表(list)、元组(tuple)、字符串(str)、集合(set)、字典(dict)
语音识别,函数综合案例,黑马ATM,/t/t一个对不齐,用两个/t,数据容器入门,数据容器可以分为列表(list)、元组(tuple)、字符串(str)、集合(set)、字典(dict)
|
人工智能 编解码 API
C# 10分钟完成百度语音技术(语音识别与合成)——入门篇
C# 10分钟完成百度语音技术(语音识别与合成)——入门篇
|
6月前
|
机器学习/深度学习 自然语言处理 算法
基于深度学习的语音识别技术应用与发展
在当今数字化时代,语音识别技术已经成为人机交互领域的重要组成部分。本文将介绍基于深度学习的语音识别技术在智能助手、智能家居和医疗健康等领域的应用与发展,同时探讨该技术在未来的潜在应用和发展方向。
198 4
|
4月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12226 116
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
6天前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
21 0
|
7天前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
15 0
|
3月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
3月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
87 4
|
4月前
|
人工智能 API 语音技术
PHP对接百度语音识别技术
PHP对接百度语音识别技术
94 1

热门文章

最新文章

  • 1
    在人工智能和机器学习的领域中,语音识别(Speech Recognition,SR)是一个重要的研究方向。它旨在将人类的语音转换为计算机可读的文本。
    103
  • 2
    Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战
    116
  • 3
    深度学习在语音识别中的进展
    55
  • 4
    语音识别------ffmpeg的使用01,ffmpeg的安装,会做PPT很好,ffmpeg不具备直接使用,只可以操作解码数据,ffmpeg用C语言写的,得学C语言,ffmpeg的安装
    62
  • 5
    语音识别-----列表的常用操作课后练习讲解,用变量追加,取出第一个,取出最后一个,下标位置,列表的循环遍历,下标+1的写法,len下标可以小于这个值,while循环对index循环的遍历
    37
  • 6
    语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
    211
  • 7
    语音识别,列表的定义语法,列表[],列表的下标索引,从列表中取出来特定的数据,name[0]就是索引,反向索引,头部是-1,my[1][1],嵌套列表使用, 列表常用操作, 函数一样,需引入
    39
  • 8
    语音识别,函数综合案例,黑马ATM,/t/t一个对不齐,用两个/t,数据容器入门,数据容器可以分为列表(list)、元组(tuple)、字符串(str)、集合(set)、字典(dict)
    38
  • 9
    语音识别----函数基础定义联系案例,函数的参数,函数的参数练习案例,函数的返回值定义语法,函数返回值之None,函数的说明文档,函数的嵌套调用,变量在函数中的作用域,内部变量变全局变量用global
    42
  • 10
    语音识别,continue和break的使用,循环综合案例,完成发工资案例,函数的初体验,len()是内置好的函数,def 函数名 def xxx(),函数的定义 def xxx() ,调用函数
    33