Deep learning From Image to Sequence

简介:

本文笔记旨在概括地讲deep learning的经典应用。内容太大,分三块。

---------------------------------------------------------------------------------------------

                                                     Content


1. 回想 deep learning在图像上的经典应用 

    1.1 Autoencoder

    1.2 MLP

    1.3 CNN<具体的见上一篇CNN>

2. deep learning处理语音等时序信号

    2.1 对什么时序信号解决什么问题

    2.2 准备知识

        2.2.1 Hidden Markov Model(HMM)

        2.2.2 GMM-HMM for Speech Recognition

        2.2.3 Restricted Boltzmann Machine(RBM)

3.  DBN 和 RNN 在语音上的应用 

    3.1 DBN

        3.1.1 DBN架构

        3.1.2 DBN-DNN for Speech Recognition

    3.2 RNN

        3.2.1 RNN种类

        3.2.2 RNN-RBM for Sequential signal Prediction


---------------------------------------------------------------------------------------------


1. 回想 deep learning处理图像等非时序信号 <具体的见上一篇CNN>

----------------------------------------------

1.1 AutoEncoder(unsupervised)


扩展:Stack AutoEncoder(能够变成supervised),见Andrew Ng的UFLDL教程。我就不贴图了



----------------------------------------------

1.2 MLP

MLP(ANN)是最naive的神网分类器。一个hidden层,连两端nonlinear function,output输出为f(x),softmax做分类。



----------------------------------------------

1.3 Convolutional Neural Network

特点:1. 非全连接,2、共享权重

做法:1. 卷积 2. 降採样(pooling)

具体见上一篇CNN









---------------------------------------------------------------------------------------------

2. deep learning处理语音等时序信号

2.1 对什么时序信号解决什么问题:

handwriting recognition
speech recognition
music composition
protein analysis
stock market prediction
...



2.2 准备知识:

----------------------------------------------

       2.2.1 Hidden Markov Model(HMM) - 带unobserved(这就是所谓hidden)states的随机过程。表示输入语音信号和hidden state(因素)的模型:


<figure from wiki>

训练HMM模型:给定一个时序y1...yT, 用MLE(typically EM implemented,具体见这篇第三部分training) 预计參数;



----------------------------------------------

            2.2.2 GMM-HMM for Speech Recognition (较大。单独放在一篇blog里了)


----------------------------------------------

            2.2.3 Restricted Boltzmann Machine


           讲RBM之前要先讲一下生成模型……<How to build a single layer of feature detector>

           大体分为两类——directed model & undirected model:

             1.directed model (e.g. GMM 从离散分布求latent状态)

                    依据先验分布选择latent variable的状态

                    给定latent states,依据条件分布求observable variables的状态

             2.undirected model

                    仅仅用參数W,通过能量函数定义v(visible)和h(hidden latent variables)的联合概率



             依据”explaining away”,假设latent和visible变量有着非线性关系。directed model非常难判断出latent variable的状态;但在undirected model中,仅仅要latent变量间没有变项链就能够轻松判断。

PS: explaining away是什么?

state的先验相互独立,后验也相互独立,



以下再讲RBM。


           RBM 是马尔科夫随机场(MRF)的一种。不同之处:

           1. RBM是一个双向连接图(bipartite connectivity graph)

           2. RBM在不同unit之间不共享权重

           3. 有一部分变量是unobserved


RBM对能量函数E(v,h)的定义:






RBM的參数构成:W(weight), bias_h, bias_v

已知联合分布P(v,h) 。 可通过Gibbs採样边缘分布分别得到h,v,依据Gradient of NLL进行梯度下降学习到參数。

RBM的训练目标是:最大化p(v=visible)。

visible=真实的visible数据)

RBM实际训练过程中,对每一个training_batch:

       contrastive divergence 採样k次(gibbs CD-k)

       依据cost function进行update : , 即 cost = T.mean(self.free_energy(self.input)) - T.mean(self.free_energy(chain_end))




上面讲的RBM都是v,h = 0/1的。那怎么处理real-value的呢?

ANS:用Gaussian-Bernoulli RBM (GRBM)。

对上面经典RBM修改不大。仅仅须要改energy function & conditional prob:










3.  DBN 和 RNN 在语音上的应用 

3.1 DBN

        3.1.1 DBN架构



流程:

1. pre-train

从左到右来看,因为输入为real-value,所以第一层为GRBM,训练W1

GRBM训练出来的hidden给下一个RBM做input,训练W2

这个RBM训练出来的hidden再传给下一个RBM做input。训练W3

……(反复)


2. 能够直接把这几层pre-train好的W叠起来,双向weight箭头全改成top-down的。成了一个DBN生成模型


3. 加分类器

能够最后在这个pre-trained网络头部加一个softmax分类器,当中每一个节点表示HMM中一个状态,去做有监督的fine-tuning.。





        3.1.2 DBN-DNN for Speech Recognition

假设你细致看过上一篇GMM-HMM for Speech Recognition就会发现,这个模型和GMM-HMM仅仅差在GMM

即。DNN-HMM用DNN(undirected model)取代了GMM(directed model),这种优点是能够解决h,v之间非线性关系映射。


Fig1. GMM-HMM


Fig2. DNN-HMM



    3.2 RNN

        3.2.1 RNN种类

常见的:

1.Fully Recurrent Network

2.Hopfield Network

3.Elman Network (Simple Recurrent networks)

4.Long short term memory network


fig. LSTM



        3.2.2 RNN-RBM for Sequential signal Prediction

见一个RNN样例,RNNRBM(RNN-RBM for music composition 网络架构及程序解读








Reference: 

为了大家看的方便,我推荐从简了。

抄了太多图,不贴出处了大牛们见谅。。不然一堆推荐无从下手滴样纸

Deep Learning 在语音上的应用DNN经典文章:

1. Hinton, Li Deng, Dong Yu大作:Deep Neural Networks for Acoustic Modeling in Speech Recognition

2. Andrew Ng, NIPS 09, Unsupervised feature learning for audio classification using convolutional deep belief networks


Deep Learning 在语音上的应用RNN经典文章:

1. Bengio ICML 2012. RNN+RBM paper有实现 (下一篇细讲)

2. Schmidhuber JMLR 2002 paper讲LSTM经典

3. The Use of Recurrent Neural Networks in Continuous Speech Recognition, 老文章讲RNN比較基础,可是确实经典









本文转自mfrbuaa博客园博客,原文链接:http://www.cnblogs.com/mfrbuaa/p/5093116.html,如需转载请自行联系原作者

相关文章
|
10月前
|
前端开发 测试技术 数据库
DDD架构中assembler和converter的区别
在 DDD 四层架构模式中,assembler 和 converter 常用于对象转换,但两者在实际项目中的使用较为随意。本文从英文释义、语义区分和模型层区分三个方面探讨了两者的区别,建议按模型层区分,即 Interface 和 Application 层使用 assembler,Infrastructure 层使用 converter,以避免混淆和随意使用。此外,将转换代码抽离为独立方法有助于保持代码整洁和可测试性。
|
10月前
|
安全 网络协议 应用服务中间件
内网ip申请SSL证书实现https访问
内网IP地址虽不能直接申请公网SSL证书,但可通过IP SSL证书保障数据安全。流程包括:确定固定内网IP,选择支持内网IP的CA,注册申请证书,生成CSR,验证IP所有权,下载部署证书至Web服务器,测试HTTPS访问,确保配置正确及证书有效。此方法适用于内网环境,提升数据传输安全性。
内网ip申请SSL证书实现https访问
|
存储 调度 开发者
探索操作系统的心脏:内核设计与实现
【8月更文挑战第31天】在数字世界的每一次跳动中,操作系统的内核扮演着至关重要的角色。本文将带你深入了解内核的设计哲学、主要组件以及它是如何在幕后支撑起整个系统的运作。通过一个简单的示例,我们将揭示如何从零开始构建一个基本内核,让你对操作系统的核心有一个直观的认识。准备好,我们将一起揭开操作系统最神秘面纱下的秘密。
|
SQL 大数据 HIVE
Hive - distinct && group by 求 UV,PV 实战
给定数据表中包含用户 uid 和用户是否点击广告的标签 label,经常有需求统计用户的下发,打开 UV,PV,下面通过 Hive 实现统计并分析 distinct 与 group by 的性能与使用场景。
437 0
Hive - distinct && group by 求 UV,PV 实战
|
机器学习/深度学习
论文笔记之:Progressive Neural Network Google DeepMind
Progressive Neural Network  Google DeepMind     摘要:学习去解决任务的复杂序列 --- 结合 transfer (迁移),并且避免 catastrophic forgetting (灾难性遗忘) --- 对于达到 human-level intelligence 仍然是一个关键性的难题。
|
5天前
|
人工智能 运维 安全
|
3天前
|
人工智能 异构计算
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
B站开源IndexTTS2,用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推动零样本语音合成在实际场景中的落地能力,B站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
491 14