开放下载!8篇入选顶级语音领域会议的阿里论文抢先看

简介: Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为8篇论文合辑,欢迎大家下载观看。

2019年,国际语音交流协会INTERSPEECH第20届年会将于9月15日至19日在奥地利格拉茨举行。Interspeech是世界上规模最大,最全面的顶级语音领域会议,近2000名一线业界和学界人士将会参与包括主题演讲,Tutorial,论文讲解和主会展览等活动,本次阿里论文有8篇入选,本文为8篇论文合辑,欢迎大家下载观看。


1.Multi-Task Multi-Network Joint-Learning of Deep Residual Networks and Cycle-Consistency Generative Adversarial Networks for Robust Speech Recognition

论文导读:采用先进的循环一致性对抗性生成网络(CycleGAN)来解决由于常规对抗性生成网络模式崩溃导致的训练失败问题,结合最近流行的深度残差网络(ResNets),进一步将多任务学习方案扩展为多任务多网络联合学习方案,以实现更强大的降噪功能和模型自适应训练功能。

点击下载论文

2.Fast Learning for Non-Parallel Many-to-Many Voice Conversion with Residual Star Generative Adversarial Networks

论文导读:基于对抗生成网络(GAN)的StarGAN被引入到语音转换的问题中,利用其多对多的域映射性能和无需并行数据的训练性能,仅使用语音特征和域信息作为输入,获得了较成功的多对多不同说话者之间的语音转换实验结果。本文在上述StarGAN-VC方法的基础上,通过添加残差训练机制,提出了一种快速学习训练框架,我们的方法称为Res-StarGAN- VC,其主要思想是基于转换过程中的源语音特征和目标语音特征之间的语言内容共享,通过添加输入到输出的快捷连接方式(shortcut connections)来实现残差映射。

点击下载论文

3.Towards A Fault-Tolerant Speaker Verification System: A Regularization Approach To Reduce The Condition Number

论文导读:利用Co-Training的思想,同时训练两个说话人空间,当两个说话人空间相对独立时,在说话人空间A中呈现高置信度的数据样本,当投影到说话人空间B中时,其分布会呈一定随机性。因此,这些样本对说话人空间B的训练更有帮助。反之亦然。两个说话人空间的在训练过程中的相互监督,可减少误标数据带来的影响,从而达到降低condition number的目的。

点击下载论文

4.Autoencoder-based Semi-Supervised Curriculum Learning For Out-of-domain Speaker Verification

论文导读:本文提出了一种基于Denoising Autoencoder的跨信道声纹识别无监督训练框架。当声纹识别模型的训练数据与测试数据存在信道差异时,识别性能会出现明显下降。而获得同信道的精标数据通常较为昂贵。因此,需要我们能够有效利用线上积累的同信道未标注数据,用无监督的方式训练模型。

点击下载论文

5.Constrained Output Embeddings for End-to-End Code-Switching Speech Recognition with Only Monolingual Data

论文导读:在这项工作中,我们的目标是仅仅应用两种单一语言语音数据,在没有任何的CS语音和文本数据的条件下来实现端到端的CS语音识别(E2E-CS-ASR),这种目标设置对于许多低资源的CS语音识别尤其重要。

点击下载论文

6.Investigation of Transformer based Spelling Correction Model for CTC-based End-to-End Mandarin Speech Recognition

论文导读:目前CTC声学模型通过联合N-gram语言模型进行解码。从而导致很多同音替换错误依旧没法解码。针对这个问题我们提出了一个基于Transformer的后处理纠错模型,可以有效的纠正大量识别的替换错误。在一个2万小时中文数据库上的实验表明,通过引入纠错模型,我们可以获得3.41%的字错误率,相比于基线的CTC系统可以获得相对22.9%的性能提升。

点击下载论文

7.Towards Language-Universal Mandarin-English Speech Recognition

论文导读:如何训练一个通用的中英文语音识别系统,可以不需要语种先验信息的前提下可以同时识别中文、英文、以及中英文混读是一个研究难点。针对这个问题,本次INTERSPEECH论文,我们提出一种新颖的bilingual-AM (acoustic model)。

点击下载论文

8.Audio Tagging with Compact Feedforward Sequential Memory Network and Audio-to-Audio Ratio Based Data Augmentation

论文导读:在本次INTERSPEECH2019的工作中,我们将紧凑前馈序列记忆网络(compact Feedforward Sequential Memory Network, cFSMN)应用于音频打标任务,以解决模型复杂度高的问题。同时,我们还提出了一种基于音频-音频能量比(audio-to-audio ratio, AAR)的数据扩增方法,来提升低资源情况下音频打标的性能。

点击下载论文





阿里云开发者社区整理

相关文章
|
canal 分布式计算 Hadoop
canal针对分库分表场景的高可用架构设计与应用
canal针对分库分表场景的高可用架构设计与应用
|
4月前
|
存储 人工智能 Java
Java也能玩转AI?JBoltAI框架带你轻松接入大模型!
JBoltAI是专为Java开发者打造的AI应用框架,支持多源大模型接入、Embedding向量化、VDB向量检索、知识库构建及智能体开发,大幅降低Java接入AI门槛,让Java也能高效玩转AI。(239字)
312 3
|
SQL 存储 分布式计算
ODPS跨集群迁移与数据同步经验分享
集团业务的迅猛发展带来数据量的激增,存储容量告急,迫切需要将生产集群PA上的大量数据迁移到其它集群。如何安全地跨集群迁移几十PB的数据和其上相关业务,是我们面临的第一个挑战。数据迁移之后,两个集群间存在大量的数据依赖,需要互相访问最新的数据,如何安全快速地实现跨集群数据同步,这是紧跟其后的第二个挑战
4570 0
|
4月前
|
Linux 网络安全 文件存储
继《小爱音响》详细说下怎么部署,尤其是关于Docker部分
本文手把手教零基础用户安装配置Docker,轻松部署xiaomusic——把小爱音箱变私人点唱机。涵盖NAS图形界面、Docker Compose、SSH终端三种部署方式,避坑提示细致,命令可直接复制运行,真正“照着做就能成”。
778 2
|
机器学习/深度学习 人工智能 物联网
开源8B参数全能扩散模型Flex.2-preview:把线稿变商稿,还能边画边改!
Flex.2-preview是Ostris开源的80亿参数文本到图像扩散模型,支持512token长文本输入和多类型控制引导,内置修复功能并兼容主流AI绘画工具链。
764 3
开源8B参数全能扩散模型Flex.2-preview:把线稿变商稿,还能边画边改!
|
5月前
|
机器学习/深度学习 数据采集 人工智能
零代码基础也能懂的LoRA微调全指南
LoRA(低秩适应)让普通人也能用消费级显卡高效微调大模型。它不改动原模型,仅添加小型“适配模块”,以0.1%-1%的参数量实现接近全量微调的效果,快速打造专属AI助手,推动AI民主化。
504 0
|
9月前
|
机器学习/深度学习 资源调度 计算机视觉
I-ViT: 用于高效视觉Transformer推理的纯整数量化——论文阅读
I-ViT是首个专为视觉Transformer设计的纯整数量化方案,通过Shiftmax、ShiftGELU和I-LayerNorm实现全整数推理,避免浮点运算。在保持模型精度的同时,显著提升推理效率,实现3.7倍以上加速,推动ViT在边缘设备的高效部署。
847 9
I-ViT: 用于高效视觉Transformer推理的纯整数量化——论文阅读
|
11月前
|
文字识别 自然语言处理 搜索推荐
Go语言实战案例-计算字符串编辑距离
编辑距离(Levenshtein Distance)是衡量两个字符串差异的经典方法,表示将一个字符串通过插入、删除或替换操作转换为另一个字符串所需的最少步骤。广泛应用于拼写纠错、模糊搜索、语音识别、OCR纠错及DNA序列比对等领域。常用动态规划求解,时间复杂度为O(m*n),空间可优化至O(n)。
|
人工智能 自然语言处理 数据可视化
autoMate:无需视觉模型!用DeepSeek-V3/R1就能实现自动化操作电脑,支持任何可视化界面
autoMate是一款基于AI和RPA的本地自动化工具,通过自然语言实现复杂任务的自动化操作,支持本地部署,确保数据安全和隐私,适合需要高效处理重复性工作的用户。
1077 1
autoMate:无需视觉模型!用DeepSeek-V3/R1就能实现自动化操作电脑,支持任何可视化界面
|
人工智能 开发框架 小程序
工会成立100周年纪念,开发职工健身AI运动小程序、APP方案推荐
为庆祝中华全国总工会成立100周年,特推出基于AI技术的智能健身系统,以小程序和APP形式呈现,助力职工健康生活。方案包括:1) 小程序插件,支持多种运动识别,开箱即用;2) APP插件,提供更高精度的运动检测;3) 成熟的「AI乐运动」系统,支持赛事活动管理。这些方案满足不同需求,推动全民健身体验升级,彰显工会对职工健康的关怀。