智能语音交互

首页 标签 智能语音交互
# 智能语音交互 #
关注
2340内容
GPU训练的快速大规模分布式扩展-GPU多机多卡Machine Learning Middleware
我们设计了GPU多机多卡middleware,使得单机版机器学习程序可以通过插入middleware较快的实现基于ASGD或MA的多机多卡训练,此前各自基于open source工具所做的独有修改都可以得以充分保留。
将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读
结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。
语音唤醒技术:small-footprint keyword spotting
目前市场上推出了各式各样的音箱、机器人、车载等语音交互产品,语音识别是交互的入口,而语音唤醒成为了踏进这一入口的第一步,如何高效、准确地对用户指令给出反应成为这一技术的最重要目标。iDST资深语音算法工程师陈梦喆将介绍语音唤醒技术的基础知识,基本技术架构以及国内外最新研究成果。
阿里巴巴开源语音识别声学建模技术
本文我们介绍阿里巴巴的语音识别声学建模新技术: 前馈序列记忆神经网络(DFSMN)。目前基于DFSMN的语音识别系统已经在法庭庭审识别、智能客服、视频审核和实时字幕转写、声纹验证、物联网等多个场景成功应用。
DFSMN在阿里巴巴的应用以及如何采用开源代码训练DFSMN模型
DFSMN模型是语音识别中一种先进的声学模型,语音识别中的声学模型是语音识别技术中的核心所在。具体来说,声学模型是根据输入语音进行发音可能性的识别,结合语言模型、解码器,就构成了完整的语音识别系统。本次开源的DFSMN模型,是阿里巴巴的高效工业级实现,相对于传统的LSTM、BLSTM等声学模型,该模型具备训练速度更快、识别更高效、识别准确率更高和模型大小压缩等效果。
阿里初敏博士:解读智能语音如何在客服智能化上落地?
你是否对2016年云栖大会现场直播的实时字幕好奇?是否想了解语言方面的智能化怎样与客服相结合,怎样在客服智能化上落地?其实,收集数据是我们面临的最大挑战,这是时间、人力成本等的核算的问题。技术上,任何一个语言,包括英语、汉语、方言等等,难度差别并不多,识别相对简单,难点在数据。
INTERSPEECH 2017系列 | 远场语音识别技术
编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。
阿里全面进军IoT,语音将是人与IoT最自然的交互方式
鄢志杰在大会做主题发言 IoT:阿里巴巴新的主赛道 今天很高兴有这个机会能够来介绍一下我们自己的一些工作。为什么在一个人工智能的场合讲IoT,第一深圳是IoT产业非常活跃的城市;第二,同样是在深圳,阿里云在深圳的云栖大会上发布了新的战略,阿里巴巴将会全面进军IoT,IoT将成为阿里继电商、金融、物流、云计算之后一条全新的主赛道。
免费试用