语音技术

首页 标签 语音技术
# 语音技术 #
关注
6638内容
深度学习训练,选择P100就对了
本文使用NVCaffe、MXNet、TensorFlow三个主流开源深度学习框架对P100和P40做了图像分类场景的卷积神经网络模型训练的性能对比,并给出了详细分析,结论是P100比P40更适合深度学习训练场景。
将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读
结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。
语音唤醒技术:small-footprint keyword spotting
目前市场上推出了各式各样的音箱、机器人、车载等语音交互产品,语音识别是交互的入口,而语音唤醒成为了踏进这一入口的第一步,如何高效、准确地对用户指令给出反应成为这一技术的最重要目标。iDST资深语音算法工程师陈梦喆将介绍语音唤醒技术的基础知识,基本技术架构以及国内外最新研究成果。
【83行代码获奖代码】高中生@青藤木子 耗费一周给妈妈编写了一款语音识别APP
代码源于生活,高于生活,谢谢你告诉我们技术除了改变世界,还能温暖小家庭,温暖一位母亲。
语音识别真的比肩人类了?听听阿里iDST初敏怎么说
语音识别真的比肩人类了吗?各种算法之间该如何选择?如何提升语音交互的用户体验?带着这些问题,云栖社区采访了阿里云iDST智能交互总监初敏,听听她是怎么说的。
人机交互新进展:LFR-DFSMN语音识别声学模型介绍
语音识别技术是人机交互技术的重要组成部分,而语音识别中的声学模型是语音识别技术中的核心所在,堪称重中之重。阿里巴巴iDST智能语音交互团队最新的LFR-DFSMN模型相对于之前的LFR-LCBLSTM模型可以达到训练加速3倍、识别加速2倍、识别错误率降低20%和最终模型大小压缩50%的效果,实现了语音识别的迭代速度、识别成本、服务质量的全面提升。
特定人语音唤醒简介
特定人语音唤醒,就是通过识别语音中所含的内容和人的身份信息,来实现特定人语音唤醒功能。这是一种较为新颖、具有一定安全性、便捷性和趣味性的功能,同时可以增强个性化体验。
免费试用