使用智能语音交互识别视频中的音频-阿里云开发者社区

使用智能语音交互识别视频中的音频

2018-11-22 2120

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文将介绍如何将视频文件中的音频剥离出来并使用阿里云智能语音交互的录音文件识别功能进行识别。环境准备本文以Windows环境为例，请确保Git，Maven, Java已经安装并配置成功。开通智能语音交互服务，具体步骤请参考：开通服务。

本文将介绍如何将视频文件中的音频剥离出来并使用阿里云智能语音交互的录音文件识别功能进行识别。

环境准备

本文以Windows环境为例，请确保Git，Maven, Java已经安装并配置成功。
开通智能语音交互服务，具体步骤请参考：开通服务。
创建智能语音交互项目，具体步骤请参考：创建项目。

项目创建成功后单击创建的项目，您将在页面上方获取到对应项目的appkey，如下图所示：
appkey

语音产生源：视频文件。
所在行业：教育。
语种/方言：中文普通话（标准）。
模型名称：通用。
来源：官方。
适用场景：适用采样16000语音。
说明：通用(中文) 。

说明：在语音识别服务中，如果在您的业务领域有一些特有的词，默认识别不出来的时候可以考虑使用热词功能，请参考管理热词。

操作步骤

选择视频文件
抽取音频文件
本文将使用格式工厂抽取视频中的音频文件并对音频进行转换，配置等。
1. 下载格式工厂
  地址
2. 选择输出音频格式
  本例中我们选择MP3格式作为音频格式。
3. 添加文件
  添加步骤1的视频文件作为源文件。
4. 配置输出文件

将输出文件的采样率设置为项目支持的采样率，本例中为16000Hz。
开始抽取

说明：智能语音交互录音文件识别：

支持单轨/双轨的WAV格式、MP3格式的录音文件识别；

支持8000Hz、16000Hz的采样率；

将音频文件存放到OSS。
具体步骤请参考上传文件。
下载示例项目
下载地址见附件
导入示例项目
将示例项目导入到eclipse：

导入项目

设置音频文件访问链接
将示例代码中的音频访问链接 taskObject.put(KEY_FILE_LINK, "https://aliyun-nls.oss-cn-hangzhou.aliyuncs.com/asr/fileASR/examples/nls-sample-16k.wav"); 替换成我们存储到OSS的音频文件链接。
- 如果文件访问权限为公开，可以直接获取文件访问链接；
- 如果文件访问权限为私有，可以通过SDK生成有过期时间的访问链接。
运行配置：
1. 右键示例项目，单击 Run As →Run Configurations。
2. 在弹出的Run Configurations界面中单击 Arguments页签，在Program arguments输入框中我们将依次输入 AccessKey ID ，Access Key Secret和项目Appkey，如下图所示：
3. 单击 Run 运行。

查看识别结果

识别结果以及相关参数将打印在Eclipse控制台，如下图所示：
result1

可以添加以下代码过滤掉其他参数只显示中文结果：

if(result.getJSONObject("Result")!=null) {
           JSONArray jArray = result.getJSONObject("Result").getJSONArray("Sentences");
           for (java.util.Iterator tor=jArray.iterator();tor.hasNext();) {
               JSONObject sentence = (JSONObject)tor.next();
             System.out.println(sentence.get("Text"));
           }
            }

过滤后的识别结果如下图所示：
result2

（本文作者为阿里云大数据产品文档工程师）

相关实践学习

达摩院智能语音交互 - 声纹识别技术

声纹识别是基于每个发音人的发音器官构造不同，识别当前发音人的身份。按照任务具体分为两种：声纹辨认：从说话人集合中判别出测试语音所属的说话人，为多选一的问题声纹确认：判断测试语音是否由目标说话人所说，是二选一的问题（是或者不是）按照应用具体分为两种：文本相关：要求使用者重复指定的话语，通常包含与训练信息相同的文本（精度较高，适合当前应用模式）文本无关：对使用者发音内容和语言没有要求，受信道环境影响比较大，精度不高本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。讲师介绍：郑斯奇，达摩院算法专家，毕业于美国哈佛大学，研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。

使用智能语音交互识别视频中的音频

环境准备

操作步骤

查看识别结果

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

使用智能语音交互识别视频中的音频

环境准备

操作步骤

查看识别结果

热门文章

最新文章

相关课程

相关电子书

相关实验场景