使用智能语音交互识别视频中的音频

简介: 本文将介绍如何将视频文件中的音频剥离出来并使用阿里云智能语音交互的录音文件识别功能进行识别。 环境准备 本文以Windows环境为例,请确保Git,Maven, Java已经安装并配置成功。 开通智能语音交互服务,具体步骤请参考:开通服务。

本文将介绍如何将视频文件中的音频剥离出来并使用阿里云智能语音交互的录音文件识别功能进行识别。

环境准备

  • 本文以Windows环境为例,请确保Git,Maven, Java已经安装并配置成功。
  • 开通智能语音交互服务,具体步骤请参考:开通服务
  • 创建智能语音交互项目,具体步骤请参考:创建项目

项目创建成功后单击创建的项目,您将在页面上方获取到对应项目的appkey,如下图所示:
appkey

  • 语音产生源:视频文件。
  • 所在行业:教育。
  • 语种/方言:中文普通话(标准)。
  • 模型名称:通用。
  • 来源:官方。
  • 适用场景:适用采样16000语音。
  • 说明:通用(中文) 。
    configuration

说明:在语音识别服务中,如果在您的业务领域有一些特有的词,默认识别不出来的时候可以考虑使用热词功能,请参考管理热词

操作步骤

  1. 选择视频文件
  2. 抽取音频文件
    本文将使用格式工厂抽取视频中的音频文件并对音频进行转换,配置等。

    1. 下载格式工厂
      地址
    2. 选择输出音频格式
      本例中我们选择MP3格式作为音频格式。
    3. 添加文件
      添加步骤1的视频文件作为源文件。
    4. 配置输出文件

将输出文件的采样率设置为项目支持的采样率,本例中为16000Hz。
开始抽取

说明:智能语音交互录音文件识别 :

  • 支持单轨/双轨的WAV格式、MP3格式的录音文件识别;
  • 支持8000Hz、16000Hz的采样率;
  1. 将音频文件存放到OSS。
    具体步骤请参考上传文件
  2. 下载示例项目
    下载地址见附件
  3. 导入示例项目
    将示例项目导入到eclipse:

导入项目

  1. 设置音频文件访问链接
    将示例代码中的音频访问链接 taskObject.put(KEY_FILE_LINK, "https://aliyun-nls.oss-cn-hangzhou.aliyuncs.com/asr/fileASR/examples/nls-sample-16k.wav"); 替换成我们存储到OSS的音频文件链接 。

  2. 运行配置:

    1. 右键示例项目,单击 Run AsRun Configurations
    2. 在弹出的Run Configurations界面中单击 Arguments页签,在Program arguments输入框中我们将依次输入 AccessKey ID ,Access Key Secret和项目Appkey,如下图所示:
      ak_argument
    3. 单击 Run 运行。

查看识别结果

识别结果以及相关参数将打印在Eclipse控制台,如下图所示:
result1

可以添加以下代码过滤掉其他参数只显示中文结果:

if(result.getJSONObject("Result")!=null) {
           JSONArray jArray = result.getJSONObject("Result").getJSONArray("Sentences");
           for (java.util.Iterator tor=jArray.iterator();tor.hasNext();) {
               JSONObject sentence = (JSONObject)tor.next();
             System.out.println(sentence.get("Text"));
           }
            }

过滤后的识别结果如下图所示:
result2

(本文作者为阿里云大数据产品文档工程师)

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
26天前
|
机器学习/深度学习 语音技术
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
24 9
|
3月前
|
语音技术
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)【1月更文挑战第11天】【1月更文挑战第52篇】
33 1
|
3月前
|
语音技术
要将`modelscope-funasr`的输出从`Paraformer语音识别-中文-通用-16k-离线-large-长音频版-onnx`更改
【1月更文挑战第7天】【1月更文挑战第35篇】要将`modelscope-funasr`的输出从`Paraformer语音识别-中文-通用-16k-离线-large-长音频版-onnx`更改
78 3
|
5月前
|
语音技术
同一个语音为什么识别结果还不一致的,有大佬知道原因吗(Paraformer语音识别-中文-通用-16k-离线-large-热词版)
模型speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404,在线体验同一个语音识别结果不一致(https://modelscope.cn/models/damo/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/summary)
158 0
|
11月前
|
机器学习/深度学习 传感器 资源调度
【语音识别】基于适量量化(VQ)实现说话人门禁识别附GUI
【语音识别】基于适量量化(VQ)实现说话人门禁识别附GUI
|
11月前
|
人工智能 语音技术 自然语言处理
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(1)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(1)
537 0
|
11月前
|
人工智能
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(2)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(2)
477 0
|
11月前
|
人工智能 Java 调度
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(3)
《阿里云AI产品必知必会系列电子书》——智能语音交互—— 一句话识别QuickStart使用教程(3)
500 0
|
Java API 语音技术
使用FFmpeg进行视频抽取音频,之后进行语音识别转为文字
使用FFmpeg进行视频抽取音频,之后进行语音识别转为文字
563 0
|
机器学习/深度学习 算法 语音技术
【语音识别】基于MPCC+IPL特征结合SVM实现中英语种识别含Matlab源码
【语音识别】基于MPCC+IPL特征结合SVM实现中英语种识别含Matlab源码

热门文章

最新文章