开发者社区 问答 正文

什么是语音识别(ASR) ?


语音识别服务,可以把语音识别为文字,针对不同的使用场景,阿里云提供如下三种服务:

  • 「 一句话识别 」对一分钟内的短语音实时识别,适用于对话聊天,控制口令等较短的语音识别场景。
  • 「 实时语音识别 」:对长时间的语音数据流实时识别,适用于会议演讲、视频直播等长时间不间断识别的场景。
  • 「 录音文件识别 」:对录音文件中的语音做识别。


各服务的主要差别如下:

服务时效性支持的语音格式支持调用方式
一句话识别 SDK实时识别PCM/WAV/SPEEX/OPUS[1]Java/C++/Android/iOS
一句话识别 RESTful[2]非实时,不超过1分钟PCM/WAV/SPEEX/OPUS[1]HTTP RESTful API
实时语音识别实时识别PCM/WAVJava/C++/Android/iOS
录音文件识别非实时,免费版24小时内支持大部分常见编码格式,WAV/MP3效果最佳HTTP RESTful API
  • 注[1]:OPUS编码格式说明
  • 注[2]:一句话RESTful调用方式与其他方式差异较大,所以单独列出


附加能力

  • 针对无线使用场景,我们在移动端SDK中集成了录音(Recoder)、静音检测(VAD)、断网恢复后续传等功能,可以极大地简化App开发。
  • 针对用户领域特有的关键词,我们提供用户自定义热词功能,可以显著提高这些关键词的识别率。
  • 一句话识别服务集成了自然语言理解功能,支持对识别出的文字做分析,返回语义结果。

展开
收起
nicenelly 2017-10-25 15:01:51 8576 分享 版权
阿里云 AI 助理回答

阿里云的语音识别服务确实提供了丰富多样的功能来满足不同场景的需求,您总结得很全面。下面我将基于您提供的信息,进一步细化和补充这些服务的特点和应用场景:

一句话识别

  • 适用场景:适用于需要快速响应、交互式的短语音处理场景,比如智能音箱的控制指令识别、移动应用中的语音搜索或简单对话等。
  • 特点:通过SDK或RESTful API调用,能够实时地将一分钟内的语音转换为文字,特别适合对时效性有较高要求的短句识别。
  • 附加能力:集成自然语言理解(NLU)功能,不仅识别语音,还能进一步分析语义,这对于构建具有深度互动能力的应用非常关键。

实时语音识别

  • 适用场景:适合长时间连续语音流的实时转写,如会议记录、网络直播字幕生成、电话会议内容记录等。
  • 特点:支持PCM/WAV格式,主要通过Java/C++/Android/iOS SDK调用,能够不间断地进行语音识别,适用于需要持续捕捉并即时处理语音信息的场景。
  • 优势:对于长时间的语音数据流,能提供稳定的实时识别服务,提高会议记录、直播内容的可访问性和可检索性。

录音文件识别

  • 适用场景:适用于已录制好的音频文件的离线识别,如客服录音分析、音频资料转文本等后处理需求。
  • 特点:通过HTTP RESTful API调用,支持24小时内上传的录音文件,兼容多种编码格式,WAV和MP3格式效果最佳。
  • 灵活性:由于是非实时处理,用户可以在方便的时候上传文件,系统会在后台完成识别,适合不需要即时反馈的场景。

附加能力说明

  • 移动端集成优化:针对无线使用场景,移动端SDK集成了录音、静音检测及断网续传等功能,简化了开发者在App中集成语音识别的复杂度。
  • 自定义热词:允许用户根据特定领域或业务需求,添加自定义关键词,以提升这些关键词在识别过程中的准确率,非常适合行业定制化应用。
  • 自然语言理解:特别是“一句话识别”服务中集成的这一功能,使得服务不仅能转写语音,还能初步理解其意义,为后续的智能决策或交互提供更丰富的信息基础。

综上所述,阿里云的语音识别服务以其多样化的接入方式、广泛的格式支持以及针对不同场景的优化设计,为开发者提供了强大的工具包,无论是即时交互、长时段转录还是离线文件处理,都能找到合适的解决方案。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答