开发者社区> 问答> 正文

阿里云语音AI中阿里的智能语音交互中的语音识别中识别说话人能返回每个说话人的时间戳吗?

问题1:阿里云语音AI中阿里的智能语音交互中的语音识别中识别说话人能返回每个说话人的时间戳吗?我是想根据返回的时间戳,用ffmpeg来截取每一个说话人的片段,然后拼接在一起,最终是想要达到语音分离的效果,就是把录音中的每一个声音分离开来。
问题2:效果是怎么样的?有免费体验demo吗?

展开
收起
十一0204 2023-07-23 19:43:53 117 0
3 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    阿里的智能语音交互中的语音识别可以识别说话人,但是目前不支持返回每个说话人的时间戳。如果您需要根据返回的时间戳来截取每个说话人的片段,可以考虑使用语音分离(Voice Separation)服务来实现。

    语音分离是一种音频处理技术,可以将包含多个声源的混合音频文件分离成单独的声源文件。在阿里云语音AI中,语音分离服务可以实现对音频文件的分离和处理。具体来说,您可以通过以下步骤来实现语音分离:

    将需要分离的音频文件上传到阿里云语音AI平台。

    调用语音分离API,对音频文件进行分离处理。在调用API时,可以设置参数来控制分离效果和分离质量。

    获取API返回的分离结果,其中包含了分离后的单独声源文件和时间戳信息。

    根据返回的时间戳信息,使用ffmpeg等工具来截取每个说话人的片段,并将其拼接在一起。

    2023-07-27 20:11:58
    赞同 展开评论 打赏
  • 意中人就是我呀!

    回答1:不能,录音文件识别有说话人分离 但是没有把音频分离处理。
    回答2:录音文件识别 新客户有试用的。此回答整理至钉群“阿里语音AI【5群】”

    2023-07-26 10:36:38
    赞同 展开评论 打赏
  • 问题1:在阿里云语音AI的智能语音交互中,语音识别服务通常并不会直接返回每个说话人的时间戳。通常情况下,语音识别服务将整个语音流进行识别,并返回一个连续文本结果。

    如果你需要实现对每个说话人的语音片段进行分离和处理,可以考虑使用其他技术来实现,如说话人分离(Speaker Separation)或语音源分离(Source Separation)等算法。这些算法可以根据声音特征、声音频率或混合模型等方法,将不同的说话人声音从混合的语音中分离出来。

    问题2:关于阿里云语音AI的效果和免费体验,具体情况可能会因服务版本和具体需求而有所不同。建议你参考阿里云语音AI的官方文档和网站,了解其提供的相关功能、性能指标和价格政策。

    2023-07-23 20:47:38
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
阿里云总监课第二期——Neural Network Language Model在语音识别中的应用 立即下载
阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用 立即下载
智能语音交互:阿里巴巴的研究与实践 立即下载