开发者社区 > ModelScope模型即服务 > 语音 > 正文

Paraformer语音识别-中文-通用-16k-离线-large-长音频版支持的音频格式有哪些?

我用基于ModelScope官方镜像CPU环境镜像(python3.7),在本地部署运行。

尝试了mp3可以正常转录,但m4a格式就不行了,在转录过程中出现Killed。

请问Paraformer语音识别-中文-通用-16k-离线-large-长音频版支持的音频格式具体有哪些?

展开
收起
cncser78 2023-08-16 18:43:19 277 0
1 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    通常被支持:

    WAV(Waveform Audio File Format):WAV 是一种无损音频格式,广泛用于存储音频数据。

    MP3(MPEG Audio Layer-3):MP3 是一种有损音频格式,常用于音乐和语音的压缩和传输。

    FLAC(Free Lossless Audio Codec):FLAC 是一种无损音频格式,提供了较高的音频质量和数据压缩比。

    OGG(Ogg Vorbis):OGG 是一种免费、开放和无损的音频格式,常用于音乐和音频流媒体。

    这些格式通常被支持,但具体的音频格式支持可能会因部署环境、配置或特定版本而有所不同。在您的具体情况中,如果使用的音频格式不被支持或导致问题,可能需要考虑使用其他格式或进行格式转换,以确保正常的转录过程。

    2023-08-18 07:50:15
    赞同 展开评论 打赏

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

相关产品

  • 智能语音交互
  • 相关电子书

    更多
    阿里云总监课第二期——IoT时代的语音交互智能 立即下载
    阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用 立即下载
    智能语音交互:阿里巴巴的研究与实践 立即下载