开发者社区> 问答> 正文

语音AI中在使用语音识别的时候,生成的字幕与原视频的时间校准,有什么好的方案推荐吗?

语音AI中在使用语音识别的时候,生成的字幕与原视频的时间校准,有什么好的方案推荐吗?使用场景是这样的,我需要录制一个直播视频,并将视频内的语音转文字,并存储起来。 1、我的录制使用的hls格式,延时较大。 2、语音转文字使用flv格式,延时低,但这就导致了字幕与录制视频有时间差。 3、当我使用hls去做语音识别的时候,每个视频切片间隔时间为16秒左右,但是语音识别在推流超过一定时间,websocket就会断开。报错 too large binary send interval: 14204 million second 这个超时时间可以设置的长一点吗?

展开
收起
fuxixi 2022-12-12 17:51:44 532 0
1 条回答
写回答
取消 提交回答
  • 服务端这个没办法更改您这边看看能否发静音数据保持连接。此答案整理自钉钉群“阿里语音AI【3群】”

    2022-12-13 10:37:00
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
释放算力潜能,加速 AI 应用构建 立即下载
网易游戏机器学习云平台助力AI应用落地实践 立即下载
智算时代,基于 ACK 落地云原生AI 立即下载