开发者社区> 问答> 正文

语音AI中在使用语音识别的时候,生成的字幕与原视频的时间校准,有什么好的方案推荐吗?

语音AI中在使用语音识别的时候,生成的字幕与原视频的时间校准,有什么好的方案推荐吗?使用场景是这样的,我需要录制一个直播视频,并将视频内的语音转文字,并存储起来。 1、我的录制使用的hls格式,延时较大。 2、语音转文字使用flv格式,延时低,但这就导致了字幕与录制视频有时间差。 3、当我使用hls去做语音识别的时候,每个视频切片间隔时间为16秒左右,但是语音识别在推流超过一定时间,websocket就会断开。报错 too large binary send interval: 14204 million second 这个超时时间可以设置的长一点吗?

展开
收起
fuxixi 2022-12-12 17:51:44 570 1
1 条回答
写回答
取消 提交回答
  • 服务端这个没办法更改您这边看看能否发静音数据保持连接。此答案整理自钉钉群“阿里语音AI【3群】”

    2022-12-13 10:37:00
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
2023云栖大会:PolarDB for AI 立即下载
2023云栖大会:Lindorm一站式AI数据平台实战 立即下载
释放算力潜能加速应用构建Serverless为AI创新提速 立即下载