顶顶通电话机器人开发接口对接大语言模型之实时流TTS对接介绍

简介: 大语言模型通常流式返回文字,若一次性TTS会导致严重延迟。通过标点断句或流TTS可实现低延迟的文本到语音转换。本文介绍了电话机器人接口适配流TTS的原理及技术点,包括FreeSWITCH通过WebSocket流TTS放音,以及推流协议和旁路流对接的详细说明。

大语言模型一般都是流式返回文字,如果等全部文字返回了一次性去TTS,那么延迟会非常严重,常用的方法就是通过标点符号断句,返回了一句话就提交给TTS。随着流TTS的出现,就可以直接把大模型返回的文字灌给流TTS,实现低延迟的,文本到语音转换。

下图是我们电话机器人接口适配流TTS的原理,完整的接口说明可以看 请点击这里 https://www.ddrj.com/callcenter/httpflow.html


image.gif


主要涉及到的技术点,就是FreeSWITCH通过websocket流TTS放音。

现在很多大模型直接支持语音输入和语音输出,顶顶通电话机器人中间件也都有对应的接口 ,可以通过TCP和UDP协议 输出声音流, 对接任意大模型。

流对接(推流到第三方接口和同时播放流)

app: cti_audio_stream

参数 remote-ip:remote-port

  • native 可选参数 如果不设置,流格式为 8000hz 16位,如果设置了,就是原始的音频格式
  • param 自定义参数

推流协议

  1. 前面4字节 引导数据长度 网络字节顺序
  2. 时间戳 8字节
  3. 引导数据 {"uuid":"","codec":"","param":"自定义参数"}
  4. 数据流

连接断开后会自动重连,并且重发引导数据。

返回的放音流需要和推流的编码一样,不需要引导数据。

流对接(旁路)

app: cti_unicast_start 启动推流

参数 tcp|udp remote-ip remote-port <local-ip> <local-port> <play|mix>

  • tcp|udp 使用tcp还是udp协议推流
  • remote-ip 远端 ip
  • remote-port 远端端口,不设置用0.0.0.0
  • local-ip 本地端口,不设置好用0,随机端口
  • play|mix
  • play 支持播放远端返回的流,发送方必须是远端IP和远端端口
  • mix 把远端的流和本地放音混音

api uuid_cti_unicast_start 启动推流

参数 uuid tcp|udp remote-ip remote-port <local-ip> <remote-ip> <play|mix>

api uuid_cti_unicast_stop 停止推流

参数 uuid

相关文章
|
API
对接chatGPT
对接chatGPT
134 0
|
26天前
|
API 语音技术 开发者
基于开源技术的数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s
魔搭社区最近上线了基于开源技术的数字人实时对话demo,无需预训练即可使用自定义的数字人形象进行实时对话,支持语音输入和实时对话。
|
4月前
|
前端开发 Linux API
无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智能方案
【8月更文挑战第3天】无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智能方案
无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智能方案
|
4月前
|
人工智能 语音技术
通义语音AI技术问题之服务端对于音频数据如何解决
通义语音AI技术问题之服务端对于音频数据如何解决
37 7
|
5月前
|
搜索推荐 API 对象存储
|
5月前
|
分布式计算 搜索推荐 API
|
7月前
|
Linux 语音技术
FaceBook推出新的翻译模型Seamless!可实现跨语言交流的无缝衔接!
FaceBook推出新的翻译模型Seamless!可实现跨语言交流的无缝衔接!
166 0
|
API
对接deepl翻译
对接deepl翻译
128 0
|
编解码 Java 开发工具
[技术分享]Android平台实时音视频录像模块设计之道
录像有什么难的?无非就是数据过来,编码保存mp4而已,这可能是好多开发者在做录像模块的时候的思考输出。是的,确实不难,但是做好,或者和其他模块有非常好的逻辑配合,确实不容易。
109 0
|
算法 搜索推荐
【直播预告】融合复杂目标且支持实时调控的重排模型在淘宝流式推荐场景的应用
【直播预告】融合复杂目标且支持实时调控的重排模型在淘宝流式推荐场景的应用
309 1