使用实时流TTS实现电话机器人与大语言模型低延迟对接-开发者社区-阿里云

顶顶通电话机器人开发接口对接大语言模型之实时流TTS对接介绍

2024-12-06 1389

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大语言模型通常流式返回文字，若一次性TTS会导致严重延迟。通过标点断句或流TTS可实现低延迟的文本到语音转换。本文介绍了电话机器人接口适配流TTS的原理及技术点，包括FreeSWITCH通过WebSocket流TTS放音，以及推流协议和旁路流对接的详细说明。

大语言模型一般都是流式返回文字，如果等全部文字返回了一次性去TTS，那么延迟会非常严重，常用的方法就是通过标点符号断句，返回了一句话就提交给TTS。随着流TTS的出现，就可以直接把大模型返回的文字灌给流TTS，实现低延迟的，文本到语音转换。

下图是我们电话机器人接口适配流TTS的原理，完整的接口说明可以看请点击这里 https://www.ddrj.com/callcenter/httpflow.html

主要涉及到的技术点，就是FreeSWITCH通过websocket流TTS放音。

现在很多大模型直接支持语音输入和语音输出，顶顶通电话机器人中间件也都有对应的接口，可以通过TCP和UDP协议输出声音流，对接任意大模型。

app： cti_audio_stream

参数 remote-ip:remote-port

推流协议

连接断开后会自动重连，并且重发引导数据。

返回的放音流需要和推流的编码一样，不需要引导数据。

app: cti_unicast_start 启动推流

参数 tcp|udp remote-ip remote-port <local-ip> <local-port> <play|mix>

api uuid_cti_unicast_start 启动推流

参数 uuid tcp|udp remote-ip remote-port <local-ip> <remote-ip> <play|mix>

api uuid_cti_unicast_stop 停止推流

参数 uuid

顶顶通电话机器人开发接口对接大语言模型之实时流TTS对接介绍