很多内容产品都会遇到同一个需求:把文字变成自然语音,同时保留可复用的音色、较低的试听延迟,以及后续剪辑需要的字幕结果。
我们最近在声声工坊里整理了一条声音生产链路,里面有几个接口设计点可以作为接入参考:
- 上传或录制 5-15 秒参考音频
- 根据参考音频生成新语音
- 通过 Prompt 创建音色
- 用短提示控制方言或风格,例如粤语、四川话、语速轻快
- 生成后继续做声音识别,输出文本、SRT、VTT 和时间轴
- 通过 OpenAI 风格 API 接入流式或非流式 TTS
API 调用形态
curl -X POST "https://api.sssay.com/v1/audio/speech" \
-H "Authorization: Bearer sk-your-api-key" \
-H "Content-Type: application/json" \
--output output.mp3 \
-d '{
"model": "voice-clone-tts",
"voice": "vcv_your_api_voice_id",
"input": "欢迎使用声声工坊生成语音。",
"format": "mp3"
}'
如果业务更在意试听反馈,可以打开流式:
{
"model": "voice-clone-tts",
"voice": "vcv_your_api_voice_id",
"input": "这是一段流式返回的语音。",
"format": "mp3",
"stream": true
}
如果需要方言或风格,可以加入短提示。这个字段建议保持很短,避免把复杂文案和风格控制混在一起:
{
"model": "voice-clone-tts",
"voice": "vcv_your_api_voice_id",
"input": "这段内容更适合轻快一点的表达。",
"format": "mp3",
"instruction": "语速轻快"
}
生产接入时建议关注
- 音色 ID 不要暴露内部 provider 记录,声声工坊使用
vcv_前缀做外部 API 音色 ID。 - 生成额度和音色保存额度分开,方便产品侧解释成本。
- 网页端和 API 使用同一套字数额度,用户不会在不同入口之间看到两套余额。
- 声音识别和生成历史只保留近期记录,长期资产只保留用户主动保存的音色。
- 对实时试听场景使用流式,对后台批量任务使用非流式。
适合场景
- 短视频工具:生成旁白、改稿补录、导出字幕
- 在线教育:课程章节配音、局部修改、课件语音
- 内容平台:多音色朗读、小说/播客片段
- 企业产品:导览、播报、客服提示音
文档:
https://sssay.com/docs?utm_source=aliyun_dev&utm_medium=dev_article&utm_campaign=api_202607