打造你的专属语音助手,基于函数计算托管 CosyVoice 语音模型

简介: 打造你的专属语音助手,基于函数计算托管 CosyVoice 语音模型

目前,声音的推理和合成在很多领域都有广泛的应用,比如儿童/成人教育、疗愈/陪伴、销售/客服、游戏 NPC、车载通信,工/农业线下辅助等。CosyVoice 是一款优秀的语音合成模型,支持语音合成、情感控制、多语言语音合成等诸多功能,效果体验极佳。然而,对于很多普通用户和应用开发者而言,托管其专属模型,进行使用或者应用开发比较困难,今天分享一下,基于阿里云函数计算 FC 以及 CAP(云应用开发平台),极速托管专属的 CosyVoice 应用。并且我们提供了 API 调用方案以及镜像构建源码方便您根据自己的业务任意 DIY。
CosyVoice 部署托管
Step1 访问阿里云函数计算控制台[1],打开应用中心
选择 CosyVoice 智能语音应用模板,进行部署。
Step2 根据应用配置引导填写,点击“创建应用”
Step3 产品依赖确认,部署详细
点击后进行部署。
进入部署。
Step4 访问 web 界面
您可以直接在线体验预置语音生成、定制语音生成、高级语音生成三个模块。
API 调用
获取 EndPoint
CosyVoice 部署完毕之后,可以进行 API 调用。首先是需要获取 API 的 endpoint,这里有两个地址。
临时域名地址(30 天访问期)
Http 触发器地址(永久地址)
(注:http 触发器地址因安全限制直接访问无法看到 web 页面,但是可以通过 http 访问 api。)
使用 API Recorder 调试
通过 API Recorder,仅需点击 Web UI 页面即可获取访问 API 的相关代码示例,非常方便。下面演示一下如何使用 API Recorder 进行 API 获取。
Step1 打开 API Recorder
Step2 回到 Web UI 进行语音合成访问(上传声音文件,点击生成音频)
Step3 查看调用记录和生成的 API 示例代码
本地调试代码
以上生成的代码可以直接在本地安装调试,为了进一步方便实用,下面提供示例代码,完整的代码获取[2]。
声音推理
声音推理较为简单,复制以下代码(需要安装 gradio_client),修改 cosyvoice_endpoint 地址即可。
from gradio_client import Client
import os
import shutil
cosyvoice_endpoint = ""
client = Client(cosyvoice_endpoint)
result = client.predict(
_sound_radio="中文女",
_synthetic_input_textbox="天天好心情,我们走的每一步,都是我们策略的一部分;你看到的所有一切,包括我此刻与你交谈,所做的一切,所说的每一句话,都有深远的含义。",
[kod.7080mir.com)
[kod.congxx.com)
[kod.furongmiaojia.com)
[kod.geekchn.com)
[kod.zizhu808.com)
[kod.hebehan.com)
[kod.lovekissdress.com)
[kod.mubmedia.com)
[kod.aiffw.com)
_seed=0,
api_name="/generate_audio"
)

result 是返回的本地音频地址

把result 保存到当前的目录下

audio_filename = "preset.mp3"
shutil.copy(result, audio_filename)

删除原始的 音频

os.remove(result)
语音合成
新建 custom.py 文件,并复制这段代码(需要安装 gradio_client)。
import os
import shutil
from gradio_client import Client, file
cosyvoice_endpoint = "endpoint"
uploaded_voice_path = ""
client = Client(cosyvoice_endpoint)
result = client.predict(
_recorded_audio1=file(f"{cap_cosyvoice_endpoint}file={uploaded_voice_path}"),
_recorded_audio2=None,
_prompt_input_textbox="今天的不开心就止于此吧,明天依旧光芒万丈哦",
_language_radio="same",
_synthetic_input_textbox="来来来,我们走的每一步,都是我们策略的一部分;你看到的所有一切,包括我此刻与你交谈,所做的一切,所说的每一句话,都有深远的含义。",
_seed=0,
_audio_input_type_radio="upload_audio",
api_name="/generate_audio_1"
)
print(result)

result 是返回的本地音频地址

把result 保存到当前的目录下

audio_filename = "custom.mp3"
shutil.copy(result, audio_filename)

删除原始的 音频

os.remove(result)
高级情感Å
from gradio_client import Client
client = Client("")
result = client.predict(
_sound_radio="中文女",
_synthetic_input_textbox="Hello!!",
_seed=0,
api_name="/generate_audio"
)
print(result)
补充
对于声音推理,由于 Serverless 实例会轮转(比如无调用实例会被释放),无法持久化存储被合成的语音,所以如果您希望持久化存储所合成的语音,使其能够提供长期的 API 服务,需要增加阿里云文件存储产品 NAS 存储解决,函数计算挂载 NAS 非常简单,如下示例。
挂载 NAS
配置好之后获取 NAS 文件路径。
配置 CosyVoice 文件存储环境变量
之后重新使用 API Recorder 录制语音合成 API ,会发现 上传录制文件后的视频地址已经固定为 NAS 的地址了,接下来您便可以长久使用这个合成的声音了。
如何更新 CozyVoice 以及如何对后端服务修改定制
函数计算 CosyVoice 应用模版同步社区的更新存在滞后性,如果您希望体验社区最新的模型效果,本方案提供了 CozyVoice 构建的完整代码[3],支持您进行更新。
您可以更新代码工程,重新构建新的 Docker 镜像,将 Docker 镜像上传至阿里云容器镜像服务 ACR 服务。
然后修改函数计算上的镜像配置即可。
注意,上述源码的 CosyVoice-300M 工程中不包含模型, 需要先将对应的模型下载到本地,然后构建镜像。
cd CozyVoice-300M
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd
还需要 audioseal 文件,可以从魔搭创空间获取[4]。
点击立即部署:https://fcnext.console.aliyun.com/applications/ai/create?template=109

相关文章
|
24天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
16天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
20天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2577 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
18天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
3天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
2天前
|
存储 人工智能 搜索推荐
数据治理,是时候打破刻板印象了
瓴羊智能数据建设与治理产品Datapin全面升级,可演进扩展的数据架构体系为企业数据治理预留发展空间,推出敏捷版用以解决企业数据量不大但需构建数据的场景问题,基于大模型打造的DataAgent更是为企业用好数据资产提供了便利。
164 2
|
20天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1576 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
|
22天前
|
编解码 JSON 自然语言处理
通义千问重磅开源Qwen2.5,性能超越Llama
击败Meta,阿里Qwen2.5再登全球开源大模型王座
978 14
|
4天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
221 2
|
17天前
|
人工智能 开发框架 Java
重磅发布!AI 驱动的 Java 开发框架:Spring AI Alibaba
随着生成式 AI 的快速发展,基于 AI 开发框架构建 AI 应用的诉求迅速增长,涌现出了包括 LangChain、LlamaIndex 等开发框架,但大部分框架只提供了 Python 语言的实现。但这些开发框架对于国内习惯了 Spring 开发范式的 Java 开发者而言,并非十分友好和丝滑。因此,我们基于 Spring AI 发布并快速演进 Spring AI Alibaba,通过提供一种方便的 API 抽象,帮助 Java 开发者简化 AI 应用的开发。同时,提供了完整的开源配套,包括可观测、网关、消息队列、配置中心等。
735 9