FunAudioLLM试炼

简介: 音频基座大模型FunAudioLLM,可以想你朋友一样和你对话,情感语境的识别,突破物理限制。

FunAudioLLM
音频基座大模型FunAudioLLM,包含两大模型SenseVoice和CosyVoice。开源代码库为https://github.com/FunAudioLLM。主要的作用SenseVoice是为了识别声音,CosyVoice则是为了生成有感情的朗读内容。
工作环境: https://www.modelscope.cn/studios/iic/SenseVoice,
https://www.modelscope.cn/studios/iic/CosyVoice-300M
语音识别最主要的功能就是方言的识别,尝试了一下甘肃的方言,没有识别:
image.png

使用音乐试一下是否可以生成想要的音乐模式,上传后可以识别,并且有对应的语气和情感的识别,功能还是非常具有眼前一亮的效果的。
image.png

识别语言的语气和情感则是区别机器和人的最重要的区别。并且可以实现不同语言语境的切换,非常厉害。
image.png

语言生成:
image.png

有多种的语音的生成,还可以具有不同的语言模式,整体生成的效果非常好,就和正常的朗读一般,这将对机器的发声非常有帮助。适应于不同的语境和不同的场景,例如机器拨打电话,就可以很大程度的模仿人类,或者车站播报,播报是相对于具有机械性质的语言模式。

AI代码分析,两个工程主要实现语言是python,工程的安装具有一定的挑战,并且AI的计算需要硬件的支持,这是非常大的痛点。
image.png

使用方式简单,就是只需要引入对应的module,然后调用即可。

from cosyvoice.cli.cosyvoice import CosyVoice
from cosyvoice.utils.file_utils import load_wav
import torchaudio

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-SFT')
# sft usage
print(cosyvoice.list_avaliable_spks())
output = cosyvoice.inference_sft('你好,我是通义生成式语音大模型,请问有什么可以帮您的吗?', '中文女')
torchaudio.save('sft.wav', output['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M')
# zero_shot usage, <|zh|><|en|><|jp|><|yue|><|ko|> for Chinese/English/Japanese/Cantonese/Korean
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
output = cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k)
torchaudio.save('zero_shot.wav', output['tts_speech'], 22050)
# cross_lingual usage
prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
output = cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that\'s coming into the family is a reason why sometimes we don\'t buy the whole thing.', prompt_speech_16k)
torchaudio.save('cross_lingual.wav', output['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-Instruct')
# instruct usage, support <laughter></laughter><strong></strong>[laughter][breath]
output = cosyvoice.inference_instruct('在面对挑战时,他展现了非凡的<strong>勇气</strong>与<strong>智慧</strong>。', '中文男', 'Theo \'Crimson\', is a fiery, passionate rebel leader. Fights with fervor for justice, but struggles with impulsiveness.')
torchaudio.save('instruct.wav', output['tts_speech'], 22050)
相关文章
|
机器学习/深度学习 自然语言处理 人机交互
|
Kubernetes Cloud Native 持续交付
云原生部署:FunAudioLLM的可扩展性与灵活性
【8月更文第28天】随着云原生技术的发展,越来越多的应用程序选择在云端部署以充分利用其弹性伸缩、高可用性和资源优化等特点。FunAudioLLM(虚构名称)是一款用于语音合成的高性能软件库,它通过采用云原生部署策略,实现了高效的资源利用和灵活的服务扩展。本文将详细介绍 FunAudioLLM 如何利用云计算资源实现高效、弹性的服务部署,并通过具体的代码示例展示部署过程。
439 0
|
弹性计算 并行计算 Shell
在云上搭建CosyVoice环境-保姆级教程
发现个好玩的模型,阿里最近开源的,可以便捷的复刻人声,本文提供全套安装过程。仓库地址:https://github.com/FunAudioLLM/CosyVoice。
6535 1
|
人工智能 自然语言处理 搜索推荐
声临其境!体验阿里云开源音频基座大模型——FunAudioLLM
阿里通义实验室开源了全新的音频基座大模型FunAudioLLM,包含SenseVoice与CosyVoice两大核心模型。SenseVoice专精于多语言语音识别、情感辨识与声音事件检测,支持50余种语言,中文及粤语识别准确率提升50%以上。CosyVoice则擅长语音合成,只需3-10秒原始音频即可克隆音色,并支持跨语言合成。FunAudioLLM的应用场景广泛,包括语音到语音翻译、情感语音对话、互动播客及有声读物等。CosyVoice的在线体验显示,其生成的语音自然流畅,支持定制化及高级情绪控制,超越竞品ChatTTS。SenseVoice在情感识别及长音频处理方面表现出色。
28444 28
|
人工智能 自然语言处理 小程序
阿里通义音频生成大模型 FunAudioLLM 开源!
声音包含丰富的个体特征及情感情绪信息,对话作为人类最常使用亲切自然的交互模式,是连接人与智能世界至关重要的环节。
|
存储 自然语言处理 监控
FunAudioLLM大模型SenseVoice和CosyVoice测评
FunAudioLLM大模型SenseVoice和CosyVoice测评
|
Java
记一个 Base64 有关的 Bug
了解一下,下一次用 Java 开发 Base64 有关的逻辑的时候注意绕过。
339 2
|
开发工具 git
【Git】常用提交步骤
Git 工具在团队合作开发时提交时常用操作流程
922 0
【Git】常用提交步骤
|
存储 JavaScript 前端开发
分别利用split(),slice(),splice(),join(),操作数组的方法
分别利用split(),slice(),splice(),join(),操作数组的方法
411 0
|
SQL 算法 NoSQL
B 站,强的离谱!
数据结构与算法 计算机网络 计算机组成 操作系统 数据库
B 站,强的离谱!

热门文章

最新文章