FunAudioLLM试炼

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 音频基座大模型FunAudioLLM,可以想你朋友一样和你对话,情感语境的识别,突破物理限制。

FunAudioLLM
音频基座大模型FunAudioLLM,包含两大模型SenseVoice和CosyVoice。开源代码库为https://github.com/FunAudioLLM。主要的作用SenseVoice是为了识别声音,CosyVoice则是为了生成有感情的朗读内容。
工作环境: https://www.modelscope.cn/studios/iic/SenseVoice,
https://www.modelscope.cn/studios/iic/CosyVoice-300M
语音识别最主要的功能就是方言的识别,尝试了一下甘肃的方言,没有识别:
image.png

使用音乐试一下是否可以生成想要的音乐模式,上传后可以识别,并且有对应的语气和情感的识别,功能还是非常具有眼前一亮的效果的。
image.png

识别语言的语气和情感则是区别机器和人的最重要的区别。并且可以实现不同语言语境的切换,非常厉害。
image.png

语言生成:
image.png

有多种的语音的生成,还可以具有不同的语言模式,整体生成的效果非常好,就和正常的朗读一般,这将对机器的发声非常有帮助。适应于不同的语境和不同的场景,例如机器拨打电话,就可以很大程度的模仿人类,或者车站播报,播报是相对于具有机械性质的语言模式。

AI代码分析,两个工程主要实现语言是python,工程的安装具有一定的挑战,并且AI的计算需要硬件的支持,这是非常大的痛点。
image.png

使用方式简单,就是只需要引入对应的module,然后调用即可。

from cosyvoice.cli.cosyvoice import CosyVoice
from cosyvoice.utils.file_utils import load_wav
import torchaudio

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-SFT')
# sft usage
print(cosyvoice.list_avaliable_spks())
output = cosyvoice.inference_sft('你好,我是通义生成式语音大模型,请问有什么可以帮您的吗?', '中文女')
torchaudio.save('sft.wav', output['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M')
# zero_shot usage, <|zh|><|en|><|jp|><|yue|><|ko|> for Chinese/English/Japanese/Cantonese/Korean
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
output = cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k)
torchaudio.save('zero_shot.wav', output['tts_speech'], 22050)
# cross_lingual usage
prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
output = cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that\'s coming into the family is a reason why sometimes we don\'t buy the whole thing.', prompt_speech_16k)
torchaudio.save('cross_lingual.wav', output['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-Instruct')
# instruct usage, support <laughter></laughter><strong></strong>[laughter][breath]
output = cosyvoice.inference_instruct('在面对挑战时,他展现了非凡的<strong>勇气</strong>与<strong>智慧</strong>。', '中文男', 'Theo \'Crimson\', is a fiery, passionate rebel leader. Fights with fervor for justice, but struggles with impulsiveness.')
torchaudio.save('instruct.wav', output['tts_speech'], 22050)
相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
FunAudioLLM与知名模型对比
FunAudioLLM与知名模型对比
|
2月前
|
机器学习/深度学习 自然语言处理 搜索推荐
自然语言生成技术
【7月更文挑战第28天】自然语言生成技术
30 5
|
机器学习/深度学习 语音技术 开发工具
阿里巴巴开源语音识别声学建模技术
本文我们介绍阿里巴巴的语音识别声学建模新技术: 前馈序列记忆神经网络(DFSMN)。目前基于DFSMN的语音识别系统已经在法庭庭审识别、智能客服、视频审核和实时字幕转写、声纹验证、物联网等多个场景成功应用。
10455 0
|
1月前
|
人工智能 自然语言处理 搜索推荐
声临其境!体验阿里云开源音频基座大模型——FunAudioLLM
阿里通义实验室开源了全新的音频基座大模型FunAudioLLM,包含SenseVoice与CosyVoice两大核心模型。SenseVoice专精于多语言语音识别、情感辨识与声音事件检测,支持50余种语言,中文及粤语识别准确率提升50%以上。CosyVoice则擅长语音合成,只需3-10秒原始音频即可克隆音色,并支持跨语言合成。FunAudioLLM的应用场景广泛,包括语音到语音翻译、情感语音对话、互动播客及有声读物等。CosyVoice的在线体验显示,其生成的语音自然流畅,支持定制化及高级情绪控制,超越竞品ChatTTS。SenseVoice在情感识别及长音频处理方面表现出色。
20619 26
|
14天前
|
机器学习/深度学习 Java API
FunAudioLLM 在教育领域的应用案例
【8月更文第28天】随着在线教育的兴起和技术的进步,高质量的语音合成技术变得越来越重要。FunAudioLLM(虚构名称)是一款先进的语音合成引擎,能够提供自然流畅的声音,尤其适用于教育领域,如语言学习、听力训练等。本文将详细介绍 FunAudioLLM 如何改善在线学习体验,并通过具体的代码示例展示其在教育领域的应用。
20 1
|
14天前
|
机器学习/深度学习 并行计算 算法
深度学习驱动的声音生成:FunAudioLLM的创新架构
【8月更文第28天】随着深度学习技术的发展,声音合成的质量得到了显著提升。本文将介绍 FunAudioLLM —— 一种基于深度学习的声音生成框架,旨在创造高质量、自然流畅的声音内容。我们将探讨 FunAudioLLM 的核心技术、训练流程及其实现细节,并提供一些示例代码。
17 0
|
14天前
|
机器学习/深度学习 算法 PyTorch
多模态融合在 FunAudioLLM 中的应用
【8月更文第28天】随着深度学习的发展,多模态融合技术已经成为构建更加智能和自然的人机交互系统的关键。FunAudioLLM(Fun Audio Language Model)是一种旨在结合音频与文本数据以实现更自然、更丰富的声音合成效果的框架。本文将详细介绍 FunAudioLLM 如何利用多模态融合技术,并提供具体的代码示例。
8 0
|
1月前
|
自然语言处理 测试技术 API
音频基座大模型FunAudioLLM
音频基座大模型FunAudioLLM
52 9
|
1月前
|
存储 自然语言处理 监控
FunAudioLLM大模型SenseVoice和CosyVoice测评
FunAudioLLM大模型SenseVoice和CosyVoice测评
|
2月前
|
机器学习/深度学习 自然语言处理 机器人
什么是自然语言生成技术
【7月更文挑战第27天】什么是自然语言生成技术
24 3

热门文章

最新文章