FunAudioLLM试炼

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 音频基座大模型FunAudioLLM,可以想你朋友一样和你对话,情感语境的识别,突破物理限制。

FunAudioLLM
音频基座大模型FunAudioLLM,包含两大模型SenseVoice和CosyVoice。开源代码库为https://github.com/FunAudioLLM。主要的作用SenseVoice是为了识别声音,CosyVoice则是为了生成有感情的朗读内容。
工作环境: https://www.modelscope.cn/studios/iic/SenseVoice,
https://www.modelscope.cn/studios/iic/CosyVoice-300M
语音识别最主要的功能就是方言的识别,尝试了一下甘肃的方言,没有识别:
image.png

使用音乐试一下是否可以生成想要的音乐模式,上传后可以识别,并且有对应的语气和情感的识别,功能还是非常具有眼前一亮的效果的。
image.png

识别语言的语气和情感则是区别机器和人的最重要的区别。并且可以实现不同语言语境的切换,非常厉害。
image.png

语言生成:
image.png

有多种的语音的生成,还可以具有不同的语言模式,整体生成的效果非常好,就和正常的朗读一般,这将对机器的发声非常有帮助。适应于不同的语境和不同的场景,例如机器拨打电话,就可以很大程度的模仿人类,或者车站播报,播报是相对于具有机械性质的语言模式。

AI代码分析,两个工程主要实现语言是python,工程的安装具有一定的挑战,并且AI的计算需要硬件的支持,这是非常大的痛点。
image.png

使用方式简单,就是只需要引入对应的module,然后调用即可。

from cosyvoice.cli.cosyvoice import CosyVoice
from cosyvoice.utils.file_utils import load_wav
import torchaudio

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-SFT')
# sft usage
print(cosyvoice.list_avaliable_spks())
output = cosyvoice.inference_sft('你好,我是通义生成式语音大模型,请问有什么可以帮您的吗?', '中文女')
torchaudio.save('sft.wav', output['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M')
# zero_shot usage, <|zh|><|en|><|jp|><|yue|><|ko|> for Chinese/English/Japanese/Cantonese/Korean
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
output = cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k)
torchaudio.save('zero_shot.wav', output['tts_speech'], 22050)
# cross_lingual usage
prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
output = cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that\'s coming into the family is a reason why sometimes we don\'t buy the whole thing.', prompt_speech_16k)
torchaudio.save('cross_lingual.wav', output['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice-300M-Instruct')
# instruct usage, support <laughter></laughter><strong></strong>[laughter][breath]
output = cosyvoice.inference_instruct('在面对挑战时,他展现了非凡的<strong>勇气</strong>与<strong>智慧</strong>。', '中文男', 'Theo \'Crimson\', is a fiery, passionate rebel leader. Fights with fervor for justice, but struggles with impulsiveness.')
torchaudio.save('instruct.wav', output['tts_speech'], 22050)
相关文章
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
AI视频大模型Sora新视角:从介绍到商业价值,全面解读优势
Sora是OpenAI于`2024年2月16日`发布的文生视频模型,`能够根据用户输入的提示词、文本指令或静态图像,生成长达一分钟的视频`,其中既能实现多角度镜头的自然切换,还包含复杂的场景和生动的角色表情,且故事的逻辑性和连贯性极佳。
|
5月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12407 116
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
FunAudioLLM与知名模型对比
FunAudioLLM与知名模型对比
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
音频基座大模型FunAudioLLM评测
通义语音团队最新开源了音频基座大模型FunAudioLLM,包含两大模型SenseVoice和CosyVoice。本文对这两种大模型进行整体的评测。
124 1
音频基座大模型FunAudioLLM评测
|
3月前
|
机器学习/深度学习 自然语言处理 人机交互
音频基座大模型FunAudioLLM体验评测
一文带你详细了解音频基座大模型FunAudioLLM
457 5
|
4月前
|
机器学习/深度学习 Java API
FunAudioLLM 在教育领域的应用案例
【8月更文第28天】随着在线教育的兴起和技术的进步,高质量的语音合成技术变得越来越重要。FunAudioLLM(虚构名称)是一款先进的语音合成引擎,能够提供自然流畅的声音,尤其适用于教育领域,如语言学习、听力训练等。本文将详细介绍 FunAudioLLM 如何改善在线学习体验,并通过具体的代码示例展示其在教育领域的应用。
116 1
|
4月前
|
自然语言处理 测试技术 API
音频基座大模型FunAudioLLM
音频基座大模型FunAudioLLM
94 9
|
4月前
|
存储 自然语言处理 监控
FunAudioLLM大模型SenseVoice和CosyVoice测评
FunAudioLLM大模型SenseVoice和CosyVoice测评
|
4月前
|
机器学习/深度学习 算法 PyTorch
多模态融合在 FunAudioLLM 中的应用
【8月更文第28天】随着深度学习的发展,多模态融合技术已经成为构建更加智能和自然的人机交互系统的关键。FunAudioLLM(Fun Audio Language Model)是一种旨在结合音频与文本数据以实现更自然、更丰富的声音合成效果的框架。本文将详细介绍 FunAudioLLM 如何利用多模态融合技术,并提供具体的代码示例。
63 0
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
CosyVoice 与 SenseVoice:阿里FunAudioLLM两大语音生成项目的深度评测
近年来,基于大模型的语音人工智能技术发展迅猛,为自然语音人机交互带来新的可能。通义语音大模型无疑是这一领域的佼佼者。它涵盖了语音理解与语音生成两大核心能力,可支持多种语音任务,包括多语种语音识别、语种识别、情感识别、声音事件检测以及语音合成等
1342 1

热门文章

最新文章