开发者社区> ModelScope模型即服务> 语音

语音

关注

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

0
今日
291
内容
0
活动
277
关注
|
5天前
|
人工智能 数据挖掘 大数据
|

Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等

Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型,能够根据歌词和伴奏直接生成说唱音乐。该模型基于语言模型生成语义标记,并通过条件流匹配模型和神经声码器生成高质量音频。Freestyler还推出了RapBank数据集,支持零样本音色控制和多种应用场景。

48 16
|
5天前
|
人工智能 自然语言处理 人机交互
|

CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性

CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。

140 22
|
9天前
|
人工智能 物联网 PyTorch
|

ChatTTSPlus:开源文本转语音工具,支持语音克隆,是 ChatTTS 的扩展版本

ChatTTSPlus 是一个开源的文本转语音工具,是 ChatTTS 的扩展版本,支持语音克隆、TensorRT 加速和移动模型部署等功能,极大地提升了语音合成的性能和灵活性。

56 5
|
12天前
|
机器学习/深度学习 人工智能 开发工具
|

Clone-voice:开源的声音克隆工具,支持文本转语音或改变声音风格,支持16种语言

Clone-voice是一款开源的声音克隆工具,支持16种语言,能够将文本转换为语音或将一种声音风格转换为另一种。该工具基于深度学习技术,界面友好,操作简单,适用于多种应用场景,如视频制作、语言学习和广告配音等。

85 9
|
13天前
|
机器学习/深度学习 人工智能 达摩院
|

ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能

ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法,能够有效消除背景噪声,保留语音清晰度,并提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务。

98 3
|
13天前
|
机器学习/深度学习 人工智能 Linux
|

Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言

Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音(TTS)模型,支持13种语言,具备零样本和少样本语音合成能力,语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT,具有高度准确性和快速合成能力,适用于多种应用场景。

82 3
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
|

Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务

Voice-Pro是一款开源的多功能音频处理工具,集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等多种功能。它支持超过100种语言,适用于教育、娱乐和商业等多个领域,为用户提供一站式的音频处理解决方案,极大地提高工作效率和音频处理的便捷性。

90 10
|
4月前
|
语音技术
|

kws_util 下载不了

用户在树莓派上安装了一个语音唤醒环境,并使用了CTC语音唤醒模型“小云小云”。但在执行推理时遇到了错误。已尝试安装[kws_tuil],安装不成功,更换镜像后仍然安装失败,目前无法解决此问题。

70 1
|
7月前
|
监控 语音技术 异构计算
|

使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢

使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢

590 2
|
语音技术
|

同一个语音为什么识别结果还不一致的,有大佬知道原因吗(Paraformer语音识别-中文-通用-16k-离线-large-热词版)

模型speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404,在线体验同一个语音识别结果不一致(https://modelscope.cn/models/damo/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/summary)

324 0

ModelScope官方镜像,CPU环境镜像(python3.8)pull不存在

在pullModelScope官方镜像时,一直pull失败,发现官方镜像应该没有推送,Python3.7的是有的

559 0

KAN-TTS 在 conda 环境下无法安装 ttsfrd

KAN-TTS 基于conda安装环境的时候无法安装ttsfrd,但在退出conda后,在系统中可以安装

1256 0
|
自然语言处理
|

智能降噪

智能降噪简介

1098 0

语音识别

语音识别简介

677 0
我要发布