Clone-voice:开源的声音克隆工具,支持文本转语音或改变声音风格,支持16种语言

简介: Clone-voice是一款开源的声音克隆工具,支持16种语言,能够将文本转换为语音或将一种声音风格转换为另一种。该工具基于深度学习技术,界面友好,操作简单,适用于多种应用场景,如视频制作、语言学习和广告配音等。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持文字到语音和声音到声音的转换,以及多语言支持。
  2. 技术:基于coqui.ai的xtts_v2模型,采用Mel-spectrogram进行特征提取。
  3. 应用:广泛应用于视频制作、语言学习、广告配音和游戏开发等领域。

正文(附运行示例)

Clone-voice 是什么

公众号: 蚝油菜花 - clone-voice

Clone-voice是一款开源的声音克隆工具,基于深度学习技术分析和模拟人类声音,实现声音的高质量克隆。该工具支持包括中文、英文、日语、韩语等在内的16种语言,能将文本转换为语音或将一种声音风格转换为另一种。

Clone-voice的界面友好,操作简单,不需要高性能的硬件支持,适合个人和专业领域使用。其应用场景广泛,包括娱乐、教育、媒体广告和语音交互等,为数字内容创作和个性化声音资源提供新的可能性。

Clone-voice 的主要功能

  • 文字到语音转换:用户输入文本,选择音色,工具将生成使用该音色朗读文本的语音。
  • 声音到声音转换:用户上传音频文件,选择音色,工具将生成一个新的音频文件,音色与所选音色相似。
  • 多语言支持:支持中文、英文、日文、韩文、法文、德文、意大利文等16种语言。
  • 在线录制声音:用户能直接用工具在线录制声音。

Clone-voice 的技术原理

  • 基础模型:工具所用模型为coqui.ai推出的xtts_v2。
  • 数据预处理:对输入的音频文件进行采样率转换和分帧等预处理操作,为后续的特征提取和模型训练搭建基础。
  • 特征提取:用Mel-spectrogram对音频信号进行表示,将音频信号转换为适合机器学习模型处理的图像形式。

如何运行 Clone-voice

预编译版使用方法

  1. 点击此处打开Releases下载页面,下载预编译版主文件(1.7G) 和 模型(3G)。
  2. 下载后解压到某处,比如 E:/clone-voice 下。
  3. 双击 app.exe ,等待自动打开web窗口,请仔细阅读cmd窗口的文字提示,如有错误,均会在此显示。
  4. 模型下载后解压到软件目录下的 tts 文件夹内。
  5. 转换操作步骤:
  • 选择【文字->声音】按钮,在文本框中输入文字、或点击导入srt字幕文件,然后点击“立即开始”。
  • 选择【声音->声音】按钮,点击或拖拽要转换的音频文件(mp3/wav/flac),然后从“要使用的声音文件”下拉框中选择要克隆的音色,如果没有满意的,也可以点击“本地上传”按钮,选择已录制好的5-20s的wav/mp3/flac声音文件。或者点击“开始录制”按钮,在线录制你自己的声音5-20s,录制完成点击使用。然后点击“立即开始”按钮。

源码部署方法

  1. 要求 python 3.9->3.11, 并且提前安装好 git-cmd 工具,下载地址
  2. 创建空目录,比如 E:/clone-voice, 在这个目录下打开 cmd 窗口,方法是地址栏中输入 cmd, 然后回车。使用git拉取源码到当前目录 git clone git@github.com:jianchang512/clone-voice.git .
  3. 创建虚拟环境 python -m venv venv
  4. 激活环境,win下 E:/clone-voice/venv/scripts/activate
  5. 安装依赖: pip install -r requirements.txt --no-deps
  6. win下解压 ffmpeg.7z,将其中的ffmpeg.exeapp.py在同一目录下, linux和mac 到 ffmpeg官网下载对应版本ffmpeg,解压其中的ffmpeg程序到根目录下,必须将可执行二进制文件 ffmpeg 和app.py放在同一目录下。
  7. 首先运行 python code_dev.py,在提示同意协议时,输入 y,然后等待模型下载完毕。
  8. 下载完毕后,再启动 python app.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
11天前
|
人工智能 搜索推荐 API
Cobalt:开源的流媒体下载工具,支持解析和下载全平台的视频、音频和图片,支持多种视频质量和格式,自动提取视频字幕
cobalt 是一款开源的流媒体下载工具,支持全平台视频、音频和图片下载,提供纯净、简洁无广告的体验
148 9
Cobalt:开源的流媒体下载工具,支持解析和下载全平台的视频、音频和图片,支持多种视频质量和格式,自动提取视频字幕
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
Manga Image Translator 是一款开源的漫画图片文字翻译工具,支持多语言翻译并能将翻译后的文本无缝嵌入原图,保持漫画的原始风格和布局。该工具基于OCR技术和深度学习模型,提供批量处理和在线/离线翻译功能。
82 14
Manga Image Translator:开源的漫画文字翻译工具,支持多语言翻译并嵌入原图,保持漫画的原始风格和布局
|
29天前
|
人工智能 物联网 PyTorch
ChatTTSPlus:开源文本转语音工具,支持语音克隆,是 ChatTTS 的扩展版本
ChatTTSPlus 是一个开源的文本转语音工具,是 ChatTTS 的扩展版本,支持语音克隆、TensorRT 加速和移动模型部署等功能,极大地提升了语音合成的性能和灵活性。
90 5
ChatTTSPlus:开源文本转语音工具,支持语音克隆,是 ChatTTS 的扩展版本
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目,能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景,提升用户体验。
93 7
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
|
10天前
|
机器学习/深度学习 API 语音技术
鸿蒙开发:文本合成语音
在鸿蒙当中,如何实现根据指定的文本进行合成语音合成播放呢,其实也是非常的简单,因为鸿蒙当中也有textToSpeech。
|
3月前
|
机器学习/深度学习 搜索推荐 语音技术
进阶教程:优化语音克隆效果与提升TTS自然度
【10月更文挑战第20天】语音克隆技术和基于文本到语音(Text-to-Speech, TTS)系统的应用已经在诸多领域展现出了巨大的潜力,从智能助手到个性化客服,再到教育和娱乐产业。作为一名在语音技术领域有着多年实践经验的研发人员,我希望通过本文分享一些我个人在优化语音克隆效果与提升TTS自然度方面的经验和见解,帮助那些已经具备了一定基础并希望进一步提升自身技能的同行们。
78 0
|
3月前
|
机器学习/深度学习 数据采集 语音技术
初学者指南:从零开始探索语音克隆与TTS技术
【10月更文挑战第20天】随着人工智能技术的飞速发展,语音克隆和文本转语音(Text-to-Speech, TTS)技术已经不再是科幻小说中的情节。如今,这些技术已经广泛应用于智能助手、语音导航、有声书等领域。作为一名对这些前沿技术感兴趣的初学者,本文将带你从零开始探索语音克隆与TTS技术,了解其基本原理,并动手实践制作自己的第一个语音克隆样本或TTS应用。
187 0
|
7月前
|
人工智能 自然语言处理 机器人
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
【6月更文挑战第26天】字节跳动的Seed-TTS是先进的文本转语音系统,生成与人类语音难辨别的声音,并允许编辑。模型通过语音、文本编码器、解码器和声码器实现高保真、可控及多样化的语音生成。应用于智能客服、有声读物、导航,提升用户体验。虽在多模态任务、长文本生成、实时应用及隐私问题上面临挑战[[arxiv.org/pdf/2406.02430](https://arxiv.org/pdf/2406.02430)]。
141 7
|
6月前
|
语音技术
word文档生成视频,自动配音、背景音乐、自动字幕,另类创作工具
这是一个Markdown格式的摘要: --- 这款工具独特之处在于它允许用户通过在Word文档中添加文字和图片来创作视频,包括配音、字幕和背景音乐。软件界面虽显复杂,但生成视频只需四步:选择Word文档、添加音乐、设置保存路径、点击开始生成。最新版1.15b改进了字幕自动换行功能,支持手动调整,修复了网络错误、文件路径问题和图片缩放等错误。软件提供永久免费使用,支持离线生成(需自建TTS),并鼓励用户自定义TTS和特效插件。下载链接可在官方页面找到。 --- 请注意,实际字符数可能会根据Markdown格式的要求略有变动,但主要内容已经压缩在这个范围内。
|
机器人 语音技术
神器 | 文本转语音,直接可以合成多人多风格音频了!
为了适应更多的音频使用场景和需求,近期我们将文本转语音服务进行了升级,全新的功能将成为你配音工具的不二之选。
481 1

热门文章

最新文章