TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语音克隆工具!

简介: TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语音克隆工具!

前言


2023年被大家称为人工智能元年,在GPT技术不断爆火的背景下,人工智能技术也在不断的发展和演化。各种AI工具也层出不穷,其中 语音克隆技术 也是尤为引人瞩目的产品之一。


OpenVoice 作为一款强大的多语言即时语音克隆AI工具,可以为用户提供高效、个性化的语音克隆服务,是一款值得推荐的项目。


项目介绍


OpenVoicemyshell ai 开源的一款基于人工智能技术的语音克隆工具。


其核心功能是通过提供发言者的短音频片段(参考语音),实现声音的高效克隆。


这意味着您可以使用OpenVoice来克隆任何人的声音,而且不限于特定语言。无论您是想要模仿某位名人的声音,还是需要在不同语言之间进行语音转换,OpenVoice都能够满足您的需求。


项目地址:https://github.com/myshell-ai/OpenVoice


特色功能:


  • 准确的音色克隆:OpenVoice 可以准确克隆参考音色并生成多种语言和口音的语音。
  • 灵活的音色控制:OpenVoice 可以对语音风格(例如情感和口音)以及其他风格参数(包括节奏、停顿和语调)进行精细控制。
  • 零样本跨语言语音克隆:生成语音的语言和参考语音的语言都不需要出现在大规模说话人多语言训练数据集中。


项目贡献开发者:


  • 秦增一,麻省理工学院&MyShell
  • 赵文亮,清华大学
  • 于绪敏,清华大学
  •  Ethan Sun,MyShell


如何使用它?


OpenVoice的使用方法非常简单,同常用开源项目一样,需要如下步骤:

提前创建好Python3.9及以上的虚拟环境

1、访问OpenVoice项目地址,并将项目整体包下载下来,也可以借助git命令克隆到本地或云服务器。

git clone https://github.com/myshell-ai/OpenVoice.git

2、安装项目依赖库,依赖库列表在项目根目录下requirements.txt文件中。

pip install -r requirements.txt

3、下载官方提供的预训练模型,里面包含了英文和中文的预训练模型,还有转换器模型。


模型地址:https://myshell-public-repo-hosting.s3.amazonaws.com/checkpoints_1226.zip

模型包下载需要魔法,小编已提前准备好,如无法下载可在公众号内回复ov模型获取!

下载后将文件解压到项目根目录即可。


4、模型的执行


我们可以运行一下官方提供的demo_part1.ipynb,这个示例中使用了默认的录音文件作为目标音频,然后使用TTS输出原始音频进行转换。

如果你没有jupyter环境,可以尝试将其中的代码复制到py文件中运行,如果一切正常,你将会得到一个outputs文件夹,其中的tmp.wav为TTS原始音频,output_chinese.wav为转换后的目标音频,可以试听output_chinese.wav确认转换效果。

import os
import torch
import se_extractor
from api import BaseSpeakerTTS, ToneColorConverter
 
ckpt_converter = 'checkpoints/converter'
# 使用GPU进行计算
device = 'gpu'
output_dir = 'outputs'
 
# 加载基础模型
tone_color_converter = ToneColorConverter(f'{ckpt_converter}/config.json', device=device)
tone_color_converter.load_ckpt(f'{ckpt_converter}/checkpoint.pth')
# 创建输出目录
os.makedirs(output_dir, exist_ok=True)
# 训练音频
reference_speaker = 'resources/example_reference.mp3'
target_se, audio_name = se_extractor.get_se(reference_speaker, tone_color_converter, target_dir='processed', vad=True)
# TTS配置
ckpt_base = 'checkpoints/base_speakers/ZH'
base_speaker_tts = BaseSpeakerTTS(f'{ckpt_base}/config.json', device=device)
base_speaker_tts.load_ckpt(f'{ckpt_base}/checkpoint.pth')
source_se = torch.load(f'{ckpt_base}/zh_default_se.pth').to(device)
save_path = f'{output_dir}/output_chinese.wav'
text = "今天是1月26号,早安!"
src_path = f'{output_dir}/tmp.wav'
# TTS转换,speed为语速
base_speaker_tts.tts(text, src_path, speaker='default', language='Chinese', speed=0.9)
# 数字水印内容
encode_message = "@Python_fy"
# 运行转换
tone_color_converter.convert(
    audio_src_path=src_path, 
    src_se=source_se, 
    tgt_se=target_se, 
    output_path=save_path,
    message=encode_message)

特别重要:


如果出现了如下错误: HTTPSConnectionPool(host='huggingface.co', port=443)则可能是由于国内目前无法访问huggingface导致,因为执行过程需要下载一个pkl模型文件。


huggingface模型地址:https://huggingface.co/M4869/WavMark/resolve/main/step59000_snr39.99_pesq4.35_BERP_none0.30_mean1.81_std1.81.model.pkl


我们需要手动去下载模型文件,并修改源代码替换路径,在你的Python三方库安装位置下,site-packages\wavmark_init_.py中的第10行,进行修改,将其设置为本地读取即可。修改后的代码:

def load_model(path="default"):
    if path == "default":
        # resume_path = hf_hub_download(repo_id="M4869/WavMark",
        #                               filename="step59000_snr39.99_pesq4.35_BERP_none0.30_mean1.81_std1.81.model.pkl",
        #                               )
        resume_path = "C:/Users/Number/.cache/huggingface/hub/models--M4869--WavMark/step59000_snr39.99_pesq4.35_BERP_none0.30_mean1.81_std1.81.model.pkl"
 
    model = my_model.Model(16000, num_bit=32, n_fft=1000, hop_length=400, num_layers=8)
    checkpoint = torch.load(resume_path, map_location=torch.device('cpu'))
    model_ckpt = checkpoint
    model.load_state_dict(model_ckpt, strict=True)
    model.eval()
    return model

继续执行后,如果出现silero无法下载,可能是Git未设置代理,可能silero仓库无法正常拉取。导致运行时报下载超时的错误:

Traceback (most recent call last):
  File "C:\Python39\lib\site-packages\whisper_timestamped\transcribe.py", line 1885, in get_vad_segments
    _silero_vad_model, utils = torch.hub.load(repo_or_dir=repo_or_dir, model="silero_vad", onnx=onnx, source=source)
  File "C:\Python39\lib\site-packages\torch\hub.py", line 539, in load
    repo_or_dir = _get_cache_or_reload(repo_or_dir, force_reload, trust_repo, "load",
...省略若干调用链...
  File "C:\Python39\lib\http\client.py", line 289, in _read_status
    raise RemoteDisconnected("Remote end closed connection without"
http.client.RemoteDisconnected: Remote end closed connection without response

Silero地址:https://codeload.github.com/snakers4/silero-vad/zip/refs/heads/master


同样的需要手动下载,下载后将文件放在torch默认的缓存目录即可,一般指向的是:C:\Users\Number\.cache\torch\hub\,文件夹名称为:snakers4_silero-vad_master,将文件解压到这个文件夹下即可。

Linux用户的缓存目录可能在:/home/用户名/.cache

Mac用户的缓存目录可能在:/Users/用户名/.cache

以上资源包若都无法下载,也可在公众号内回复ov模型获取!


应用场景


  • 个性化语音助手:定制属于自己的个性化语音助手,为用户提供更加亲切贴心的服务体验。
  • 语音内容创作:为视频、广播等内容创作提供真实、个性化的配音声音。
  • 语音合成应用:用于各类语音合成应用领域,如教育、娱乐等。


总结


总的来说,OpenVoice是一款功能强大、灵活多样的语音克隆AI工具,具有广泛的应用前景和发展潜力。

但是通过实测你可能会发现对于中文的音调效果处理不太理想,可能是有由于该项目的实现借鉴于TTS,而它对于中文支持不太好的原因,您可以尝试使用真人发音或者换其它优秀的TTS生成原始音频再进行音色转换,这将会取得不错的效果。

相关文章
|
5天前
|
人工智能 自然语言处理 搜索推荐
AI与GIS工具引领企业变革
科技赋能企业转型:清华团队突破固态电池技术,AIGEO融合AI与GIS助力精准获客,降本增效。覆盖美妆、教育、金融等多领域,提升流量与转化率,推动数字化升级。(238字)
166 106
|
5天前
|
人工智能 缓存 监控
使用LangChain4j构建Java AI智能体:让大模型学会使用工具
AI智能体是大模型技术的重要演进方向,它使模型能够主动使用工具、与环境交互,以完成复杂任务。本文详细介绍如何在Java应用中,借助LangChain4j框架构建一个具备工具使用能力的AI智能体。我们将创建一个能够进行数学计算和实时信息查询的智能体,涵盖工具定义、智能体组装、记忆管理以及Spring Boot集成等关键步骤,并展示如何通过简单的对话界面与智能体交互。
107 1
|
3月前
|
存储 人工智能 自然语言处理
AI在法律行业难以从简单工具转变为认知引擎,法律知识图谱如何解决这一难题?
本文AI产品专家三桥君探讨了AI如何从法律行业的辅助工具升级为具备认知能力的智能引擎。通过构建法律知识图谱,AI可实现法条精准引用、案件智能分析等核心功能,解决法律语义鸿沟和动态更新等挑战。三桥君介绍了知识图谱的构建过程及其在案件匹配、法条推理中的应用场景,并展示了智能助理在录音转写、案例检索、文书生成等实务中的落地价值。三桥君认为,法律知识图谱将推动AI从工具属性向认知引擎跃迁,提升法律服务效率与透明度。
100 1
|
2月前
|
机器学习/深度学习 人工智能 算法
从人工决策到AI自主规划:2025物流配送管理工具的智能化升级
物流配送管理工具正经历技术革新,从手工调度1.0迈向数字孪生与AI驱动的4.0时代。新一代系统融合IoT、强化学习与路径优化算法,实现智能调度、实时执行与资源优化。多模态感知、自适应路由与弹性网络设计推动物流数字化转型。未来,量子计算、自主物流网络与认知型AI将重塑行业格局,助力物流向高效、绿色、韧性发展。
246 0
|
3月前
|
人工智能 开发框架 搜索推荐
AI Agent构建强大外部工具调用能力不足,MCP Server怎样应对?MCP Serve在企业级Agent系统中的关键意义
本文AI产品专家三桥君探讨了MCP Server在企业级AI Agent系统中的关键作用,通过标准化工具接口实现AI与外部服务的无缝集成。三桥君重点阐述了分布式系统中的会话管理、状态持久化等实践方案,强调MCP Server在降低AI决策风险、提升系统可靠性方面的企业价值,为AI产品经理提供了架构设计与优化策略的实践指导。
305 0
|
7天前
|
人工智能 数据可视化 数据处理
AI智能体框架怎么选?7个主流工具详细对比解析
大语言模型需借助AI智能体实现“理解”到“行动”的跨越。本文解析主流智能体框架,从RelevanceAI、smolagents到LangGraph,涵盖技术门槛、任务复杂度、社区生态等选型关键因素,助你根据项目需求选择最合适的开发工具,构建高效、可扩展的智能系统。
192 3
AI智能体框架怎么选?7个主流工具详细对比解析
|
6天前
|
传感器 人工智能 数据可视化
AI智能体框架怎么选?7个主流工具详细对比解析
大语言模型虽强,但缺乏行动力。AI智能体通过工具调用、环境感知与自主决策,实现从“理解”到“执行”的跨越。本文解析主流智能体框架,助你根据技术能力、任务复杂度与业务目标,选择最适合的开发工具,从入门到落地高效构建智能系统。(238字)
85 7
|
5天前
|
人工智能 NoSQL 关系型数据库
Ai驱动的项目管理工具安装教程
Dectask是一款基于AI的高性能项目管理工具,融合企业级功能与轻量体验,支持多种安装方式,普通安装的教程
46 3
|
14天前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。