面壁开源VoxCPM 2:2B 语音基础模型 = 30国语种 + 9大方言 + 音色复刻 + 影视级音质

简介: VoxCPM 2 是面壁智能联合OpenBMB、清华语音实验室推出的开源2B语音基础模型,支持30国语言+9大方言(含四川话、粤语等),具备音色设计、语音克隆、48kHz高保真合成能力,零人工配音即可实现《哆啦A梦》讲方言等效果,免费开源,开发者友好。

如果声音可以更改,你最想改变什么?

语言,声调,音色,情绪,甚至全凭想象,「无中生有」创造一个世界上完全不存在的声音……这是可能实现的目标吗?

当 VoxCPM 2 可以让《哆啦 A 梦》开始讲四川话,全过程 0 人类配音师,答案无需赘述——

📎0bc3decfgaaeviaeojwr2nuvigodkmmqiuya.f10002.mp4


中国特色方言,音色设计、通用音色可控(尤其是语音克隆),48k 高音质、高表现力……此前,海内外已开源的 TTS 语音模型往往需要多个模型才能实现上述所有功能,而面壁智能联合 OpenBMB 开源社区、清华大学人机语音交互实验室研发升级的 VoxCPM 2 只用一个 2B 语音基础模型就集成了所有。

Demo体验链接:

https://modelscope.cn/studios/OpenBMB/VoxCPM2-Demo

不仅如此,相比 VoxCPM 1 只有中英双语两种语言,VoxCPM 2 在多语种上的表现也有了极大改进——覆盖全球 30 国语言,尤其是东南亚主流 8 国语种,为东南亚出海提供了极大便利。

以面壁智能「小钢炮」广告片为例,VoxCPM 2为其创作的东南亚多国语言配音信手拈来,告别「机械音」的同时更有接地气的满满活人感:

📎0bc34iavqaabzaae356uabuvdywdldracwaa.f10002.mp4


一个 2B 模型,搞定视频创作、播客、配音、有声书、出海以及各大冲浪高手的声音需求,而且 开源、免费


四般武艺集于一身

在语音基础模型上,面壁智能同样遵循高效训练的「密度法则」(Densing Law),追求在尽可能小的参数规模上实现具有尽可能高的知识密度。VoxCPM 2 凭借仅 2B 的小尺寸,在语音生成上实现了惊人效果。

主要表现为将多语种、音色设计、通用音色可控与高音质&高表现力融于一体,为开发者与 AI 语音应用爱好者提供了广阔的开拓空间。

01 全球通:30国语言+9大方言

VoxCPM 2 支持全球 30 种主流语言,尤其在东南亚主流语种上做了别开生面的研发升级,覆盖8国主流语言,包括 越南语泰语印尼语老挝语缅甸语柬埔寨语菲律宾语马来西亚语

效果如何?可以看以下案例:

东南亚版《甄嬛传》滴血认亲名场面,泰语、越南语丝滑切换:

📎0bc34iceiaaefaafekorzvuvjywditrairaa.f10002.mp4


除了「国际范」,VoxCPM 2 在模型训练上也发挥了国产大模型团队的独特研发视角,掌握了 9 大中国方言,包括四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语,让你的语音 AI 不仅是「Tony」、也是「大壮」,不仅是「Lisa」、也可以是「翠花」。


02 百变声优:音色设计,文字即声音

在 VoxCPM 2 中,如果不想暴露真人声音,也找不到合适的配音师,即使没有参考声音,也可以根据你的想象创造出专属于你的、独一无二的「百变声优」。

为此,你只需要动动手指头,在 VoxCPM 2 上输入一段文字描述,对你所想象的声音音色、情绪、性别、年龄等等提出要求,VoxCPM 2 就能凭空创造出一个全新的音色。

让 VoxCPM 2 一口气生成 7 个音色,并让他们上演武侠大片:

📎0bc3kqdnmaagyuamgnwtezuvmvgd2zkanvqa.f10002.mp4


03 千人千面:通用音色可控

海内外大多语音模型在进行声音克隆时,仅支持少数几种固定音色的控制。为了打破这一限制,VoxCPM 2 采取了非主流的扩散自回归连续表征(Continuous Representation)技术路线,实现了 真正意义上的通用音色可控

相比传统 Token-based 的方法,扩散自回归架构可以保留更多的声学信息,使得声音克隆不再是生硬的拼凑,而是无比拟真、高度还原的语音再生。无论是情感起伏、情绪变化,乃至细微的呼吸声,都能最大相似度还原。

《西游记》女儿国国王:

《舌尖上的中国》叉烧介绍:


04 影视级配音:高音质、高表现力

采样率是评价音质的直接标准:8000Hz 仅能满足通话,16000Hz 只能达到清晰音质,而 VoxCPM 2 直接提升到了 48000Hz,进入高保真(Hi-Fi)级别!

VoxCPM 2 的高音质,让 AI 生成的语音可以应用于更广泛、对音质要求更高的领域,如影视配音。同时,声音的情感穿透力也会大幅提升。

《如果国宝会说话》英文版:

📎0bc3i4bhgaacxuago5oxnfuver6dondqe4ya.f10002.mp4

在高音质生成与还原下,声音的情绪、情感也经得起真实的考验,让人声临其境:

好用,开源!

VoxCPM 2 的出现,并不是为了取代谁,而是为了 解放每一个需要它的人

为此,面壁智能坚持开源,并在开发者友好上下了苦功。

VoxCPM 2 支持原生 Torch 推理、全参数微调和 LoRA 微调。无论你是拥有顶级算力的企业,还是只有一个小破本的个人小白,都有成熟的生态支持你「一键运行」。

VoxCPM 2 现已全面上线并同步开源。我们邀请全球开发者与创作者,一同开启高保真语音的新纪元。

准备好用声音搞点大事情了吗?点击下方开源、体验与下载链接,去创造属于你的声音世界吧!

体验链接

🔗 https://voxcpm.modelbest.cn/

🔗 https://modelscope.cn/studios/OpenBMB/VoxCPM2-Demo

GitHub

🔗 https://github.com/OpenBMB/VoxCPM/

魔搭社区

🔗 https://modelscope.cn/models/OpenBMB/VoxCPM2

点击直达模型体验:https://modelscope.cn/studios/OpenBMB/VoxCPM2-Demo

目录
相关文章
|
1月前
|
人工智能 Java 定位技术
【SpringAIAlibaba新手村系列】(16)调用百度 MCP 服务
本章展示如何在客户端接入第三方百度 MCP 服务。通过 spring-ai-starter-mcp-client、application.yml 与 mcp-server.json5 完成 stdio 方式连接,自动发现并注册远端工具到 ChatClient,实现天气、IP 归属地、路线规划等能力调用。
453 9
|
1月前
|
人工智能 测试技术 Apache
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
Google正式开源Gemma 4系列(Apache 2.0许可),含E2B/E4B(端侧多模态)、26B MoE与31B Dense四款模型。参数效率卓越:31B位列开放模型榜第3,26B第6;边缘模型支持128K上下文、原生音视频处理,单卡/手机均可高效运行。
1144 12
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
|
1月前
|
人工智能 监控 数据挖掘
影视解说视频自动化:AI 工作流 + CLI 工具链全流程拆解
本文分享AI影视解说的全流程实践:覆盖豆瓣数据选题、FFmpeg素材处理、Prompt优化文案、CLI一键合成、变量实验数据分析五大环节,详解工具链选型与真实局限,强调“能自动则自动,需判断则人工”,助力高效量产(日更3–5条),兼顾效率与可控性。(239字)
|
26天前
|
人工智能 自然语言处理 测试技术
DeepSeek V4:百万上下文,万亿参数,以及重新泛起涟漪的开源池塘
DeepSeek V4发布Pro(1.6T参数/49B激活)与Flash(284B/13B)双模型,均支持1M上下文、thinking模式及Agent能力。全栈开源(权重+技术报告+API+定价),采用混合注意力架构显著降本,中文长文本与推理能力突出,是当前少有的万亿级开源系统级发布
1579 4
DeepSeek V4:百万上下文,万亿参数,以及重新泛起涟漪的开源池塘
|
1月前
|
机器学习/深度学习 自然语言处理 算法
OpAgent开源:登顶 WebArena,蚂蚁集团开源全模态网页智能体
蚂蚁集团推出Web智能体OpAgent,仅凭自然语言指令即可在真实网站(如亚马逊)自主完成搜索、识别、加购等复杂操作。其采用视觉驱动理解、在线强化学习与模块化协作架构,在WebArena基准达71.6%任务成功率,刷新SOTA。已开源OpAgent-32B-INT4量化模型,显著降低推理门槛。
328 3
OpAgent开源:登顶 WebArena,蚂蚁集团开源全模态网页智能体

热门文章

最新文章