备案控制台

开发者社区 ModelScope模型即服务正文

modelscope-funasr需要做类似这种效果，有方案吗？

modelscope-funasr需要做类似这种效果，有方案吗？
说话人1：巴拉巴拉
说话人2：拉吧拉吧
说话人1：xxxyyy

展开

收起

嘟嘟嘟嘟嘟嘟 2024-01-05 07:58:31 240 版权

3 条回答

写回答

取消提交回答

sunrr

根据您提供的需求，您希望使用ModelScope-FunASR来实现说话人识别和转换的效果。ModelScope-FunASR作为一个语音识别基础框架，提供了丰富的工业级语音识别模型，可以帮助您实现类似的语音处理效果。

要实现说话人识别的效果，您可以利用FunASR提供的说话人确认模型（Speaker Verification）。这是一个基于ResNet34的模型，可以在达摩院语音实验室的ModelScope平台上找到。该模型已经过预训练，可以在CN-Celeb 1&2和会议场景数据集AliMeeting上进行微调，以适应您的具体应用场景。

此外，FunASR还开源了基于Meta AI的Data2vec预训练模型。这个模型可以作为特征提取器使用，也可以进一步微调以用于语音识别任务。

要实现说话人转换的效果，您可能需要使用到语音合成（Text-to-Speech, TTS）的技术。FunASR并没有直接提供TTS模型，但达摩院语音实验室在ModelScope社区开源了多个语音合成模型，如基于FastSpeech2和WaveRNN的模型。这些模型可以用于将文本转换为不同说话人的声音。

结合以上信息，您可以使用ModelScope-FunASR提供的说话人确认模型进行说话人识别，并利用语音合成模型实现说话人转换的效果。不过，这需要您有一定的深度学习和语音处理的知识背景，以便能够正确地使用这些模型，并进行必要的微调以适应您的具体需求。

如果您是初学者，或许可以考虑使用一些现成的语音应用平台，如阿里云语音合成和语音识别服务，这些服务提供了API接口，让您能够更便捷地实现类似的功能，而不需要深入了解背后的技术细节。

2024-01-09 11:55:19

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

对于这种需要区分不同说话人的效果，您可以使用ModelScope-FunASR中的多说话人识别功能。具体来说，您需要准备一个包含多个说话人的音频数据集，然后使用ModelScope-FunASR提供的脚本和工具来训练一个多说话人识别模型。

在训练过程中，您需要指定每个说话人的标识符（例如说话人1、说话人2等），并确保每个说话人的音频数据都被正确地标注。此外，您还需要选择合适的深度学习模型架构和参数设置，以便获得最佳的识别性能。

一旦训练完成，您可以使用ModelScope-FunASR提供的推理工具来对新的音频数据进行多说话人识别。这样，您就可以准确地识别出每个说话人说的内容了。

2024-01-06 11:59:02

赞同展开评论
番茄酱脑袋

我们有产品，通义听悟api。此回答整理自钉群“modelscope-funasr社区交流”

2024-01-05 09:02:58

赞同展开评论

相关问答

modelscope-funasr的热词方案对热词的数量有要求吗，如果有上万个热词，这个方案还行吗？

411

1

0

modelscope-funasr系列，有直接输出srt格式的asr方案嘛？

244

1

0

modelscope 的实时语音通话案例，有类似的方案吗？

146

1

0

ModelScope中，windows上有什么其他文本转语音的方案吗？

143

1

0

modelscope-funasr有没有Python下的多并发方案？

196

1

0

modelscope-funasr目前有关于方言检测的方案吗？

83

0

0

modelscope-funasr有没有推荐的能加热词转录的方案？

89

0

0

modelscope-funasr有http方案吗？

112

0

0

modelscope-funasr的粤语或者方言检测有什么方案？

124

0

0

modelscope方案里怎么控制返回的切片数量？

93

1

0

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉群号：44837352

我要提问

相关文章

企业级AI数字员工技术选型指南：玄晶引擎全链路架构 vs 垂类AI工具的核心差异

AI 英语学习 APP的开发

商用迎宾机器人技术深度解析与主流解决方案调研

深度解析迎宾机器人技术架构与主流产品选型指南

迎宾机器人技术深度解析与主流产品选型指南

热门讨论

热门文章

我希望通过damo-YOLO训练1500*1500的图片

ModelScope中，模型下载默认路径在哪个路径？

ModelScope中apikey在哪申请？

dataset的版本问题导致与modelscope不兼容

ModelScope下载速度慢怎么解决？

如何下载modelscope模型？

在modelscope-funasr想自己训练一种low resource 的方言，有训练的方案吗？

modelscope这个下载有点慢呀，好几次都超时了，怎么解决？

com/action/joingroup?code=v1是什么意思

关于 Windows平台上 ttsfrd 库的问题。

展开全部

Z-Image：冲击体验上限的下一代图像生成模型

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

Agent Skills技术协议与开源实现，让大模型拥有“即插即用”技能

共学 | 2025年，更加有效地搭建Agent

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

Z-Image Turbo LoRA训练魔法：如何保持加速生图能力

Meta SAM3开源：让图像分割，听懂你的话

中文大模型体验

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

通义百聆语音双子星，同步开源！

展开全部

还有其他疑问?