文档备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

modelscope-funasr的docker最新的0.4.4版本,是否有识别不同人说话的功能？

modelscope-funasr的docker最新的0.4.4版本,是否有识别不同人说话的功能？比如说话人1:你好, 说话人2:你是谁

展开

收起

三分钟热度的鱼 2024-03-27 17:07:17 417 版权

2 条回答

写回答

取消提交回答

mrq4nk6ni2neg
ModelScope-FunASR的0.4.4版本确实识别不同人说话的功能。

在语音识别领域，识别不同说话者的能力通常被称为“说话人识别”（Speaker Diarization）。这项功能使得语音识别系统能够区分并标识出音频中不同说话者的话语。对于ModelScope-FunASR来说，其集成的Paraformer-large模型不仅提供了一般的语音到文本的转换能力，还具备了先进的特性，包括说话人识别。

具体来说，使用ModelScope-FunASR进行说话人识别的基本步骤如下：
1. 准备音频文件：确保您的音频文件中包含有多个说话者的声音，并且音频质量良好。
2. 选择相应模型：在ModelScope-FunASR中选择合适的模型进行语音识别。根据您提到的需求，应该选择支持说话人识别的模型。
3. 运行识别命令：使用ModelScope-FunASR提供的命令行工具或API，将音频文件作为输入执行语音识别。
4. 分析识别结果：在识别结果中，系统会标注出不同说话者的话语部分，通常通过不同的标签或分隔符来区分。
综上所述，ModelScope-FunASR的最新版本确实具备识别不同人说话的功能，这对于多说话者场景下的语音识别非常重要。
2024-03-28 22:28:44

赞同展开评论
圆不溜秋的小猫猫

暂时不支持
此回答整理自钉群“modelscope-funasr社区交流”

2024-03-27 17:21:33

赞同展开评论

相关问答

dataset的版本问题导致与modelscope不兼容

7406

2

0

modelscope官方docker镜像下载后在windows下如何运行

1327

2

0

modelscope-funasr有没有docker镜像能支持角色分离的？

1112

13

0

modelscope-funasr的docker里修改了，为啥没有生效啊？

257

0

0

在modelscope-funasr需要增加录音文件的存储功能具体是修改哪个文件啊？

246

0

0

docker部署modelscope-funasr如何识别不同人说话？

527

0

0

modelscope-funasr实现runtime编译成sdk后怎么支持说话人分离？

660

0

0

modelscope-funasr安装docker哪个镜像好用？

336

0

0

modelscope-funasr能在doker服务里部署docker 服务吗？

363

1

0

在modelscope-funasr想使用8k的实时转写asr，用哪个模型呢？

227

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

AI 自动化阅卷系统的开发

Qwen-Audio-3.0-TTS：AI语音从“能说话”到“会带情绪表达”的技术跃迁

ACK + GraalVM Native Image 实战：Spring Boot 3.4 从500ms到50ms启动的云原生 Java

阿里云 ECS 部署Hermes Agent+百炼Coding Plan/Token Plan配置流程

【新版】阿里云云服务器ECS（按量付费）功能介绍及配置价格表

热门讨论

热门文章

modelscope-funasr 热词如何设置？

modelscope的palm模型，对联生成模型训练的src_text通过什么算法确定？

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

如何将文本向量CoROM模型转为ONNX或TorchScript格式

关于使用ModelScope离线启动已下载过的模型时遇到的问题

本地无法加载模型

modelscope-funasr使用bytes类型数据传入，识别效果很差怎么解决？

GPT-3 SFT微调模型-中文-1.3B能够在单机八卡（A800）的环境下运行吗？

请问微调开元模型qwe1.5b 和 7b 分别支持数据集的上下文长度是多少个汉字/token？

embedding模型部署调用出现接口调用不一致

展开全部

使用宝塔面板部署 AstrBot 与 NapCat 实现 QQ 机器人

OpenAI 12天发布会内容全纪录！一文快速回顾获知亮点信息，原文附发布会中文字幕视频

Bamba-9B：基于 Mamba2 架构的仅解码语言模型，旨在提高大型语言模型在推理时的效率

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

CodeArena：在线 LLM 编程竞技场！用于测试不同开源 LLM 的编程能力，实时更新排行榜

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

Botgroup.chat：超有趣的开源 AI 聊天室！多个 AI 在线互怼，一键搭建你的专属 AI 社群

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

告别Hugging Face模型下载难题：掌握高效下载策略，畅享无缝开发体验

Jina Reader：一键将网页内容转为适合 LLM 处理的文本格式，自动抓取和清洗网页内容，支持多种输出格式

展开全部

还有其他疑问?