备案控制台

开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

在modelscope-funasr自己根据cos距离做聚类应该也是可以的吧？

我看有一个 iic/speech_xvector_sv-zh-cn-cnceleb-16k-spk3465-pytorch 这个模型，我把每个vad的embedding拿出来，在modelscope-funasr自己根据cos距离做聚类应该也是可以的吧？

展开

收起

三分钟热度的鱼 2024-03-06 20:06:18 18 0

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

是的，你可以使用modelscope-funasr中的聚类算法来对提取出的VAD embedding进行聚类。首先，你需要将每个VAD embedding转换为特征向量，然后使用聚类算法（如K-means或DBSCAN）对这些特征向量进行聚类。最后，你可以根据聚类结果对语音进行分组。

2024-03-08 20:11:53

赞同展开评论打赏
请看我回答~

阿里云大降价~
是的，您完全可以使用ModelScope-Funasr结合cos距离进行聚类。

在ModelScope-Funasr中，您可以使用预训练的模型（如iic/speech_xvector_sv-zh-cn-cnceleb-16k-spk3465-pytorch）提取语音的嵌入表示（embedding）。然后，您可以利用这些嵌入表示进行聚类分析，以识别不同的说话人或音频类别。

以下是使用ModelScope-Funasr进行聚类的基本步骤：
1. 提取嵌入表示：加载预训练模型，并使用它来提取输入语音数据的嵌入表示。
2. 计算cos距离：对于每对嵌入表示，计算它们的cosine相似度或距离。Cosine距离通常用于衡量两个向量之间的相似性，它在嵌入空间中非常有效。
3. 聚类算法：使用适当的聚类算法（如K-means、层次聚类等）对嵌入表示进行聚类。根据cos距离将相似的嵌入表示归为同一类别。
4. 评估和优化：评估聚类结果的准确性，并根据需要调整聚类算法的参数或选择不同的模型。
需要注意的是，聚类的效果会受到多种因素的影响，包括嵌入表示的质量、聚类算法的选择以及数据集的特性等。因此，在实践中可能需要进行一些调整和优化。

综上所述，使用ModelScope-Funasr结合cos距离进行聚类是完全可行的。通过提取嵌入表示、计算cos距离、应用聚类算法以及评估和优化，您可以实现对语音数据的聚类分析。
2024-03-07 18:57:30

赞同展开评论打赏

相关问答

modelscope-funasr的说话人日志在解决重叠语音上的效果会优于基于分割-聚类的方法吗？

37

0

0

modelscope模型的能力是否符合自己的需求，在modelscope平台有没有快捷入口方式？

14

1

0

请问ModelScope中，swift可以对自己sft之后的qwen1.5模型进行gptq量化吗？

5

1

0

ModelScope中，ocr模型连续识别188张图片后，报错要么就是进程直接被杀死，程序中断？

11

1

0

ModelScope中模型的训练，这个怎么解决一下啊？

7

1

0

ModelScope中，tts开源模型有没有那个男声的？

10

1

0

modelscope-funasr离线模型看文档写支持区分多个说话人，有相关的示例程序吗？

18

1

0

ModelScope中,为什么下载的llama3的8b 模型跟hf上不一样，文件大小和效果都不同吗?

64

1

0

ModelScope模型不识别，也安装不了,怎么解决?

14

1

0

请问ModelScope的大模型如何推理控制长度和 history?

16

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

热门讨论

热门文章

请问微调开元模型qwe1.5b 和 7b 分别支持数据集的上下文长度是多少个汉字/token？

如何提高qwen-7b-chat-int4的并行处理能力

modelscope-funasr这三种模型使用效果感觉一样，有什么差别吗？

练的pth模型文件，怎么转成bin文件？

modelscope-funasr支持粤语么？

modelscope-funasr的cpu服务部署目前就是不支持说话人识别吗，还是需要修改什么地方？

modelscope-funasr有没有提升推理时候单卡吞吐性能的最佳实践？

qwen下用finetune/finetune_lora_single_gpu.sh脚本执行微调失败

在modelscope-funasr目前支持方言识别么?比如粤语，上海话

如何下载llama模型到本地？

展开全部

LLM 大模型学习必知必会系列(一)：大模型基础知识篇

LLM 大模型学习必知必会系列(二)：提示词工程-Prompt Engineering 以及实战闯关

基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手（检索增强生成(RAG)大模型）

RAG：AI大模型联合向量数据库和 Llama-index，助力检索增强生成技术

检索增强生成(RAG)实践：基于LlamaIndex和Qwen1.5搭建智能问答系统

DashVector&千问7B模型，打造极简RAG 之基于专属知识的问答服务实践

ModelScope X 昇腾910快速上手

使用ModelScope社区搭建OCR应用

AI智能写作工具

高通量基因测序在药物研发和靶向治疗中的应用（一）

展开全部

相关课程

更多

个性化语音合成模型微调

40

1

去学习

ModelScope社区Library技术架构介绍

174

1

去学习

相关电子书

更多

视觉AI能力的开放现状及ModelScope实战 立即下载

ModelScope助力语音AI模型创新与应用 立即下载

低代码开发师（初级）实战教程 立即下载