CAM++说话人确认-中文-通用-200k-Spkrs iic/speech_campplus_sv_zh-cn_16k-common
对于以上模型,
from modelscope.pipelines import pipeline
sv_pipeline = pipeline(
task='speaker-verification',
model='damo/speech_campplus_sv_zh-cn_16k-common',
model_revision='v1.0.0'
)
speaker1_a_wav = 'https://modelscope.cn/api/v1/models/damo/speech_campplus_sv_zh-cn_16k-common/repo?Revision=master&FilePath=examples/speaker1_a_cn_16k.wav'
# 可以传入output_emb参数,输出结果中就会包含提取到的说话人embedding
result = sv_pipeline([speaker1_a_wav], output_emb=True)
print(result['embs'], result['outputs'])
这返回的result['embs'][0]的192维度的向量,在modelscope-funasr我希望自己做多个声纹的余弦相似度比较,还需要做什么额外处理吗?
这个模型本来就是用的余弦相似度。similarity = np.dot(embedding1, embedding2) / (norm(embedding1) * norm(embedding2)) 此回答整理自钉群“modelscope-funasr社区交流”