modelscope-funasr请教一个问题？

关于ModelScope-Funasr，我看到了离线的C++代码，其中针对热词有两部分，一部分是WFST，另一部分是nn。我发现目前代码中两部分都在使用。然而，在使用带有时间戳的ASR模型时，输入的热词会生效，例如将热词设置为"达摩园 100"，转写结果从"达摩院"变为"达摩园"。因此，我有一个疑问，nn部分仍然需要吗？但是我发现在推理过程中必须提供nnhotwords_embedding参数，即FunOfflineInfer函数的第5个参数。请问能否解答一下？

展开

收起

嘟嘟嘟嘟嘟嘟 2023-12-20 08:23:56 164 版权

阿里云 AI 助理回答

关于您提到的ModelScope-FunASR中热词处理的问题，以下是详细的解答：

1. 热词机制的两部分：WFST与nn

在ModelScope-FunASR中，热词机制分为两部分： - WFST（Weighted Finite State Transducer）：用于构建语言模型中的热词权重调整。通过WFST，可以在解码过程中动态地提升某些词汇的优先级，从而影响最终的转写结果。 - nn（神经网络嵌入）：通过神经网络生成热词的嵌入表示（embedding），并在推理过程中提供给模型。这部分的作用是为热词提供更细粒度的语义信息，以增强模型对热词的理解和识别能力。

根据您的描述，目前代码中这两部分都在使用，并且在带有时间戳的ASR模型中，输入的热词确实会影响转写结果（例如将“达摩院”转写为“达摩园”）。这表明WFST部分已经在发挥作用。

2. nn部分是否仍然需要？

尽管WFST部分已经能够有效调整热词的优先级，但nn部分仍然是必要的，原因如下： - 语义增强：nn部分通过神经网络生成热词的嵌入表示，能够捕捉到热词的语义特征。这对于复杂场景下的热词识别尤为重要，尤其是在多音字、同音词或上下文依赖较强的场景中。 - 模型兼容性：当前的FunOfflineInfer函数要求提供nnhotwords_embedding参数（即第5个参数）。如果省略该参数，可能会导致推理过程失败或结果不准确。这是因为模型的设计假设了nn部分的存在，并将其作为推理的一部分。

因此，即使WFST部分已经能够生效，nn部分仍然是不可或缺的。

3. 如何正确使用nn部分？

为了确保热词机制的完整性和准确性，建议按照以下步骤操作： 1. 生成热词嵌入： - 使用FunASR提供的工具或接口，为热词生成对应的神经网络嵌入（embedding）。例如，可以通过调用相关API或脚本完成这一过程。 - 确保生成的嵌入格式与模型要求一致（通常为浮点数向量）。

提供nnhotwords_embedding参数：

在调用FunOfflineInfer函数时，将生成的热词嵌入作为第5个参数传入。

示例代码结构如下：

# 假设已生成热词嵌入
nnhotwords_embedding = generate_hotword_embeddings(["达摩园 100"])

# 调用FunOfflineInfer函数
result = FunOfflineInfer(audio_data, wfst_hotwords, nnhotwords_embedding, ...)