人工智能,应该如何测试?(五)ASR 效果测试介绍

简介: ASR是自动语音识别技术,将语音转化为文本,涉及多学科知识。数据收集是关键,包括特定人/非特定人、词汇量大小、发音方式、方言和情感等多种类别,高质量数据成本高。ASR流程包括数据收集、标注、输入算法得到文本输出并评估。常用评估指标有字错率(WER)、字正确率及插入/删除/替换率。数据标注需严格遵循规范,工作量大,而Levenshtein库可用于自动化效果评测。在AI领域,大部分时间投入在数据处理上。

什么是 ASR

ASR 是自动语音识别(Automatic Speech Recognition)的缩写,是一种将人的语音转换为文本的技术。这项技术涉及声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等多个学科。ASR 系统的性能受到识别词汇表的大小和语音的复杂性、语音信号的质量、单个说话人或多个说话人以及硬件等因素的影响。

数据收集

经过之前的介绍我们知道在评估模型的效果时,最重要的是收集到符合场景的测试数据。ASR 系统通常可以分为特定人和非特定人识别,以及小词汇量、中词汇量和大词汇量系统。根据语音的输入方式,可以分为孤立词、连接词和连续语音系统等。此外,还可以根据输入语音的发音方式(如朗读式和口语式)、方言背景(如普通话、方言背景普通话和方言语音识别系统)以及情感状态(如中性语音和情感语音识别系统)进行分类。 所以其实大家可以看出来,要收集这么多类别的语音素材,也是非常麻烦的。我们之前这里有个兄弟,为了收集到足够的数据,专门申请下来一笔经费在平台上发布悬赏 – 给定特定的文本,悬赏不同年龄,性别,方言等条件下的人来朗读这些文本,把语音文件发送给这位兄弟来换取钱财。 所以高质量数据的成本是不低的,记得我们前两个月有个项目, 项目上准备了 20W 的预算来采买数据。 这种数据比较难有取巧的方式,要不怎么说高质量数据是国内外模型最大的差距呢。

效果流程

  • 数据收集
  • 标注音频数据
  • 将音频输入 ASR 算法模块得到输出结果(一个文本)
  • 计算模型评估指标

评测数据集构建

这个我们上面说过,我们需要收集各种类别的数据,这部分工作十分重。不同的项目有不同的要求, 比如我这里列一个可以从网络上下载到的数据的样例:

  • 新闻类数据: 覆盖 40 个综合新闻以及 31 个省市的 44 个主要综合类新闻数据,每一类节目挑选一个视频,每个视频时长大约为 30-60 分钟。
  • 融媒体类数据:覆盖日报和电视台类输出的 app35 个,其中主要包含了下载超百万的 app,包含有(人民日报,大众日报,北京日报,湖北日报,广州日报,河北日报,工人日报,河南日报,光明日报,中国青年报,南方都市报,新华社,南方周末,新民,羊城派,,荔枝新闻),这一类 app 每个挑选 100 个视频素材,其余低下载量的选择 20 个素材(主要依据下载量的比例来确定挑选的测试数据比例)
  • 体育类,综艺类,影视剧类等等。。。。要搞数据太难了, 好在我们团队有专门的数据组。

数据标注规范

主要需要标注的内容有:文本转写,标点符号转写,说话人区间分离,无效数据区间标注。 这里还是只给一些规范上的样例:

  • 转写内容与实际发音内容一致,转写的字正确率要达到 99%;但是,对于因为口音或者个人习惯导致的音变,仍按照原内容转写。(比如把 “银行”,读成了 ying 2 hang2,按照 “银行” 转写;另外,对于多音字或实际生活中易混淆的字,按照原内容转写:比如办公室的 “室”,有的人读 shi3 ,有的人读 shi4 ,请按照正确的字 “办公室” 转写即可)

  • 转写内容的完整性要与实际发音一致,不得删减;(如发音为:我是北北京人;“北” 字有重复现象,那转写的时候要写成:我是北,北京人。)

  • 转写遇到人名时,按照常用字词表示即可,没有特定的字词规定。如:李珊、李山、李姗等;

  • 遇到数字,按照数字的汉字写法 “一二三” 形式,而不是 “123” 阿拉伯数字形式;(如果有电报读法,如幺幺零等,按照电报读法进行转写;)

  • 遇到网络用语时,如实际发音是 “灰常”“孩纸”“童鞋”,也应该写成 “灰常”“孩纸”“童鞋”,不能写成 “非常”“孩子”“同学”。

  • 儿化音:

    • 原音频有儿化音,则转写中应带有 “儿”,以 “哪儿” 为例,如果读出了儿化,则转写为 “哪儿”;
    • 原音频无儿化音,则转写中不应带有 “儿” -仍然以 “哪儿” 为例,如果发音人没读出儿化音,则转写为 “哪”;
  • 语气词: 音频中说话人清楚地讲出的语气词,如 “呃 啊 嗯 哦 唉” 等,要按照正确发音进行转写。

  • 英文:

    • 对于拼读格式(包括拼出的字母,首字母缩写词或者一些缩写),每一个被拼出的字母都应大写加空格。例如:M A R Y 而不是 mary 或者 MARY
    • 商标、品牌、注册名等都应以其原有、专有的格式出现, 例如: Hotmail dot com 而不是 hot mail dot com
  • 个别字词不确定的,在有意义的情况下,尽量用同音字代替。实在无法转写的,这句话切出无效。 -多人说话重叠部分,若能写出主说话人的内容,在这部分前后标记出/multi 标签。若无法转写主说话人的内容,这整句切出来无效标/unk 标签

因为规范比较多, 我就列一些规范上的样例, 所以大家也看到了, 数据标注的工作量也很高, 还好可以申请标注组的人力。

模型评估指标的计算

WER 字错率

WER(Word Error Rate)指的是机器翻译或者语音识别系统中,系统输出的单词与原始单词之间错误的比例。这个指标通常用于评估机器翻译或语音识别系统的性能。WER 的计算方式是将系统错误翻译的单词数除以总的单词数。

计算公式: WER 字错率=识别文本相对标注文本的编辑距离/标注文本总字数

代码示例:

import Levenshtein

text1 = "我是谁,我是一种测试人员啊"
text2 = "我是谁,我是一个研发人员啊"
distance = Levenshtein.distance(text1, text2)
print(f"The Levenshtein distance between '{text1}' and '{text2}' is {distance}.")
wer = distance/len(text1)
print(f"The wer is {wer}.")

字正确率

字正确率=识别正确的字数/标注文本总字数

插入/删除/替换率

插入率 = 插入操作的次数/标注文本总字数
删除率 = 删除操作的次数/标注文本总字数
替换率 = 替换操作的次数/标注文本总字数

代码示例:

import Levenshtein

def calculate_error_rates(ref, hyp):
    # 计算Levenshtein距离和编辑操作
    editops = Levenshtein.editops(ref, hyp)

    # 计算插入率、删除率和替换率
    insertions = 0
    deletions = 0
    substitutions = 0

    for op in editops:
        if op[0] == 'insert':
            insertions += 1
        elif op[0] == 'delete':
            deletions += 1
        elif op[0] == 'replace':
            substitutions += 1

    # 计算总字符数
    total_chars = len(ref) + len(hyp)

    # 计算插入率、删除率和替换率
    insertion_rate = insertions / total_chars
    deletion_rate = deletions / total_chars
    substitution_rate = substitutions / total_chars

    return insertion_rate, deletion_rate, substitution_rate

# 示例
ref = "我喜欢吃苹果"
hyp = "我欢吃橙子啊"

insertion_rate, deletion_rate, substitution_rate = calculate_error_rates(ref, hyp)

print(f"Insertion rate: {insertion_rate:.2%}")
print(f"Deletion rate: {deletion_rate:.2%}")
print(f"Substitution rate: {substitution_rate:.2%}")

总结

可以看到通过 Levenshtein 库我们可以比较容易的把效果的评测自动化起来, 当然前提是数据和标注都准备好~。 所以还是那句话,在人工智能领域中工作的人, 大部分时间都是花在数据上。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
软件测试中的人工智能革命:现状与未来展望
【10月更文挑战第2天】 本文深入探讨了人工智能在软件测试领域的应用现状、面临的挑战以及未来的发展方向。通过分析AI技术如何提高测试效率、准确性和自动化水平,文章揭示了AI在改变传统软件测试模式中的关键作用。同时,指出了当前AI测试工具的局限性,并对未来AI与软件测试深度融合的前景进行了展望,强调了技术创新对于提升软件质量的重要性。
68 4
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
软件测试中的人工智能:改变游戏规则的革新
在这篇技术性文章中,我们将深入探讨人工智能(AI)如何彻底改变了软件测试领域。从自动化测试到智能缺陷检测,AI不仅提高了测试的效率和准确性,还为软件开发团队提供了前所未有的洞察力。通过具体案例,本文揭示了AI在软件测试中应用的现状、挑战及未来趋势,强调了技术创新在提升软件质量与开发效率中的关键作用。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
软件测试中的人工智能:提升效率与准确性的新途径
在当今快速发展的技术领域,人工智能(AI)正成为软件测试的重要工具。本文将探讨AI在软件测试中的应用,如何通过智能化手段提高测试的效率和准确性。从自动化测试到缺陷预测,我们将深入了解AI如何改变传统的软件测试方式,为软件开发流程带来革命性的变化。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
软件测试中的人工智能:现状与未来
【10月更文挑战第6天】 本文探讨了人工智能在软件测试中的应用,包括自动化测试、智能缺陷分析以及测试用例生成等方面。通过案例分析和未来趋势预测,文章展示了AI如何提高软件测试的效率和准确性,并指出了当前面临的挑战和未来的发展方向。
50 1
|
2月前
|
机器学习/深度学习 人工智能 算法
软件测试中的人工智能:现状与未来
本文探讨了软件测试领域中人工智能的当前应用和未来发展,分析了AI技术在提升测试效率、准确性和自动化方面的潜力。通过实例展示了AI如何帮助发现复杂缺陷,并展望了AI在软件测试中的进一步应用前景。
|
2月前
|
机器学习/深度学习 人工智能 监控
软件测试中的人工智能革命
本文探讨了人工智能在软件测试中的应用及其带来的变革。通过分析AI如何提高测试效率、准确性,并减少人工干预,本文揭示了软件测试领域的未来趋势。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
软件测试中的人工智能革命:效率与准确性的双重提升
随着人工智能技术的不断进步,软件测试领域正经历着前所未有的变革。本文将探讨人工智能在软件测试中的应用及其对效率和准确性的提升。我们将分析传统软件测试的局限性,展示AI如何通过自动化测试、智能缺陷识别和预测性维护来克服这些挑战。此外,我们还将讨论AI在测试过程中面临的伦理和安全挑战,以及如何应对这些挑战。通过综合分析,本文旨在为读者提供一个关于软件测试中人工智能应用的全面视角,强调其在提高效率和准确性方面的巨大潜力。
67 5
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
软件测试中的人工智能革命:挑战与机遇
在本文中,我们将深入探讨人工智能(AI)如何改变软件测试领域的基本面貌。从自动化测试的崭新可能性到提高测试效率和准确性的先进方法,我们将全面分析AI带来的各种挑战和机遇。通过具体案例和实践指南,希望为读者提供清晰的理解和应用方向。
51 2
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
软件测试中的人工智能革命:提升测试效率与质量的新篇章
随着人工智能技术的不断成熟,其在软件测试领域的应用正逐渐改变传统测试方式。本文将探讨AI在软件测试中的应用现状、优势以及面临的挑战,并通过具体案例分析展示AI如何提高测试效率和质量。最后,我们将讨论未来AI在软件测试中的发展趋势及其对人类测试工程师角色的影响。
236 4
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
软件测试中的人工智能:现状与未来
本文探讨了人工智能在软件测试中的应用,包括自动化测试、智能缺陷分析以及测试用例生成等方面。通过案例展示了AI如何提升测试效率和质量,并讨论了当前面临的挑战及未来发展趋势。
下一篇
DataWorks