解密:依图如何一年实现语音识别指标超巨头玩家

简介: 年底,尽管资本寒冬的声音不绝于耳,但勇者往往无畏。在第四波 AI 浪潮下快速成长起的「小巨头」并没有停下开疆拓土的脚步。人脸、语音等多模态生物识别技术的融合成为人工智能应用的发展趋势之一。

12 月 11 日,擅长计算机视觉技术解决方案的依图科技在北京公开展示了语音识别领域的最新技术成果,并表示将在近期开放依图语音识别 API 接口以及部分测试数据集。同时,依图科技还宣布,将基于其语音识别技术与微软 Azure、华为推出联合方案平台。


01 最优测试结果如何保证客观性?


活动现场,依图首先展示了其语音识别小程序「听写大会」在歌词识别、飞机机舱混响环境下的播报识别结果,以及依图语音识别 API 在公开数据集、依图自有数据集、非公开数据集三类数据集上的平均错字率(CER)表现。


微信图片_20211130163327.jpg


测试结果均以横向对比的形式体现,横向对比的其他主流方案包括讯飞听见、讯飞开放平台、云知声开放平台、阿里一句话、腾讯 AI 平台、百度语音-远场、百度语音-输入法、百度语音-搜索。


数据集是测试结果公正性的重要依据,为体现数据集的科学性和多样性。依图测试过程中涉及到的公开测试数据集包括:


  1. 全球最大中文普通话数据库 AISHELL1、AISHELL2(采用 iOS 系统,Android、Mic 性能类似,省略)、中文语音语料 THCHS30、PrimeWord、ST-CMDS;
  2. 依图自有数据集包括安静对话、混响数据集;
  3. 非公开数据集,即向第三方购买的数据集,包括语音助手场景、电话闲聊、电话客服、远场演讲、口音等场景的数据。


微信图片_20211130163324.jpg


依图科学家吴双博士表示,该批测试完成于 2018 年 11 月底,数据覆盖了近 60 万字、50 小时的语料,近场/远场跨度在 20cm-10m,涵盖智能音箱、手机等多种设备,科技、医疗等超过 20 类话题领域。


微信图片_20211130163321.jpg


在上述提到的所有测试数据集和测试场景中,依图语音的平均字错率表现均优于科大讯飞、百度等横向对比的主流语音方案商的开放平台方案。字错率是中文语音识别领域的关键性评估指标,一般认为字错率在低于 3% 时不会影响可读性,而超过 15% 则毫无可读性。这两个数据被视为是语音识别的两条红线。在不同场景下,不同算法的表现可能存在很大差异。


活动现场,横向对比测试结果依次呈现在大屏幕上,引来在场诸多人士拍照。这在一定程度上展示了依图在特定测试条件下的技术领先性,同时也反映出业界所谓的「成熟」中文语音识别方案还存在诸多提升和改进空间。


微信图片_20211130163318.jpg


比如,在公开数据集 AISHELL-2 中,依图短语音听写的字错率为 3.71%,领先原业内领军者约 20%。在手机进场(接近可用)场景下,依图语音的字错率为 3.6%,排名第二云知声开放平台字错率为 4.2%,依图语音领先云知声开放平台近 17%。


微信图片_20211130163316.jpg


比如,在非公开数据集的电话场景中第一类「电话闲聊」场景下,只有依图语音和讯飞听见(异步模型)在稍微接近 15% 字错率的下限,即「勉强可用」。而排名靠后的阿里云智能语音、云知声开放平台、腾讯 AI 开放平台-WeChat、讯飞开放平台、百度开放平台远场方案在电话闲聊、电话客服场景下均超过了 15% 字错率,即「毫无可读性」。


微信图片_20211130163313.jpg


在远场演讲场景下,除依图语音和讯飞听见(异步模型)的平均字错率达到可用容错范围外,阿里云智能语音、云知声开放平台、微信开放平台-WeChat 流式、百度开放平台等基本「全军覆没」,均明显高于平均字错率 15% 的下限。此外,从测试结果中也可以看到,各家算法在远场演讲场景下的表现落差较大。


有媒体人士评价,依图如此掀开语音识别市场「遮羞帘」的做法真是耿直!


微信图片_20211130163310.jpg


此外,在通用性层面,柱状图宽度越小,说明字错率浮动范围越小,算法的场景通用性越好。综合各场景测试的结果,业界主流算法中,依图和讯飞的算法字错率浮动范围相对较小。


上述检测结果难免触及其他友商的利益和技术权威性,业界不少人对其客观性和公正性提出质疑,机器之心针对该类问题与依图科学家吴双博士向依图进行了交流。值得注意的是,上述横向对比方案均为各厂商的开放平台方案,并未完全代表各家在语音识别领域的综合实力水平。


1、机器之心:测试结果采用自家测试的方案,在测试方法、测试设备的公平性上如何保证?测试对象是否符合双盲随机原则?


吴双:依图自有的数据集、算法 API 将在近期公开。在所有公开数据集上的测试结果均可复现上述结果。基于非公开的各家自有数据测试集上的不同测试结果,我建议大家都把数据集公开,用公开的测试数据集的结果体现水平,这样大家的测试结果均可以被其他家测试验证,公正性就有了保证。


2、机器之心:测试结果除了与软件算法相关,硬件设备,尤其是麦克风阵列排布影响到的拾音效果也可能间接影响语音识别的准确率。上述展示的测试结果都是基于同一款设备吗?


吴双:上述测试涉及到了多种硬件设备,比如智能音箱、手机以及其他硬件设备。我们希望能够覆盖更多硬件设备。硬件方案的确会影响语音识别效果。但是面向不同的识别场景,我们都是调用同一套算法,同一套 API。


02 如何实现一年超越「讯飞」们?


相比计算机视觉技术的发展和落地,语音识别研究显然起步更早,对应的玩家形态和市场格局也更为成熟。众所周知地,科大讯飞在语音识别领域的积淀和商业化已有十余年历史,近几年 BAT 玩家的涌入也来势汹汹,接口免费、平台开放的政策接二连三。在看似已成定局的赛场上,依图如何后来者「居上」?


谈到语音识别领域的研发历程,吴双表示,大约是一年左右不到的时间,即去年底今年初投入力量进行语音识别方案的研发,但在语义理解层面,依图已经有所建树,比如在医疗领域,电子病历理解的应用。


实际上,早在今年的一次公开活动上,依图科技联合创始人林晨曦曾接受相关媒体采访时表示,依图科技接下来会继续进军语音识别和自然语言处理,要在这两个领域也做到超越人类水平。


相比语音识别领域已有的巨头玩家,依图在数据量积累和模型训练时间等核心层面均不占据优势。但是依图却在短短一年时间内,数据量相比巨头有限的情况下,在部分测试集和核心指标上超过了前者。


对于其原因,吴双认为,强化学习、对抗学习等技巧层面的策略大家都会跟进,做算法优化并没有捷径。在方法论和做事态度层面有依图在视觉领域的经验作为基础。目前,依图语音的表现是相对意义上的性能提升,平均算法性能领先 11%,在某些特定的场景下领先更多。


对于语音市场看似产品繁多,但真实体验却与宣传效果存在差距的现象,依图科技首席创新官、前 Google Research Scientist 吕昊博士认为主要原因有三,其一,业界缺乏系统性的标准测试、测试集,而覆盖多维度多场景的数据成本过高;此外,工业界语音识别的水平已经远超过学术界,但与此同时,也缺乏体验和比较的工具。


微信图片_20211130163306.jpg

左为依图科技首席创新官吕昊,右为华为智能计算渠道合作部部长康鑫


活动现场,依图方面还宣布了将联合微软推出语音开放平台,依图的语音识别方案将在微软云 Azure 上线。依图科技将联合华为推出智能语音解决方案。此前,依图还与华为联合发布了面向泛安防场景的智慧园区和视频云人像大数据解决方案。


活动现场,华为智能计算渠道合作部部长康鑫谈到,在华为的 160 个 ISV 中,依图已经成为华为最顶级的 ISV 合作伙伴。从目前合作模式来看,依图语音技术的落地方式主要面向 B 端客户。


据公开资料显示,依图科技最近一轮融资在今年 3 月完成,红杉资本中国、高瓴资本、高榕资本等投资方也持续跟投,该轮融资中依图科技公司整体估值为 150 亿人民币。


对于依靠人工智能第四波浪潮快速成长的独角兽而言,经过 2018 年落地商业化的考验之后,拓宽业务领域和加强解决方案的完整性成为提升竞争力的关键。


可以看到的是,以视觉方案为主的依图、云从开始切入语音市场,而以语音方案为主的云知声则开始在图像识别领域布局。业内人士表示,在智能家居、智能汽车、智能医疗等领域,未来的交互肯定是多模态的,不会是单一的语音、或者单一的图像功能。

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
11月前
|
人工智能 供应链 物联网
AI大模型来袭,智能家居迎新拐点?
AI大模型来袭,智能家居迎新拐点?
171 0
|
11月前
|
机器学习/深度学习 数据采集 人工智能
李飞飞新作登PNAS!AI与人类互动23万次,智能水平提高112%
李飞飞新作登PNAS!AI与人类互动23万次,智能水平提高112%
|
机器学习/深度学习 人工智能 安全
|
机器学习/深度学习 人工智能 自然语言处理
|
传感器 人工智能 自然语言处理
亚马逊Alexa科学家:图灵测试70年已成古董,要给AI构建新的「黄金标准」了!
【新智元导读】1950 年,图灵提出著名的「图灵测试」去回答「机器能否思考」的问题,目的是判断机器是否能表现出人类也无法区分的对话行为。70年来,图灵测试也一直作为学术界的AI「北极星」而存在。近日,亚马逊语音助手 Alexa 部门的首席科学家认为,人们现在关心的是人机之间的互动,而不是区分机器和人类。他认为,图灵测试过时了,AI 需要新基准测试!
232 0
亚马逊Alexa科学家:图灵测试70年已成古董,要给AI构建新的「黄金标准」了!
|
机器学习/深度学习 人工智能 算法
百度语音识别新算法准确率提升超30%,鸿鹄芯片彰显AI落地新打法
今年 7 月,在开发者大会上,百度公布了其在 AI 技术上的进展。而短短四个月后,在昨日的百度语音能力引擎论坛上,百度在语音领域再次公开了最新的算法成果。同样引人关注的还有百度鸿鹄芯片的最新进展。
341 0
百度语音识别新算法准确率提升超30%,鸿鹄芯片彰显AI落地新打法
|
人工智能 供应链 搜索推荐
【智能AI】让国货变「潮」,可持续吗?
红花油味道的国产汽水,印着麻将的国产球鞋,花露水气息的咖啡……“国潮”跨界越来越匪夷所思了。如果让你当这个媒人,还会这么来搭配吗?
554 0
【智能AI】让国货变「潮」,可持续吗?
30秒准确诊断眼疾,DeepMind将推首款AI医疗商业产品
这一设备或将成为DeepMind实现盈利的突破口。
254 0
|
人工智能
阿里巴巴AI夺肝结节诊断两项世界冠军,至今无人超越
在澳门用人工智能预测流感趋势后,阿里巴巴还在继续探索如何用科技保障人类健康,这一次是更准确地测量肝结节。 12月28日消息,在全球LiTS(Liver Tumor Segmentation Challenge,肝脏肿瘤病灶区CT图像分割挑战)上,阿里巴巴从近百支科学家队伍中脱颖而出,已获得两项第一,至今无人超越。
2994 0