「镁客·请讲」极限元温正棋:从前端信号处理到语音识别、对话、声纹情绪与合成,要打造智能交互闭环

简介:

在温正棋看来,鉴于开源等原因,智能语音的核心技术已经不存在太大差别,而他们相比之下的优势更多集中在业务服务能力及闭环技术的应用层面。

前段时间,亚马逊智能音箱Echo时而抽风的怪笑声令消费者“震惊”,虽然到底是什么原因造成的,我们目前尚不清楚。不过,我们可以确定的是,语音交互已经成为了人们智能生活中不可或缺的一个因素。

极限元温正棋:从前端信号处理到语音识别、合成与交互,我们要打造智能语音技术闭环

选择极限元,他的初衷就是把研究转化为产品应用到市场

我自己是中科院自动化所模式识别国家重点实验室的副研究员,就想把研究做成产品运用到市场上,这是我当初加入极限元的初衷。极限元CEO温正棋表示。可以说,从成立之初到现在,温正棋见证了极限元的成长与蜕变。

在最初,极限元选择以“单项技术应用”来切入市场。彼时,基于音频比对和关键词检索两个关键技术的结合,再加之与其他公司的合作,极限元开拓了多个业务,包括音频防恐防暴、反电信诈骗等等。

此外,温正棋表示,在语音合成、语音识别等方面,极限元最初也与多家大型公司达成了合作,如“腾讯、搜狗、奇虎360等”。

目前,在自身公司主体之外,极限元也与中科院自动化所联合挂牌成立了“中国科学院自动化研究所-极限元(北京)智能科技股份有限公司智能交互联合实验室”。

极限元温正棋:从前端信号处理到语音识别、合成与交互,我们要打造智能语音技术闭环

打造智能语音技术闭环,为市场提供整套的智能交互解决方案

从2017年开始,极限元对自己的定位进行了调整,温正棋称,当前他们致力于打造一个从前端信号处理——语音识别——人机对话 —声纹识别—情绪识别——语音合成的语智能交互技术“闭环”。

而基于这一全新定位,在业务的开展方面,温正棋指出了三个全新的角度,分别是机器人和智能客服、语音转写

具体来讲,比如机器人,遵循自身定位的极限元提供的也是闭环式解决方案。“从前端信号到语音识别、语音合成、再到对话,‘对话’方面会接入第三方内容。”温正棋称。也就是说,在具体的案例中,机器人厂商只需提供一个配备了系统的机器人,而极限元则是将自身智能语音软件嵌入其中,以便厂商基于软件来搭建智能机器人的语音交互能力。

又比如智能客服,也被细分为两个小方向,分别外呼机器人,因为手握主动权,极限元在设计规划的时候将针对性的设计对话逻辑,以避免语音识别不准确、对话逻辑混乱等问题。另一个则是语音质检,将之替代客服行业中的人工质检,在全面覆盖的前提下提升质检效率。

与众多从事智能语音技术的公司一样,极限元当前的业务也是以B端市场为主。同时,他们也面向C端用户提供了一些产品/服务,譬如语音转写等

在智能化趋势之下,作为人机交互的主要途径之一,语音交互市场愈发庞大。与此同时,我们看见的业内多个公司的此起彼伏。“鉴于技术、算法开源等因素,业内各家公司在核心技术上并没有太大的差别,最主要的关键是你在特定领域的数据积累。”谈及极限元的市场竞争力,温正棋这样表示。

在其看来,作为一个创业公司,相比于技术,他们比之其他公司的优势更多的集中在业务上。“对于一个业务来说,友商们可能没有分配单人来专门跟进业务合作、提供服务等等。作为初创公司,我们在这一服务方面肯定做的比他们好。”

极限元温正棋:从前端信号处理到语音识别、合成与交互,我们要打造智能语音技术闭环

智能语音技术的行业门槛不低,语音交互不顺畅的解决方案在于“特定”

今年来,像智能客服、智能服务机器人以及智能家居单品等产品与人类之间经常会发生智能交互的过程。在这其中,我们应该也注意到,有时候基于语音的人机交互过程并没有那么的顺利,常常会上下文没有逻辑

对于这种问题,温正棋将原因总结为两点,分别是语音识别不准确以及对话的不准确。至于如何解决,前者的关键还是在于“特定”,在收集特定领域的数据之后,再通过迭代迁移学习算法等等,不断地将模型进行更新。“这种快速迭代的方法更适合我们这种小公司。”他表示。

至于对话,众做周知,在具体的应用中,其中关键部分自然语言处理的准确率并不存在百分之百的情况,为了更好地效果,还是需要将应用场景进行固定。从本质上讲,这一解决方案与语音识别的解决方案是相同的,讲究专用、讲究特定领域。

在采访中,温正棋提到,他经常会分析一个问题:智能语音技术的人才主要是由哪些队伍来产生的?“从全国的角度来看,智能语音人才主要由这么几个渠道产生,像科大讯飞、清华北大、中国科学院自动化研究所,以及西工大、上海交大等等,每年出来的智能语音技术方向的人才的数量其实很少,但是市场上的需求是很大。”

对于智能语音技术行业的进入门槛,温正棋称并不低,除了技术上存在的门槛,数据积累是一个不容忽视的重要部分,尤其是在做垂直领域的时候。

从创业角度来讲,“除了单独的技术储备,还需要拥有对应的数据积累与运用。”如今,所在智能化的驱使下,不管是算法的训练,亦或是产品的功能实施,数据的重要性愈加凸显。而对于从事智能语音技术的创业者而言,如何在保证隐私、数据安全的前提下获得大量数据,是他们时刻都需要考虑的问题。

结语

目前,基于自身定位的调整,接下来,极限元将基于智能机器人、智能客服等业务来积累数据。另外,再加以对市场的调研,以此前提到的三个业务角度为中心向外围进行扩展,根据市场的实际需求来定制产品服务。

距离上一次天使轮融资,极限元已经走过了一年多的时间。据温正棋在采访中透露,虽然公司略有盈余,但也正着手准备开启下一轮融资,希望投资方能够带来更多的应用场景资源。


原文发布时间: 2018-03-16 09:05
本文作者: 韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
人工智能 语音技术 Android开发
|
机器学习/深度学习 传感器 语音技术
毕业设计|基于STM32单片机的语音识别控制智能停车场设计
毕业设计|基于STM32单片机的语音识别控制智能停车场设计
696 0
|
机器人 语音技术 开发工具
智能电话机器人,使用Microsoft语音识别技术(Speech sdk)
智能电话机器人,使用Microsoft语音识别技术(Speech sdk)
300 0
智能电话机器人,使用Microsoft语音识别技术(Speech sdk)
|
人工智能 机器人 人机交互
智能电话机器人的语音识别究竟是如何实现的
智能化生活:当你睁开眼睛体味着清晨的第一抹阳光,智能设备就已经在自动工作了,机器人帮你打扫屋子,处理文件,烹饪早餐,走出街道,搭乘AI汽车,进入公司,迎面就是智能前台,在工作中收到的电话或者信息,都有可能实现智能化处理,这些场景在很多年以前是不敢想象的,但在如今已经大部分都得到了实现。 作为人工智能基础研究的语音识别技术,一直都是横亘在研究者面前的难关,而让计算机能够明白人类的语言,实现人机对话已经研究了近30年!从思维模型到具体实现,科学研究者攻克了无数的难关,那么我们今天就来了解一下神秘的语音识别技术吧! 什么是智能语音识别系统?语音识别实际就是将人类说话的内容和意思转化为计算机可读的
|
机器学习/深度学习 自然语言处理 算法
构建智能音箱应用:语音识别和自然语言处理
随着人工智能技术的迅猛发展,智能音箱成为了人们生活中的常见智能设备。这些设备可以通过语音指令与用户进行交互,并执行各种任务,如播放音乐、查询天气、控制智能家居等。在幕后,智能音箱背后的核心技术是语音识别和自然语言处理。
1162 0
|
物联网
《阿里云总监课第二期——IoT时代的语音交互智能》电子版地址
阿里云总监课第二期——IoT时代的语音交互智能
|
人工智能 算法 前端开发
全屋一键智控,还能离线语音交互?这块智能触控面板很全能
编辑语: 应用速递栏目:应用速递是面向IoT厂商推荐芯片开放社区(OCC)上的典型应用案例,便于IoT厂商精准获取方案,快速实现产品落地。
450 0
全屋一键智控,还能离线语音交互?这块智能触控面板很全能
|
人工智能 语音技术
AI语音识别技术,掘金智能增长新空间
开放日亮点: 1、 支持语音唤醒词自定义; 2、 探讨家电增长新方案; 3、 热卖品类及营销增长新案例; 4、 开发板上手体验试玩;
6688 0
AI语音识别技术,掘金智能增长新空间
|
机器学习/深度学习 人工智能 自然语言处理
数据智能时代,语音交互将是第一爆发领域
在云栖TechDay第十五期活动上,阿里云iDST总监初敏博士给大家带来了题为《数据智能时代的语音交互》的分享,初敏博士认为当今是一个数据驱动的智能时代,语音交互将是这个时代的第一爆发领域,将会形成新一轮入口之争。她主要从语音识别与合成、人机对话、应用案例分析三部分展开了此次分享。
5057 0

热门文章

最新文章