「镁客·请讲」极限元温正棋:从前端信号处理到语音识别、对话、声纹情绪与合成,要打造智能交互闭环

简介:

在温正棋看来,鉴于开源等原因,智能语音的核心技术已经不存在太大差别,而他们相比之下的优势更多集中在业务服务能力及闭环技术的应用层面。

前段时间,亚马逊智能音箱Echo时而抽风的怪笑声令消费者“震惊”,虽然到底是什么原因造成的,我们目前尚不清楚。不过,我们可以确定的是,语音交互已经成为了人们智能生活中不可或缺的一个因素。

极限元温正棋:从前端信号处理到语音识别、合成与交互,我们要打造智能语音技术闭环

选择极限元,他的初衷就是把研究转化为产品应用到市场

我自己是中科院自动化所模式识别国家重点实验室的副研究员,就想把研究做成产品运用到市场上,这是我当初加入极限元的初衷。极限元CEO温正棋表示。可以说,从成立之初到现在,温正棋见证了极限元的成长与蜕变。

在最初,极限元选择以“单项技术应用”来切入市场。彼时,基于音频比对和关键词检索两个关键技术的结合,再加之与其他公司的合作,极限元开拓了多个业务,包括音频防恐防暴、反电信诈骗等等。

此外,温正棋表示,在语音合成、语音识别等方面,极限元最初也与多家大型公司达成了合作,如“腾讯、搜狗、奇虎360等”。

目前,在自身公司主体之外,极限元也与中科院自动化所联合挂牌成立了“中国科学院自动化研究所-极限元(北京)智能科技股份有限公司智能交互联合实验室”。

极限元温正棋:从前端信号处理到语音识别、合成与交互,我们要打造智能语音技术闭环

打造智能语音技术闭环,为市场提供整套的智能交互解决方案

从2017年开始,极限元对自己的定位进行了调整,温正棋称,当前他们致力于打造一个从前端信号处理——语音识别——人机对话 —声纹识别—情绪识别——语音合成的语智能交互技术“闭环”。

而基于这一全新定位,在业务的开展方面,温正棋指出了三个全新的角度,分别是机器人和智能客服、语音转写

具体来讲,比如机器人,遵循自身定位的极限元提供的也是闭环式解决方案。“从前端信号到语音识别、语音合成、再到对话,‘对话’方面会接入第三方内容。”温正棋称。也就是说,在具体的案例中,机器人厂商只需提供一个配备了系统的机器人,而极限元则是将自身智能语音软件嵌入其中,以便厂商基于软件来搭建智能机器人的语音交互能力。

又比如智能客服,也被细分为两个小方向,分别外呼机器人,因为手握主动权,极限元在设计规划的时候将针对性的设计对话逻辑,以避免语音识别不准确、对话逻辑混乱等问题。另一个则是语音质检,将之替代客服行业中的人工质检,在全面覆盖的前提下提升质检效率。

与众多从事智能语音技术的公司一样,极限元当前的业务也是以B端市场为主。同时,他们也面向C端用户提供了一些产品/服务,譬如语音转写等

在智能化趋势之下,作为人机交互的主要途径之一,语音交互市场愈发庞大。与此同时,我们看见的业内多个公司的此起彼伏。“鉴于技术、算法开源等因素,业内各家公司在核心技术上并没有太大的差别,最主要的关键是你在特定领域的数据积累。”谈及极限元的市场竞争力,温正棋这样表示。

在其看来,作为一个创业公司,相比于技术,他们比之其他公司的优势更多的集中在业务上。“对于一个业务来说,友商们可能没有分配单人来专门跟进业务合作、提供服务等等。作为初创公司,我们在这一服务方面肯定做的比他们好。”

极限元温正棋:从前端信号处理到语音识别、合成与交互,我们要打造智能语音技术闭环

智能语音技术的行业门槛不低,语音交互不顺畅的解决方案在于“特定”

今年来,像智能客服、智能服务机器人以及智能家居单品等产品与人类之间经常会发生智能交互的过程。在这其中,我们应该也注意到,有时候基于语音的人机交互过程并没有那么的顺利,常常会上下文没有逻辑

对于这种问题,温正棋将原因总结为两点,分别是语音识别不准确以及对话的不准确。至于如何解决,前者的关键还是在于“特定”,在收集特定领域的数据之后,再通过迭代迁移学习算法等等,不断地将模型进行更新。“这种快速迭代的方法更适合我们这种小公司。”他表示。

至于对话,众做周知,在具体的应用中,其中关键部分自然语言处理的准确率并不存在百分之百的情况,为了更好地效果,还是需要将应用场景进行固定。从本质上讲,这一解决方案与语音识别的解决方案是相同的,讲究专用、讲究特定领域。

在采访中,温正棋提到,他经常会分析一个问题:智能语音技术的人才主要是由哪些队伍来产生的?“从全国的角度来看,智能语音人才主要由这么几个渠道产生,像科大讯飞、清华北大、中国科学院自动化研究所,以及西工大、上海交大等等,每年出来的智能语音技术方向的人才的数量其实很少,但是市场上的需求是很大。”

对于智能语音技术行业的进入门槛,温正棋称并不低,除了技术上存在的门槛,数据积累是一个不容忽视的重要部分,尤其是在做垂直领域的时候。

从创业角度来讲,“除了单独的技术储备,还需要拥有对应的数据积累与运用。”如今,所在智能化的驱使下,不管是算法的训练,亦或是产品的功能实施,数据的重要性愈加凸显。而对于从事智能语音技术的创业者而言,如何在保证隐私、数据安全的前提下获得大量数据,是他们时刻都需要考虑的问题。

结语

目前,基于自身定位的调整,接下来,极限元将基于智能机器人、智能客服等业务来积累数据。另外,再加以对市场的调研,以此前提到的三个业务角度为中心向外围进行扩展,根据市场的实际需求来定制产品服务。

距离上一次天使轮融资,极限元已经走过了一年多的时间。据温正棋在采访中透露,虽然公司略有盈余,但也正着手准备开启下一轮融资,希望投资方能够带来更多的应用场景资源。


原文发布时间: 2018-03-16 09:05
本文作者: 韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
2月前
|
前端开发 API UED
Python后端与前端交互新纪元:AJAX、Fetch API联手,打造极致用户体验!
Python后端与前端交互新纪元:AJAX、Fetch API联手,打造极致用户体验!
86 2
|
3月前
|
前端开发 JavaScript API
解锁高效应用构建:Vuex与后端交互的前端状态同步策略,让数据流动如行云流水,紧跟前端开发的热点趋势
【8月更文挑战第27天】本文深入探讨了Vue框架下的前端状态管理库Vuex与后端服务交互时的状态同步策略。通过剖析Vuex的核心机制——状态(State)、变异(Mutation)、动作(Action)及模块(Module),文章展示了如何优雅地将后端数据加载并更新至前端状态中。特别地,借助示例代码解释了Action处理API调用、Mutation更新状态的过程,并介绍了如何通过模块化和命名空间提高状态管理的准确性和时效性。此外,还讨论了组件如何利用`mapState`和`mapActions`简化状态访问与操作的方法。遵循这些策略,开发者可以在构建复杂应用时显著提升性能与用户体验。
46 0
|
1月前
|
机器学习/深度学习 前端开发 JavaScript
WebAssembly:让前端性能突破极限的秘密武器
WebAssembly(简称 WASM)作为前端开发的性能加速器,能够让代码像 C++ 一样在浏览器中高速运行,突破了 JavaScript 的性能瓶颈。本文详细介绍了 WebAssembly 的概念、工作原理以及其在前端性能提升中的关键作用。通过与 JavaScript 的配合,WASM 让复杂运算如图像处理、3D 渲染、机器学习等在浏览器中流畅运行。文章还探讨了如何逐步集成 WASM,展示其在网页游戏、高计算任务中的实际应用。WebAssembly 为前端开发者提供了新的可能性,是提升网页性能、优化用户体验的关键工具。
66 2
WebAssembly:让前端性能突破极限的秘密武器
|
15天前
|
设计模式 前端开发 JavaScript
揭秘!前端大牛们如何巧妙利用JavaScript,打造智能交互体验!
【10月更文挑战第30天】前端开发领域充满了无限可能与创意,JavaScript作为核心语言,凭借强大的功能和灵活性,成为打造智能交互体验的重要工具。本文介绍前端大牛如何利用JavaScript实现平滑滚动、复杂动画、实时数据更新和智能表单验证等效果,展示了JavaScript的多样性和强大能力。
31 4
|
13天前
|
前端开发 JavaScript 数据处理
前端界的宝藏技术:掌握这些,让你的网页秒变交互神器!
【10月更文挑战第31天】前端开发藏有众多宝藏技术,如JavaScript异步编程和Web Components。异步编程通过Promise、async/await实现复杂的网络请求,提高代码可读性;Web Components则允许创建可重用、封装良好的自定义组件,提升代码复用性和独立性。此外,CSS动画、SVG绘图等技术也极大丰富了网页的视觉和交互体验。不断学习和实践,让网页秒变交互神器。
23 2
|
15天前
|
自然语言处理 前端开发 搜索推荐
前端界的黑科技:掌握这些技术,让你的网站秒变智能助手!
【10月更文挑战第30天】随着前端技术的发展,网站正逐渐变成智能助手。本文探讨了四大关键技术:自然语言处理(NLP)使网站理解用户输入;机器学习实现个性化推荐;Web Notifications API发送重要提醒;Web Speech API实现语音交互。通过这些技术,网站不仅能更好地理解用户,还能提供更智能、个性化的服务,提升用户体验。
29 3
|
2月前
|
机器学习/深度学习 数据采集 JavaScript
ADR智能监测系统源码,系统采用Java开发,基于SpringBoot框架,前端使用Vue,可自动预警药品不良反应
ADR药品不良反应监测系统是一款智能化工具,用于监测和分析药品不良反应。该系统通过收集和分析病历、处方及实验室数据,快速识别潜在不良反应,提升用药安全性。系统采用Java开发,基于SpringBoot框架,前端使用Vue,具备数据采集、清洗、分析等功能模块,并能生成监测报告辅助医务人员决策。通过集成多种数据源并运用机器学习算法,系统可自动预警药品不良反应,有效减少药害事故,保障公众健康。
ADR智能监测系统源码,系统采用Java开发,基于SpringBoot框架,前端使用Vue,可自动预警药品不良反应
|
3月前
|
机器学习/深度学习 存储 前端开发
实战揭秘:如何借助TensorFlow.js的强大力量,轻松将高效能的机器学习模型无缝集成到Web浏览器中,从而打造智能化的前端应用并优化用户体验
【8月更文挑战第31天】将机器学习模型集成到Web应用中,可让用户在浏览器内体验智能化功能。TensorFlow.js作为在客户端浏览器中运行的库,提供了强大支持。本文通过问答形式详细介绍如何使用TensorFlow.js将机器学习模型带入Web浏览器,并通过具体示例代码展示最佳实践。首先,需在HTML文件中引入TensorFlow.js库;接着,可通过加载预训练模型如MobileNet实现图像分类;然后,编写代码处理图像识别并显示结果;此外,还介绍了如何训练自定义模型及优化模型性能的方法,包括模型量化、剪枝和压缩等。
51 1
|
3月前
|
开发者 图形学 API
从零起步,深度揭秘:运用Unity引擎及网络编程技术,一步步搭建属于你的实时多人在线对战游戏平台——详尽指南与实战代码解析,带你轻松掌握网络化游戏开发的核心要领与最佳实践路径
【8月更文挑战第31天】构建实时多人对战平台是技术与创意的结合。本文使用成熟的Unity游戏开发引擎,从零开始指导读者搭建简单的实时对战平台。内容涵盖网络架构设计、Unity网络API应用及客户端与服务器通信。首先,创建新项目并选择适合多人游戏的模板,使用推荐的网络传输层。接着,定义基本玩法,如2D多人射击游戏,创建角色预制件并添加Rigidbody2D组件。然后,引入网络身份组件以同步对象状态。通过示例代码展示玩家控制逻辑,包括移动和发射子弹功能。最后,设置服务器端逻辑,处理客户端连接和断开。本文帮助读者掌握构建Unity多人对战平台的核心知识,为进一步开发打下基础。
123 0
|
3月前
|
iOS开发 Android开发 MacOS
从零到全能开发者:解锁Uno Platform,一键跨越多平台应用开发的神奇之旅,让你的代码飞遍Windows、iOS、Android、macOS及Web,技术小白也能秒变跨平台大神!
【8月更文挑战第31天】从零开始,踏上使用Uno Platform开发跨平台应用的旅程。只需编写一次代码,即可轻松部署到Windows、iOS、macOS、Android及Web(通过WASM)等多个平台。Uno Platform为.NET生态带来前所未有的灵活性和效率,简化跨平台开发。首先确保安装了Visual Studio或VS Code及.NET SDK,然后选择合适的项目模板创建新项目。项目结构类似传统.NET MAUI或WPF项目,包含核心NuGet包。通过简单的按钮示例,你可以快速上手并构建应用。Uno Platform让你的技术探索之旅充满无限可能。
69 0

热门文章

最新文章