「镁客·请讲」极限元温正棋:从前端信号处理到语音识别、对话、声纹情绪与合成,要打造智能交互闭环

简介:

在温正棋看来,鉴于开源等原因,智能语音的核心技术已经不存在太大差别,而他们相比之下的优势更多集中在业务服务能力及闭环技术的应用层面。

前段时间,亚马逊智能音箱Echo时而抽风的怪笑声令消费者“震惊”,虽然到底是什么原因造成的,我们目前尚不清楚。不过,我们可以确定的是,语音交互已经成为了人们智能生活中不可或缺的一个因素。

极限元温正棋:从前端信号处理到语音识别、合成与交互,我们要打造智能语音技术闭环

选择极限元,他的初衷就是把研究转化为产品应用到市场

我自己是中科院自动化所模式识别国家重点实验室的副研究员,就想把研究做成产品运用到市场上,这是我当初加入极限元的初衷。极限元CEO温正棋表示。可以说,从成立之初到现在,温正棋见证了极限元的成长与蜕变。

在最初,极限元选择以“单项技术应用”来切入市场。彼时,基于音频比对和关键词检索两个关键技术的结合,再加之与其他公司的合作,极限元开拓了多个业务,包括音频防恐防暴、反电信诈骗等等。

此外,温正棋表示,在语音合成、语音识别等方面,极限元最初也与多家大型公司达成了合作,如“腾讯、搜狗、奇虎360等”。

目前,在自身公司主体之外,极限元也与中科院自动化所联合挂牌成立了“中国科学院自动化研究所-极限元(北京)智能科技股份有限公司智能交互联合实验室”。

极限元温正棋:从前端信号处理到语音识别、合成与交互,我们要打造智能语音技术闭环

打造智能语音技术闭环,为市场提供整套的智能交互解决方案

从2017年开始,极限元对自己的定位进行了调整,温正棋称,当前他们致力于打造一个从前端信号处理——语音识别——人机对话 —声纹识别—情绪识别——语音合成的语智能交互技术“闭环”。

而基于这一全新定位,在业务的开展方面,温正棋指出了三个全新的角度,分别是机器人和智能客服、语音转写

具体来讲,比如机器人,遵循自身定位的极限元提供的也是闭环式解决方案。“从前端信号到语音识别、语音合成、再到对话,‘对话’方面会接入第三方内容。”温正棋称。也就是说,在具体的案例中,机器人厂商只需提供一个配备了系统的机器人,而极限元则是将自身智能语音软件嵌入其中,以便厂商基于软件来搭建智能机器人的语音交互能力。

又比如智能客服,也被细分为两个小方向,分别外呼机器人,因为手握主动权,极限元在设计规划的时候将针对性的设计对话逻辑,以避免语音识别不准确、对话逻辑混乱等问题。另一个则是语音质检,将之替代客服行业中的人工质检,在全面覆盖的前提下提升质检效率。

与众多从事智能语音技术的公司一样,极限元当前的业务也是以B端市场为主。同时,他们也面向C端用户提供了一些产品/服务,譬如语音转写等

在智能化趋势之下,作为人机交互的主要途径之一,语音交互市场愈发庞大。与此同时,我们看见的业内多个公司的此起彼伏。“鉴于技术、算法开源等因素,业内各家公司在核心技术上并没有太大的差别,最主要的关键是你在特定领域的数据积累。”谈及极限元的市场竞争力,温正棋这样表示。

在其看来,作为一个创业公司,相比于技术,他们比之其他公司的优势更多的集中在业务上。“对于一个业务来说,友商们可能没有分配单人来专门跟进业务合作、提供服务等等。作为初创公司,我们在这一服务方面肯定做的比他们好。”

极限元温正棋:从前端信号处理到语音识别、合成与交互,我们要打造智能语音技术闭环

智能语音技术的行业门槛不低,语音交互不顺畅的解决方案在于“特定”

今年来,像智能客服、智能服务机器人以及智能家居单品等产品与人类之间经常会发生智能交互的过程。在这其中,我们应该也注意到,有时候基于语音的人机交互过程并没有那么的顺利,常常会上下文没有逻辑

对于这种问题,温正棋将原因总结为两点,分别是语音识别不准确以及对话的不准确。至于如何解决,前者的关键还是在于“特定”,在收集特定领域的数据之后,再通过迭代迁移学习算法等等,不断地将模型进行更新。“这种快速迭代的方法更适合我们这种小公司。”他表示。

至于对话,众做周知,在具体的应用中,其中关键部分自然语言处理的准确率并不存在百分之百的情况,为了更好地效果,还是需要将应用场景进行固定。从本质上讲,这一解决方案与语音识别的解决方案是相同的,讲究专用、讲究特定领域。

在采访中,温正棋提到,他经常会分析一个问题:智能语音技术的人才主要是由哪些队伍来产生的?“从全国的角度来看,智能语音人才主要由这么几个渠道产生,像科大讯飞、清华北大、中国科学院自动化研究所,以及西工大、上海交大等等,每年出来的智能语音技术方向的人才的数量其实很少,但是市场上的需求是很大。”

对于智能语音技术行业的进入门槛,温正棋称并不低,除了技术上存在的门槛,数据积累是一个不容忽视的重要部分,尤其是在做垂直领域的时候。

从创业角度来讲,“除了单独的技术储备,还需要拥有对应的数据积累与运用。”如今,所在智能化的驱使下,不管是算法的训练,亦或是产品的功能实施,数据的重要性愈加凸显。而对于从事智能语音技术的创业者而言,如何在保证隐私、数据安全的前提下获得大量数据,是他们时刻都需要考虑的问题。

结语

目前,基于自身定位的调整,接下来,极限元将基于智能机器人、智能客服等业务来积累数据。另外,再加以对市场的调研,以此前提到的三个业务角度为中心向外围进行扩展,根据市场的实际需求来定制产品服务。

距离上一次天使轮融资,极限元已经走过了一年多的时间。据温正棋在采访中透露,虽然公司略有盈余,但也正着手准备开启下一轮融资,希望投资方能够带来更多的应用场景资源。


原文发布时间: 2018-03-16 09:05
本文作者: 韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
5月前
|
前端开发 搜索推荐 开发工具
通义灵码与颜色板生成器,为前端开发提供智能配色解决方案
在前端开发中,色彩搭配对用户体验和界面美观至关重要。通义灵码提供的颜色板生成器通过自动推荐配色方案、随机生成颜色组合及支持自定义调整,帮助开发者高效完成配色任务。该工具支持一键导出为 CSS 样式表,并提供简洁的中文指令交互方式,大大提升开发效率,助力开发者打造美观和谐的用户界面。
|
3月前
|
人工智能 前端开发 JavaScript
前端工程化演进之路:从手工作坊到AI驱动的智能化开发
前端工程化演进之路:从手工作坊到AI驱动的智能化开发
584 18
前端工程化演进之路:从手工作坊到AI驱动的智能化开发
|
12月前
|
人工智能 移动开发 前端开发
WeaveFox:蚂蚁集团推出 AI 前端智能研发平台,能够根据设计图直接生成源代码,支持多种客户端和技术栈
蚂蚁团队推出的AI前端研发平台WeaveFox,能够根据设计图直接生成前端源代码,支持多种应用类型和技术栈,提升开发效率和质量。本文将详细介绍WeaveFox的功能、技术原理及应用场景。
6101 68
WeaveFox:蚂蚁集团推出 AI 前端智能研发平台,能够根据设计图直接生成源代码,支持多种客户端和技术栈
|
前端开发 API UED
Python后端与前端交互新纪元:AJAX、Fetch API联手,打造极致用户体验!
Python后端与前端交互新纪元:AJAX、Fetch API联手,打造极致用户体验!
302 2
|
10月前
|
监控 前端开发 Java
构建高效Java后端与前端交互的定时任务调度系统
通过以上步骤,我们构建了一个高效的Java后端与前端交互的定时任务调度系统。该系统使用Spring Boot作为后端框架,Quartz作为任务调度器,并通过前端界面实现用户交互。此系统可以应用于各种需要定时任务调度的业务场景,如数据同步、报告生成和系统监控等。
378 9
|
机器学习/深度学习 前端开发 JavaScript
WebAssembly:让前端性能突破极限的秘密武器
WebAssembly(简称 WASM)作为前端开发的性能加速器,能够让代码像 C++ 一样在浏览器中高速运行,突破了 JavaScript 的性能瓶颈。本文详细介绍了 WebAssembly 的概念、工作原理以及其在前端性能提升中的关键作用。通过与 JavaScript 的配合,WASM 让复杂运算如图像处理、3D 渲染、机器学习等在浏览器中流畅运行。文章还探讨了如何逐步集成 WASM,展示其在网页游戏、高计算任务中的实际应用。WebAssembly 为前端开发者提供了新的可能性,是提升网页性能、优化用户体验的关键工具。
5867 2
WebAssembly:让前端性能突破极限的秘密武器
|
缓存 JavaScript 前端开发
JavaScript 与 DOM 交互的基础及进阶技巧,涵盖 DOM 获取、修改、创建、删除元素的方法,事件处理,性能优化及与其他前端技术的结合,助你构建动态交互的网页应用
本文深入讲解了 JavaScript 与 DOM 交互的基础及进阶技巧,涵盖 DOM 获取、修改、创建、删除元素的方法,事件处理,性能优化及与其他前端技术的结合,助你构建动态交互的网页应用。
440 5
|
JSON 前端开发 JavaScript
聊聊 Go 语言中的 JSON 序列化与 js 前端交互类型失真问题
在Web开发中,后端与前端的数据交换常使用JSON格式,但JavaScript的数字类型仅能安全处理-2^53到2^53间的整数,超出此范围会导致精度丢失。本文通过Go语言的`encoding/json`包,介绍如何通过将大整数以字符串形式序列化和反序列化,有效解决这一问题,确保前后端数据交换的准确性。
335 4
|
设计模式 前端开发 JavaScript
揭秘!前端大牛们如何巧妙利用JavaScript,打造智能交互体验!
【10月更文挑战第30天】前端开发领域充满了无限可能与创意,JavaScript作为核心语言,凭借强大的功能和灵活性,成为打造智能交互体验的重要工具。本文介绍前端大牛如何利用JavaScript实现平滑滚动、复杂动画、实时数据更新和智能表单验证等效果,展示了JavaScript的多样性和强大能力。
311 4
|
自然语言处理 前端开发 搜索推荐
前端界的黑科技:掌握这些技术,让你的网站秒变智能助手!
【10月更文挑战第30天】随着前端技术的发展,网站正逐渐变成智能助手。本文探讨了四大关键技术:自然语言处理(NLP)使网站理解用户输入;机器学习实现个性化推荐;Web Notifications API发送重要提醒;Web Speech API实现语音交互。通过这些技术,网站不仅能更好地理解用户,还能提供更智能、个性化的服务,提升用户体验。
238 3

热门文章

最新文章

  • 1
    前端如何存储数据:Cookie、LocalStorage 与 SessionStorage 全面解析
  • 2
    前端工程化演进之路:从手工作坊到AI驱动的智能化开发
  • 3
    Vue 3 + TypeScript 现代前端开发最佳实践(2025版指南)
  • 4
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(五):背景属性;float浮动和position定位;详细分析相对、绝对、固定三种定位方式;使用浮动并清除浮动副作用
  • 5
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(六):全方面分析css的Flex布局,从纵、横两个坐标开始进行居中、两端等元素分布模式;刨析元素间隔、排序模式等
  • 6
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(一):CSS发展史;CSS样式表的引入;CSS选择器使用,附带案例介绍
  • 7
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(八):学习transition过渡属性;本文学习property模拟、duration过渡时间指定、delay时间延迟 等多个参数
  • 8
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(九):强势分析Animation动画各类参数;从播放时间、播放方式、播放次数、播放方向、播放状态等多个方面,完全了解CSS3 Animation
  • 9
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(四):元素盒子模型;详细分析边框属性、盒子外边距
  • 10
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(二):CSS伪类:UI伪类、结构化伪类;通过伪类获得子元素的第n个元素;创建一个伪元素展示在页面中;获得最后一个元素;处理聚焦元素的样式