导语:智能的生活场景是每个人都期望实现的美梦。在许多场合,我们已经被这样充满诱惑力的描述所洗礼:回到家时,根据我们的心情和身体、天气状况,家里的灯光、音乐、空调会自动打开并调节好;电热水器、饮水机和微波炉已经热好了水和食物;甚至于和电影《钢铁侠》中一样,召唤一声“我需要一杯咖啡”,它就会被机器人自动送到面前。
多么美好的未来。但它离实现还有多远?创业家&i黑马人工智能系列,本篇将带你认识,智能生活的语音交互新入口。
在物联网和人工智能时代,产品的智能化已经成为趋势。从电子产品、家电到家居用品,智能的概念在前两年大行其道。智能家居和可穿戴的风口从2014年开始井喷,但这种势头在2015年下半年,却开始放缓。
于是,我们能对比到,现在大多数人的智能家居和硬件产品,还离我们想象中的“智能”非常遥远。
只在硬件上加上一个WiFi、传感器和APP,这并不是我们期待的“智能化”的未来。
最像“智能”的产品,或许是亚马逊的Echo。它整合了Alexa语音识别技术,让消费者用声音上网、检索信息、控制家居生活,已经拥有300万台的销量,让谷歌都为之眼馋。它体现的价值,也集中在搜索、伺服式语音识别和人工智能之上。
一个新的交互形态,在智能家居和硬件之上正亟需提高。当我们使用上述的智能化场景时,无论是可穿戴设备,还是家居、家电,如果仍然靠PC或智能手机的界面来操作,这可能是很难想象的。
不依托于这些手动装置,就能实现对它们的操控,无疑是这些设备最吸引人的便捷性所在。语音交互,也成为智能化过程中日益普遍的一项功能。
“交互的形态正在改变。”云知声CEO黄伟说。“移动互联网和PC互联网时代最大的区别是,我们现在是基于多点触控的应用,用手机上网,用移动设备上网,而不是仅仅用PC,通过键盘。
而到了IoT时代,我们又不再只是通过手机,我们可以通过更多的设备联网,而它可能不再有触摸屏。”
从家居到家电,从物流到驾驶,从医疗到娱乐,一个智能的趋势正席卷而来。从Siri、小冰,到Echo,到搜狗的语音输入,再到度秘。也许人工智能的发展进程我们还不能预判,但商业和生活的智能化,却已经是一个不可逆转的过程。而其中,语音交互,或许会是一个新的智能时代的新入口。
创业家&i黑马在云知声的体验间里,体验了乐视超级电视X55和华帝抽油烟机,如何在家庭场景噪声下唤醒和操控。通过语音的控制,窗帘可以自动开启,灯光可以调节。创业4年,累计融资过亿美元之后,云知声,也许在物联网和人工智能兴起的浪潮中,也将面对一个更大的发展时机。
*云知声CEO黄伟(受访者供图)
物联网智能硬件要和服务打通
2008年,科大讯飞(002230,股吧)上市,一度垄断国内语音识别市场的半壁江山。深度学习的发展,给了语音识别新的驱动力,但在2012年,云知声初成立之时,在这片江湖中,玩家还是寥寥无几。如何实现弯道超车?当时云知声,决心从开发者平台做起。
在当年,许多公司的创业方向都还是语音助手APP。“但我并不认为这个方向能够成功,尤其说它根本不适合一个创业公司去做,做这个会比较难。”黄伟说。
黄伟的判断来源于自己多年来的从业经验。作为语音识别的领军人物之一,他先后就职于摩托罗拉和盛大创新院,曾成立盛大创新院语音分院,在2012年,黄伟离开盛大。“我自己做过很多年的技术,我非常清楚,语音其实是技术,并不是产品。
它是用来解决人跟设备的交互问题的,但交互本身不是目的,人们是要通过一种最便捷的方式来获得后面的服务。就像手机的多点触控,你离不开屏幕,但你觉得只有这块屏幕好玩吗?当然不是,吸引你的,是它背后的各种互联网服务。”Echo之所以成功,不仅是它的语音交互,还是由于,它可以和亚马逊电商打通,可以直接提供服务。
但是,对于创业公司而言,它也往往只限于提供这种交互方式本身,是很难具备连接交互后面服务的能力的。“当时选择做平台,是因为这样至少我们是有技术价值的。”黄伟总结。2012年9月,云知声语音平台发布,当时的精确度只有85%。
但是,语音平台也为云知声源源不断积累了语音数据。2013年初,准确度提高到了91%;而到了2013年底,云知声的语音数据已经积累到3000小时,精确度提高到95%,平台上开发者超过8000家。
从那时起,数据+算法就成为云知声“双门驱动”的引擎。从一开始,云知声就和深度学习结合在一起。当时的深度学习还主要是停留在学术界,很多人对此了解并不多,而深度学习,也需要超过以往不同数量级的数据支撑。但在2011年,在一个语音识别的国际会议上,黄伟遇到了微软首席研究员俞栋,对方告诉黄伟,这是“确确实实进展非常快、能够取得非常大的成就”的。
这坚定了云知声做深度学习的决心。当时公司刚刚拿了天使轮,钱还不多,就在淘宝上买显卡、买机器,在9月平台发布后,10月份就投入了对深度学习算法的学习。2013年1月,云知声深度学习系统对外开放。搜狗云助手、乐视电视,都成为这个系统的首批服务对象。
而2012年和搜狗的合作,则是让云知声一战成名。
“当时国内大的公司,百度、搜狗,都想发布自己的语音助手产品,想抢2012年底前这个时间点。搜狗自己没有语音能力,就去找合作。”黄伟说。语音识别当年的圈子本来就不大,云知声就进入了搜狗的视线。“他们肯定也评估了很多家,但我记得很清楚, 我们跟搜狗从第一次见面到最后达成合作协议,一周时间。”黄伟言及于此,颇有些得意。
从2012年中到2013年底,云知声没有做过多的商业化的尝试。在这段时间内,云知声通过算法和平台的搭建,逐渐打通了自己数据驱动的路。而到了2014年,黄伟觉得,公司到了一个新的阶段,是时候开始仔细思考公司的定位问题了。
黄伟把当时市场上的主流公司做了分类。科大讯飞和BAT作为先发者,占据了市场和资源的优势,但是,它们都是从PC互联网时代迁移过来的,那么,新的时代转折,是否可以给云知声提供机会?“在IoT领域,它们也没有积累,或者说足够的壁垒,那么我们就在IoT切入。”
这个新的机会就像黄伟在开始所说的,IoT时代改变了交互的形态。同时,这些新的设备和人是有距离的,那么,在交互时就必须加入新的能力,而芯片就是解决它的方法。因此,2014年,云知声提出了“云端芯”,要把自己的能力从云端扩展到终端、再到芯片端。
*云知声远场语音识别技术(受访者供图)
5米之外能语音唤醒和操控家电吗?
“这个端,你可以把它理解成带界面或者不带界面的一个虚拟UI。”黄伟解释说。“我们把端定位成一个AIUI,是一个基于人工智能的交互系统。我们也会把很多AI技术植入到芯片里面去。比方说,距离比较远的时候,如何实现设备的识别、唤醒、打断;再比如说,在房间里或空旷地段,会有回响,怎么把这个回响给消除掉……我们要把这些新能力不断地补充进来。”
云上是数据的积淀,端是入口,芯片承载了云知声的服务,这也是在这一波物联网智能硬件和人工智能的浪潮中,黄伟对云知声在竞争中脱颖而出的期望所在。
云知声拿着demo去和客户演示,一个个说服他们接受这种交互形态。2014年底,云知声获得高通的5000万美元B轮融资,开始发力芯片。
但这是比之前的研发要困难得多的一件事,要想做好它,困难重重。“我一直自信我们在技术领域算是做得比较好的,但我们从来没有在任何一个技术点上花过这么大精力来解决问题。”黄伟对创业家&i黑马感慨。一方面是性能问题要解决,另一方面,要实现芯片工业化量产,需要有太多算法之外的问题需要解决,比如功耗、散热、热高温、防摔……“做demo容易,做产品真是太难,太难了。”
2016年,云知声的芯片开始出货,其中花费了一年半的时间。但黄伟觉得,这些是有价值的。“因为这些能力的补充,包括这些新的产品形态,使得我们的交互方式从移动互联网时代时只能对着手机、做距离比较近的讲话,到今天我们可以实现在3-5米之外,通过声音遥控。”
或许很多人还并不理解这会有什么样的意义。但实际上,智能手机之后,下一个人和信息沟通的方式将会是什么形态,是很多科技公司一早就在设想的事情。Google Glass尽管是个失败的产品,但它却是科技界为此做出的大胆尝试。
智能化的趋势必不可逆,而手机APP,也不会永远都是控制众多智能设备的方式。
但是“去手机化”的过程,需要迈过高高的技术门槛。至今为止,较为成功的产品,也只有一个Echo。
云知声和乐视电视有着长期的合作。从第一代到现在第三代乐视超级电视,从语音操控到语音交互,都是云知声提供语音交互技术。
2016年8月,美的智能空调发布,它搭载了云知声的AI芯,使用者可以在家庭环境中5米内通过语音控制空调的开关和温度,空调能结合关键词分析、理解用户意图。
但这款产品的问世也是历经挑战。要想获得厂商的合作支持,就必须能够消除噪声环境影响实现语音控制;空调一般都是壁挂式,所以要实现远场交互;且成本可控。
“Echo是6+1个麦克风,外圈6个和中间1个,所以它效果不错。但我不行,家电厂商对成本是非常在意的。”黄伟说。“麦克风多了,信息源多,就需要更强的CPU,成本功耗就要提升。其次,家电大多是靠墙安装的,麦克风怎么放?”
云知声最后采用的是双麦克解决方案,两个麦克风,间距不超过3厘米。但问题又来了,只有两个麦克,如何达到性能?云知声花了一年多时间解决这个技术问题,终于在2015年这款产品开始生产。现在,市场上的大多数智能家电产品,华帝、格力、海尔、美的等,都是和云知声合作的。
但软件可解决,硬件也还是让黄伟觉得比较麻烦的一件事。比如麦克风。“现在手机上的麦克风,对电话场景下的噪音意识,已经做得非常好了。但在家居市场上,硬件厂商还没有这个意识。比如他们以前从来不会想到,一台电冰箱上会需要一个麦克风。所以,现在对我们软件的要求就更高了。”
除了智能家电和家居,车载以及医疗、教育等行业,也是云知声商业化落地的主要领域。比起智能家居来,车载的应用场景更好想象。当人们在驾驶时,双手都被占用,语音交互就成了最佳选择。但黄伟认为,车载前端产品周期非常长,“从接触到产品要出来差不多要用5年左右时间,不适合一个创业公司”。因此,云知声选择从后装市场切入。而2014年,黄伟认为是一个新的契机正在出现:“当时已经有10%的设备开始使用安卓平台了。我们判断,安卓在车载系统里将是未来的趋势。”经过了半年多的研发,到2015年中,云知声开始和厂商对接。到现在,安卓系统已经占据了市场上90%的份额,而目前,搭载云知声智能语音SDK的车机产品出货量已超过150万台。
在医疗方面,协和医院已经和云知声合作,使用医疗语音识别系统,对病历、医嘱等进行录入。而且,这也有助于未来的医疗大数据挖掘工作。
在商业化的策略上,云知声一直选择的是B2B2C。这也是很多AI公司的选择。当一种新技术仍在发展和完善过程中,通过与B端的合作,不断获取用户的需求,了解行业,通过反复迭代来完善技术,是看似必然的选择。而B端的企业,也是在技术投入成本较大的现阶段,比C端更具备付费与创新的动力。
之前,云知声的合作公司还多数是互联网公司的中小型企业,而从2016年开始,公司的商业重心开始向大B倾斜。“对于中小型公司而言,新的技术和交互形态它们更乐于去尝试。而大企业的推动进程也比较慢。而今年,很多大的企业的生产计划也可以排好了。”而和大型企业合作,对云知声而言,既能扩大市场规模,又能树立起行业中的标杆。
“做商业公司,一定得回归到商业本质上,那就是收入。尤其是像今天资本市场并不是特别好的情况下,大家更看重收入。但我们并不是到B为止了,我们还会到C。我们为什么要做平台?C端对我们具有用户价值,这能帮助我们的后台不断提升, 在B端会更有持续的竞争力。”黄伟说。
*云知声医疗语音识别系统的应用(受访者供图)
让机器去理解人类
而这样用语音操控机器,或者机械的一问一答,还是远远达不到“智能”的程度的。开发者们需要去做的,是让它们更加聪明。
如果你坐进自己的爱车,感觉到今天的温度有些低,于是你说:今天有些冷。而这时,你车内的系统会自动将空调温度调高。再或者,当你和你的机器人在户外,你仍然随口表示:今天有些冷。而机器人,会自动理解你的意思,但此时,它不会去寻找空调,而是提示你:披上外套吧。这样的,是不是更令人向往的一个美好未来?
今年7月,云知声宣布,完成了技术引擎3.0版本的升级,并提出了“语用计算”的概念。关于这个概念,你可以简单地理解成,机器可以理解我们对话的语境,联系上下文进行回答。
调戏过Siri和小冰的人,或许了解要达到这一场景有多么困难。“我们推出语用计算是为了产品落地。”黄伟坦率地说。“现在很多聊天机器人,我觉得就是个学术命题。我们对聊天没有强需求,聊天也不是产品。作为创业公司,我希望能解决当下的问题。在智能产品里,我和机器聊天说上好几轮,技术上是很厉害,但用户会不耐烦。我们更多地是把多人对话管理技术和当前状态信息结合在一起,把语音识别、物理环境以及之前的对话信息等结合在一起,让机器做出对应的回答。”而前面提到过的场景,也正在逐渐向现实转化。例如,在应用了云知声语音技术的格力金贝空调中,如果你说有点儿冷,它就会自动把温度调高一度。
“IoT时代产生的经济规模和经济价值,我认为应该会远远超过移动互联网时代。”黄伟说。“智能手机(Smartphone)和功能手机(Feature phone)的区别是什么?是它通过交互改变了产品本身的属性。而我相信,就像我们家里的冰箱、空调,今天它是Feature device,未来它一定会成为Smart device。”
在这个人工智能爆发前夜,i黑马与今日头条-科技联合出品,合作多家业界顶级媒体、投资机构,邀请人工智能领域专家、大咖,从专业、以及产业洞察的角度,一起来评选《人工智能创新公司TOP50》榜单。拥有创新原力的人工智能领域公司, 快来报名一起“唤醒未来”!
本文转自d1net(转载)