智能音箱,技术为王

简介: 智能音箱,技术为王

2月20日,小米9发布会上,除了2999元的小米9年度旗舰手机和TFBOYS小鲜肉王源外,最受关注的就是小爱触屏智能音箱,这是小米在2017年7月31日入局智能音箱以来的第一款带屏智能音箱。


image.png


之所以要带屏,是因为小爱音箱希望可以满足一些特定场景,比如时钟、电子相框、与智能门铃交互时弹出视频对话框,也支持追剧、刷网页、看股票,小米官方称之为“小电视”。


image.png


智音三强已全部带屏

 

小米不是第一家做带屏智能音箱的玩家。2018年3月26日百度发布国内首款智能视频音箱“小度在家”,搭载DuerOS,支持听歌、追剧和视频通话。


image.png


今年1月天猫精灵通过众测的方式,发布了带屏智能音箱天猫精灵CC。


image.png


三家发布带屏智能音箱的玩家,正是中国智能音箱第一阵营的三强。几乎在同一时间,美国研究公司Strategy Analytics发布了《2018年第四季度全球智能音箱市场报告》,报告显示,2018年4季度,亚马逊、谷歌智能音箱全球出货量与市场份额继续全球领先,阿里列全球第三位,4季度出货量280万台;百度和小米出货量分别为220万台和180万台,分别位居全球四、五,超过苹果。Canalys等机构的报告同样表明,天猫精灵、百度小度和小米小爱是中国智能音箱三甲。


image.png


2019年智能音箱行业的看点就是带屏智能音箱。Strategy Analytics总监David Watkins在报告中写到:


“智能屏幕受到消费者的欢迎——他们被音频和视觉刺激的结合所吸引,智能屏幕在2018年Q4占总出货量需求的10%以上,预计到2019年它们将成为市场增长的重要推动力。”


在这样的需求趋势下,智能音箱玩家纷纷推出智能屏幕就不难理解。

 

现在,国内智能音箱三巨头全部都已发布带屏智能音箱,有屏幕的智能音箱可以在语音外增加更多交互方式,进而满足更多场景,完成更多任务,获取更多用户。

 

带屏智能音箱这个说法看上去很矛盾,肯定有人会质疑,既然是音箱,带什么屏幕?带屏幕了,凭什么还叫音箱?在我看来,核心原因在于智能音箱的核心不是“音箱”,而是“智能”,智能音箱不是传统音箱的智能化,而是一个全新物种,能否带屏、带屏能否叫音箱,市场说了算。

 

智能音箱二战将爆发

 

从各种智能音箱报告可以得出一个清晰结论:正处于高速增长的智能音箱,已接棒智能手机和智能电视,成为第三智能设备品类。Strategy Analytics的报告就显示,4季度全球智能音箱出货量增长95%,达到3850万台,超过2017全年总出货量,2018年全年总出货量达到8620万台。

 

从绝对值来看,8620万不小,IHS Markit预计2018年全球电视出货量达到2.23亿台,同比增长3.5%,其中智能电视占比70%,作为核心定位也是客厅的智能设备,智能音箱出货量距离智能电视已越来越近,今天每个客厅都有一台智能电视,很快每个客厅都会有一台以上的智能音箱。

 

正是因为此,智能音箱市场尽管尚处于增长率95%的蓝海阶段,竞争却已十分激烈。虽然1月18日苹果HomePod正式在中国发售,但中国市场事实上被本土智能音箱玩家瓜分,阿里、百度和小米构成了三强,BAM对智能音箱都有公司级重视,投入力度只会增加不会减少。

 

  • 百度李彦宏多次亲自发布小度音箱,春晚红包大战直接送出10万台;
  • 天猫精灵负责人直接向张勇汇报,每逢双11都会进行高补贴的大促冲销量;
  • 在20日的小米9发布会上,雷军明确小爱音箱已成为小米AIoT的战略枢纽产品,小米手机+AIoT双引擎由1+4+X的战略组成,1是手机,4中第1个就是小爱音箱。


image.png


在阿里、百度和小米稳坐三强的情况下,很多玩家尚未死心,作为未来客厅最重要的互联网入口,有野心的科技巨头迟早都会对智能音箱战略布局。

 

前几天被传出已停止听听智能音箱项目的腾讯,一直给外界感觉缺乏对智能音箱的战略重视,正如我前几天接受36kr采访时提到的:腾讯在移动端拥有微信这一超级入口,对于其他入口需求不迫切,因此对智能音箱的态度更多是试水,听听也好、叮当也罢都没有清晰的定位。不过,不排除腾讯接下来会战略重视智能音箱,针对听听项目停止的传言,腾讯就已回应:

 

“在智能音箱这条产品线上,在新型号叮当带屏音箱发布上市后,还将会继续保持先前听听产品的正常的销售与服务不变。叮当团队还将深度结合CSIG 业务,面向行业输出全栈语音人工智能解决方案能力,以及叮当智能屏产品系列的开发。”

 

image.png


几乎同一时间,喜马拉雅和猎豹移动这两家都拥有智能音箱产品的巨头也有新消息:喜马拉雅出资3000万,收购了猎豹系的猎户星空公司的AI语音识别团队以及小豹AI音箱技术团队。与此同时,两者联合成立北京小雅星空科技有限公司,喜马拉雅作为大股东占股65%,猎户星空占股35%。两家对智能音箱都没死心,但喜马拉雅更重视了。


image.png


在喜马拉雅、猎豹、腾讯外,京东、科大讯飞等互联网公司都有布局智能音箱。手机公司则是另一派系的玩家,小米、荣耀和锤子均已推出智能音箱,OPPO推出语音助理智能音箱已在传言中。传统音箱巨头不会眼睁睁看着市场被智能音箱夺走。眼下智能音箱音质比较低端,但当它们有一定市场地位后,就会通过挖人等方式走专业音箱路线,智能化是传统音箱大厂的必走之路。

 

可见,三分天下不是智能音箱市场的终局,“百箱大战”后,智能音箱二战即将开打。

 

得AI技术者得天下

 

为什么智能音箱三强是阿里、百度和小米?最直接的理由是三家战略重视,舍得花钱补贴,亏本甩卖,消费者买不了吃亏买不了上当,愿意一试。但深层次来看,我们会发现AI技术才是决胜点。

 

为什么AI技术对智能音箱至关重要?因为智能音箱的核心价值是“智能”,要能通过语音跟用户交互,这比普通的语音输入法或者手机语音助理要难得多。

 

  • 首先智能音箱要能随时被快速唤醒,又不能频繁被错误唤醒,客厅空间很大,音箱距离用户往往很远,声音环境复杂,挑战大。远场语音识别是技术核心也是技术难点。
  • 其次智能音箱要听清用户命令也不容易,客厅虽然相对安静,但也有厨房、洗衣机、马桶、小孩、宠物、电视等噪音;
  • 再次智能音箱要理解用户的自然语言命令,老人、小孩、方言这样的挑战也不少;
  • 最后,智能音箱如果带屏,就要多模交互,用户会问“我手里拿着的是什么”这样的复杂问题。


image.png


因此,没有足够强的AI技术,根本玩不转智能音箱。智能音箱鼻祖亚马逊今天依然是全球老大,作为一家电商巨头,它给Echo智能音箱的语音助理Alexa配置了超过2000人的团队,来研发智能语音交互技术,一家电商巨头愿意这样做投入,让人叹为观止,AI技术对智能音箱的重要性不言而喻。

 

没有金刚钻,别揽瓷器活,中国智能音箱三强,在AI技术上均有各自优势。

 

阿里天猫精灵由曾经隶属于阿里云的AI实验室打造,依托阿里云多年的数据、技术和场景积累,以及阿里巴巴达摩院千亿级投入下,阿里巴巴在AI上已经形成自己的优势,拥有ET大脑系列AI开放平台,在多个行业落地。

 

百度的AI技术优势也十分明显,战略押注AI的百度认为自己是AI公司。百度自然语言处理、机器视觉和语音等技术优势明显,其中DuerOS立志成为语音交互的Android,给小度音箱打下了坚实的AI技术基础,甚至可以说AI技术是小度音箱的最大长板。

 

相对而言,小米在AI技术上的布局晚了一些,提出AI+IoT战略是不久前的事情,去年四季度百度在智能音箱上后来居上,正是因为此,小米在强化自有AI技术的同时,开始求助外部强援。2018年最后一天,小米旗下两款智能音箱开始支持召唤微软小冰;这次发布的小爱触屏智能音箱,终端侧的语音信号处理和唤醒技术,来自于明星AI创业公司地平线,后者擅长在终端侧结合芯片做算法优化,就语音技术而言,抗噪能力和唤醒能力都有独特优势,最终体现在小爱触屏智能音箱的交互体验上,其在双麦克风阵列设计下抗强噪声干扰,错误唤醒率大幅降低,小米请“外援”也侧面证明了AI对智能音箱的重要性以及技术门槛之高。


image.png


其实不只是小米,即便是百度、亚马逊这样的自诩AI技术强大的巨头,也有求助外援的时候。百度做智能音箱前收购了一家专门做唤醒词的公司KITT.AI,2018年发布的渡鸦智能音箱唤醒方案由其提供。亚马逊Echo有外部方案商如LinkPlay,LinkPlay在去年引入前面提到的地平线的技术,以更高效地适配产品场景,地平线拥有独特的软硬件结合方案,基于定制的芯片做语音和视觉算法,更好地满足智能设备语音和视觉交互的场景,在行业内影响力日盛。

 

像喜马拉雅这样收购专业团队,或者像小米这样引入专业外援,会成为智能音箱玩家们补齐关键技术短板的主要手段。

 

语音交互将无处不在

 

智能音箱大战只是智能语音大战的铺垫。

 

在5G即将普及后,在智能手机进入存量时期后,在IoT即物联网爆发后,智能语音会成为越来越多智能设备的标配交互模式,正是因为此,今天巨头们争夺智能音箱的本质,是在争取与用户的“对话权”,抢占用户的耳朵和嘴巴。未来智能门锁、智能电视、智能汽车等智能设备都会具备语音交互能力。

 

万物互联时代,大量的设备亟待语音交互能力,这意味着大量的送水人机会。

 

  • 首先,五花八门的智能设备很多都是传统设备厂商,如门锁、家电、家居、安防厂商,它们不可能去自主研发AI技术,只能求助外援;
  • 其次,智能设备的语音交互场景更复杂,对技术要求更高,比如功耗、成本、集成、唤醒等,甚至需要针对性的解决方案,这同样需要靠外援;
  • 最后,智能语音交互不只是简单的语音识别,还需要大量的互联网服务和内容来满足用户,这又不是传统设备厂商可以做到的事情。

 

解决办法只有一个,就是找外援,智能语音交互时代的外援将有两个类型,一类是百度代表的云服务平台类,一类是地平线这样的边缘计算服务商。

 

百度DuerOS是一个旨在帮助万物具备语音唤醒和交互能力的系统,不只是支持智能音箱,还支持智能家居、智能车载等形式各异的设备;腾讯叮当将依托CSIG面向行业输出全栈语音人工智能解决方案能力,CSIG是腾讯组织架构调整后负责B端产业互联网的部门;阿里有ET系列大脑,巨头都是提供平台/系统/接口,输出标准化的能力和服务,各家智能设备接入即可。

 

地平线则代表着另一种思路,即做终端侧解决方案。与云端服务商不同,地平线瞄准了AI终端侧处理的趋势,终端侧AI延时极低,在自动驾驶、车载设备等场景下优势明显,在智能家居等场景下可提升体验。地平线通过“芯片+算法”结合的边缘计算,帮助智能设备在终端侧拥有更强的AI交互能力,比如语音算法内存开销小、计算效率高,低功耗、低成本、易集成。

 

地平线服务的不只是小爱音箱这样的智能家居设备,也提供全车音频解决方案。地平线做自动驾驶起家,旗下Matrix自动驾驶计算平台为L3和L4级别的自动驾驶提供高性能的感知系统,已向世界顶级自动驾驶厂商大规模供货,车载音频解决方案是其智能驾驶业务的一部分。


image.png


地平线还没有自己的语音芯片,被小米相中证明其算法实力被行业认可,未来地平线很可能会将语音算法、芯片和机器视觉结合起来,给智能设备提供综合终端侧AI交互能力,这是单纯依靠云计算实现不了的。而且智能家居和智能车载等智能设备将面临更严峻的隐私安全问题,终端侧边缘计算有望一定程度回答这一问题,就像iPhone X 的FaceID全部放在硬件端做以确保隐私安全一样。

 

类似地平线的面向行业的AI外援还有很多,相对于巨头而言,它们更像是解决方案提供商,可以提供个性化的智能交互方案,可以在特定的点上做得更好,它们不做自己的智能设备,与智能设备只有合作没有竞争关系,中立性强,也是一大优势。


长期来看,地平线这样的终端侧AI服务商和百度这样的云端AI平台,会是协作而不是竞争关系,AI云端均不可或缺,大家会从不同维度去帮助智能设备具备更强的智能交互能力,加速IoT时代的到来。




相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
API
POI读取公式的值
excel中的数据:   package poi; import java.io.FileInputStream; import java.io.IOException; import java.
2722 0
|
小程序
微信小程序vantweapp自定义侧边栏
微信小程序vantweapp自定义侧边栏
485 0
|
Arthas Kubernetes 数据可视化
推荐10个GitHub上适合练手的后端项目(涵盖初中高阶)
上周,我们推出了26个好玩又有挑战的前端练习项目。 不少同学留言说,那后端的呢?后端也要! 淘系工程师一呼就应,我们邀请了2位淘系技术后端工程师,筛选出10个难度层层递进,好玩且实用的后端项目,包含java类库中的“瑞士军刀”工具、可视化API展现等等,难度依然分为【初级篇:4个】、【中级篇:3个】、【高级篇:3个】,不同学习诉求的同学可按需选择~
推荐10个GitHub上适合练手的后端项目(涵盖初中高阶)
|
开发工具 git
Git详解——pull、push、clone、fork、pull request图解及命令速查
本文主要针对Git中pull、push、clone、fork、pull request图解及命令详解
840 0
Git详解——pull、push、clone、fork、pull request图解及命令速查
|
SQL 安全 Java
golang为什么不支持可重入锁?
本文对比分析了Java与Go语言中锁机制的不同。在Java中,无论是`synchronized`关键字还是`ReentrantLock`都支持可重入特性,通过维护一个计数器来跟踪锁的嵌套级别,确保同一线程可以多次获取同一把锁而不会造成死锁。然而,Go语言的`sync.Mutex`并不支持这一特性,其设计理念认为可重入锁往往指向代码设计问题,鼓励开发者重构代码以避免此类需求。文章进一步解释了这种设计理念背后的原因,并提供了替代方案示例。总体而言,Go语言试图从设计层面避免潜在的代码问题,尽管这可能会增加一定的开发复杂性。
267 3
golang为什么不支持可重入锁?
|
监控 Oracle 算法
|
机器学习/深度学习 人工智能 自然语言处理
卷积神经网络(CNN):视觉识别的革命先锋
卷积神经网络(CNN)作为人工智能领域的一颗璀璨明珠,在计算机视觉中发挥着核心作用。CNN的发展历程展现了从生物学灵感到技术创新的转变,历经LeNet-5至AlexNet、VGGNet、ResNet等里程碑式的进步。其独特结构包括卷积层、池化层及全连接层,能够层层递进地提取特征并作出决策。CNN不仅在图像分类、目标检测等领域表现卓越,还在人脸识别、医学影像分析等方面展现出巨大潜力。尽管存在局限性,如对序列数据处理能力有限及解释性问题,但通过引入注意力机制、自监督学习等方法,CNN将持续演进,引领人工智能技术走向更加精彩的未来。
724 2
|
存储 前端开发 测试技术
Android Kotlin中使用 LiveData、ViewModel快速实现MVVM模式
使用Kotlin实现MVVM模式是Android开发的现代实践。该模式分离UI和业务逻辑,借助LiveData、ViewModel和DataBinding增强代码可维护性。步骤包括创建Model层处理数据,ViewModel层作为数据桥梁,以及View层展示UI。添加相关依赖后,Model类存储数据,ViewModel类通过LiveData管理变化,而View层使用DataBinding实时更新UI。这种架构提升代码可测试性和模块化。
480 2
|
存储 负载均衡 算法
1. Etcd 介绍
1. Etcd 介绍
|
机器学习/深度学习 人工智能 自然语言处理
【A I 软件开发】一文讲清交互应用的实现原理
【A I 软件开发】一文讲清交互应用的实现原理
572 0