毋庸置疑,在人机交互系统更迭引发的新一轮产业变革中,语音已成为设备交互的最有效和最自然的方式。以 AI + IoT 为模式的物联网设备的智能化浪潮,正在加速爆发。
国内语音智能市场在经历了一年多的大跨越式的发展后,逐渐进入了冲量的攻坚阶段。尽管语音大平台的赋能运动轰轰烈烈,但要把 AI 与现有 IoT 产品有机结合,把用户体验的成熟度做到产品级,仍有不小的挑战。
一方面,对于许多产品团队和传统设备厂商来说,技术能力不足,二次开发往往并不顺利,导致产品交付无限制的延期;另一方面,对于平台方来说,面对因为开放而蜂拥而至的长尾客户,很难有精力逐一做好支持,赋能万物难免的变成了平台方和头部品牌商的秀场。
云知声联合创始人康恒博士在 9 月 12 日深圳召开的一场行业交流会上,分析总结了 AI + IoT 落地的 5 大挑战:
1. AIoT 终端类型广泛,从产品形态到功能再到使用场景,都呈现了明显的碎片化的特征,通用方案很难做到全品类的适配。
2. AIoT 终端设备的供应商分散,除了芯片和硬件平台之外,AI 算法、运算服务、甚至应用程序,都需要多加供应商支持,这无疑加重了终端厂家的时间和财力成本。
3. 不可控的产品体验。「攒」出来的产品,易造成不可控的用户体验。
4. 产品体验的反复调优,造成 TTM(产品上市周期)无法保证。
5. 方案不能在不同产品之间实现快速复制,造成成本高居不下。
△ 云知声联合创始人康恒博士
在智能音箱和智能家居这个赛道上,可定制、体验好、出货快的语音 AI 方案,仍然是稀缺资源。
面对行业的难题,云知声推出了基于其首款 AIoT 芯片雨燕 SoC 的开源方案,以开放共赢的心态邀请设备商、方案商和开发者,共同推动智能音箱智能家居产品快速智能化。
为什么要推开源方案?源代码开放会到什么程度?语音引擎原厂的 SDK 是不是就足够了?开源方案适用于哪些行业用户?价格和竞争力如何?针对这些问题,深圳湾在前不久采访了云知声另一位联合创始人李霄寒,大家可以从这篇「十问」中获得答案。
这里将着重讲解,这一开源方案如何能够解决设备商、方案商和开发者在智能化道路上面对的问题。
△ 雨燕 SoC 架构
首先从芯片谈起,鲍晴峰介绍了雨燕 AIoT 芯片架构的特点:
● 异构 SoC:同时包含通用 CPU (ARM)、 AI 加速器(DeepNet)以及数字信号处理器(DSP)● 面向语音 AI 场景,提供 Audio IO,支持 6 个模拟/数字麦克风接入
● 拥有自主知识产权的 NPU (神经网络处理器) DeepNet
● 拥有自主知识产权的高性能数字信号处理器 uDSP
● 采用基于 ARM 的通用 CPU,便于第三方应用开发
● 提供丰富的外围接口:USB、SPI、I2S、SDIO、UART、GPIO等
相对于面向统一应用场景的通用 CPU,雨燕在 DSP 任务加速、miniNLP 任务加速、TTS 任务加速、内存带宽利用效率、NN 任务提升等核心指标,都能有成倍数的提升。雨燕也被定义为是面向物联网 AI 的入口级解决方案。
△ 云知声的全栈语音交互技术
在硬件设计上,通过雨燕以及对应的硬件参考设计,去除了降噪模组和外部 ADC,降低整体成本和研发选型周期。
在系统层面,雨燕的开源方案基于嵌入式 Linux 建构系统,内存占用小于 64M。关键器件(DDR & Flash & WIFI)提供至少 2 家供应商的驱动支持,以保证兼容性。Wi-Fi 和 BT 具有不同播放协议(A2dp)和联网方式(softAP, smartconfig)的支持,并对各种外部设备做兼容支持。
作为第三方语音平台,雨燕开源方案的云端服务,在可定制、可扩展性方面表现突出,支持多达 40 个领域的语义理解,支持客户自定义的账号系统和消息中心,支持云端快速定制 FAQ,支持第三方 skill 接入和第三方内容的整合。
同时,雨燕开源方案提供声学结构参考设计,为产品提供结构设计建议,并派出语音信号工程师和 FAE 团队一起来调优声学结构。
△ 云知声的开源合作模式
总体上,面向客户、方案商与开发者,云知声为客户提供全栈语音交互解决方案,包括完整的语音 AI 应用参考方案、云端能力以及客制化工具。同时在灵活度方面,云知声提供了多种开源合作模式,以帮助客户在跨形态的物联网硬件产品上的差异化需求。
作为 AI 云服务商、AI 软件方案商、AI 芯片原厂,云知声希望用易用的 API、SDK 等开发组件,助力物联网设备商快速、高效地实现产品智能化升级。
原文发布时间为:2018-09-14
本文作者:shenzhenware