基于阿里云API打造“Kim智能语音助理”

简介: 阿里云API应用创新大赛作品系列之-Kim智能语音音箱是如何基于阿里云API来实现开源的。

作为一家专注境外自由行的“互联网+”创业公司,我们始终在积极探索用户服务的终点在哪。当一名国内游客置身一个完全不同的语言环境时,内心或许是不安的;而境外落地服务的司机,大多数情况下是外国人,这就造成了极大的沟通困难。在这种场景下,如果车内可以通过智能设备为客人送去问候,并帮助其和司机、客服完成沟通,可以大幅提升国内游客在境外出游的舒适度。

基于此,我打算尝试一下是否能够基于阿里云制造这样一个物联网产品,毕竟对于创业公司来讲,借助阿里云的技术能力能节省不少成本。

开始尝试Kim

说话可能是我们每天做的最多的事情了,当然包括文字和交谈,所以这可能是手机触摸屏以外更“接近自然”的交互方式。

大家已经非常熟知“智能音箱”这个产品,阿里、小米等很多大厂都推出了自己的智能音箱,并与自己的业务体系深度绑定,这让我觉得很“封闭”,过于定制化、可玩性过于局限。

因此,索性我就把“Kim智能语音助理”做成开源项目,让更多的Geek能够参与进来,并且定制成自己的“私人助理”。(下图为天猫精灵X1)

f13286de655c27d3b19e51bb21fe51415405ff7a

 

最初的Kim,仅是一个运行在树莓派、Mac上的一个能够语音对话的客户端程序,它通过调用阿里云的TTS和ASR接口实现语音合成及语音识别。

 

后来在语音识别的基础上增加了“Kim大脑”,这一个关键的改进让Kim能够理解我们在说什么,并作出预设的响应。为了让这颗“大脑”能够学会更多,我专门在GitHub上维护了一个插件库。没错,我们与Kim的对话经过ASR之后会被传送到Kim的“大脑”,经过“中文语义仲裁算法”把指令交由语义匹配的插件处理。操作流程如下图所示:

1bc694617a12cdc86b165b03dcccf0c1427d5e60

Kim是一个简化的“智能音箱”,已经能够应付大多数的对对话场景,把插件写写好,或许能够应付语音购票的场景了,下图为上海地铁的工作人员在演示语音购票技术。

c7ad0bce5982c3e70212c25c3679c2f76f1b27eb

语音,只是一种交互方式,如果我们通过插件将其转换成计算机可以理解的指令,理论上我们对计算机的任何操作都可以实现。但复杂交互,还需要与计算机当前的状态有关系,我们后面会专门探讨这个问题。

 

Kim的远程会话服务

我们肯定不希望这个智能助理只能在物理上靠近时才能使用,于是诞生了“Kim远程会话服务”。远程会话服务提供了一组RESTful API和一套WebAPP供使用,RESTful API让开发者可以以任意一种形式(例如:APP、网页、微信小程序等)通过互联网与Kim会话。

但是,设备端的主控程序才是Kim的核心,无论你把会话服务部署在哪,最终的语义指令都会通过MQTT协议传输到Kim设备端。

6b6ce9a6a66c972ee0149cf303c5b03187602bbb

 

Kim插件库 + 阿里云API市场

正在给Kim插件库找数据源的时候,想起了阿里云的API市场,索性就把API封装到插件里 。下图为阿里云API市场的分类。

f9bcb49c8d38189d5cb5afe8cba397bd7d7088ca

这就意味着阿里云丰富的云端能力,能够轻松的为Kim所用,用药查询、天气预报、菜谱查询、新闻头条等等,都不在话下。

假象以下场景:

1.    你在厨房,准备要做一个红烧肉,但不会做;“Hey Kim,红烧肉怎么做”,这时Kim插件调用云端API,选出一个菜谱语音播报出来

2.    想知道明天的天气怎么样;“Hey Kim,明天天气怎么样”“明天晴,气温xxx,西北风xxx,空气质量优”

3.    ……

 

Kim插件库 + HomeAssistant

后来,在微博上看到了Facebook创始人扎克伯格给自己弄了个智能管家“老贾”。视频里的几个场景引起了我极大的兴趣:

1.    扎克伯格醒来后,说了一句:“老贾,把窗帘打开”

2.    有客人来访时,安保设备通过人脸识别先把门打开,再通知主人

3.    ……

“老贾”的视频:http://www.miaopai.com/show/rD3oErn2XBjERSq9dsZGcA__.htm

 

HomeAssistant是非常著名的开源智能家居控制系统,能够帮我们连接家里的灯、开关、门、温湿度计、空调等智能家居设备,支持小米、博联等众多的智能家居设备。

HomeAssistant支持设备列表:https://home-assistant.io/components/

 

好了,现在我们再回到Kim。HomeAssistant提供了家庭智能设备的控制方案,同时支持RESTful控制,这就方便了Kim插件库与HA的深度集成。当Kim具备这些能力的时候,我们的生活就变成了一下这样:

1.    中午躺在沙发上快睡着了,但是阳光太刺眼;“Hey Kim,帮我把窗帘关上”这时窗帘电机工作,窗帘关上

2.    暴雨来临前,室内很闷;“Key Kim,现在室内湿度多少”“室内湿度98%”“帮我把除湿机打开”,这时除湿机开始工作

3.    下班回到家,身心俱疲,准备看会电视放松下,但又实在懒得找遥控器;“Hey Kim,帮我把电视打开”,这时电视机亮了

4.    冬季早上起床困难,早上音乐响起、窗帘自动打开、空调自动开启并设定在26度

5.    ……

想想都觉得美。

 

这不是做梦,通过Kim是可以实现的。

 

安装和使用Kim

Kim目前已在Github开源,遵循MIT开源协议。目前Wiki已经相对完善,详细的安装方法和技术原理可访问Kim的Git仓库。

主项目仓库:
https://github.com/tenstone/kim-voice-assistant

远程会话端仓库:

https://github.com/tenstone/kim-voice-assistant-remotetalk

自定义插件仓库:

https://github.com/tenstone/kim-voice-assistant-plugins



阿里云API应用创新大赛系列之一       参赛者 刘远程

目录
相关文章
|
23天前
|
API 微服务
阿里云微服务引擎 MSE 及 API 网关 2025 年 9 月产品动态
阿里云微服务引擎 MSE 及 API 网关 2025 年 9 月产品动态。
|
2月前
|
人工智能 运维 监控
阿里云 API 聚合实战:破解接口碎片化难题,3 类场景方案让业务响应提速 60%
API聚合破解接口碎片化困局,助力开发者降本增效。通过统一中间层整合微服务、第三方接口与AI模型,实现调用次数减少60%、响应提速70%。阿里云实测:APISIX+函数计算+ARMS监控组合,支撑百万级并发,故障定位效率提升90%。
204 0
|
2月前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 API 网关 2025 年 9 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要。
402 143
|
2月前
|
人工智能 自然语言处理 安全
探索 API 的无限可能:阿里云的卓越引领
API是数字化时代的“万能钥匙”,阿里云凭借云控制API、API网关、OpenAPI Explorer等产品,构建全方位API生态,助力企业高效集成、安全管控与创新升级,推动电商、制造等行业智能化转型,引领未来科技浪潮。
119 10
|
2月前
|
人工智能 API 监控
告别多接口拼凑!阿里云 API 模型聚合实现技术能力协同跃迁
API聚合整合400+国内外AI模型,统一接口、屏蔽差异,降低开发与维护成本,提升效率与系统稳定性,助力开发者高效应对多API调用困境。
234 0
API 微服务
73 0
|
2月前
|
人工智能 API 开发者
图文教程:阿里云百炼API-KEY获取方法,亲测全流程
本文详细介绍了如何获取阿里云百炼API-KEY,包含完整流程与截图指引。需先开通百炼平台及大模型服务,再通过控制台创建并复制API-KEY。目前平台提供千万tokens免费额度,适合开发者快速上手使用。
1037 5
|
2月前
|
人工智能 API
阿里云百炼API-KEY在哪查询?如何获取阿里云AI百炼大模型的API-KEY?
阿里云百炼是阿里云推出的AI大模型平台,用户可通过其管理控制台获取API-KEY。需先开通百炼平台及大模型服务,即可创建并复制API-KEY。目前平台提供千万tokens免费额度,详细操作流程可参考官方指引。
|
3月前
|
云安全 人工智能 安全
API安全防线:申通与阿里云共筑数据护城河
申通快递携手阿里云打造API安全防控体系,通过IP、账号、行为等多维度监控,实现敏感数据泄露的精准识别与快速响应,构建快递行业数据安全新标杆。
|
3月前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 API 网关 2025 年 8 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要。
411 152