全栈语音交互方案免费开放,这次扔开源炸弹的是Rokid

简介:
本文来自AI新媒体量子位(QbitAI)

27214e91dd21674c0a2cffdaa5f783cb8873446a

 Rokid创始人及CEO祝铭明

“我们没有被收购。”

Rokid创始人及CEO祝铭明开门见山解释说。

云栖大会议程公布后,从阿里走出的Rokid与阿里再度联系到一起,更有文章言之凿凿称主导这起收购的是阿里集团董事局副主席蔡崇信——之前就是他主导了对祝铭明第一家公司猛犸科技的收购。

消息不实,但一切也并非空穴来风,因为Rokid确实与阿里官方牵手了。

今日,Rokid与阿里云联合推出了“全栈语音开放平台”。

这个号称“All in One”的一站式语音解决方案(Turn Key Solution),由Rokid技术主导,获阿里云钦定支持,联手开源免费发布,这是过去三年Rokid和阿里云“端-云”协作的工作模式,现在他们希望快速开放给到所有工程师、开发者和合作方。

这也是阿里首个参与的语音交互为核心的开放平台,关于这场语音“安卓”的竞赛,阿里在百度DuerOS之后正式入局。

有什么?

除了看不见的代码和云计算,这个全栈语音开放平台长这样:

7cd6691687397433af3000f8789b5588b18ad429

硬件上,包含了:蓝牙、GPU、CPU以及麦克风阵列、信号处理等所有开发所需,最后还留出了一个3.5毫米的音频输出接口、Micro HDMI显示输出,可以直接接电视接显示。Type-C电源调试,还可以对外输出充电。

5aaffe00c37cc438e32b07a053ae3357b5fa07c5

软件方面,两套分别搭载Linux和Android操作系统的开发套件内置其中,语音服务可选Rokid或阿里云,双方还将语音交互和语音技能方面的技术作为并集开放。

能干什么呢?两方面。

一方面是直接用来打造语音交互设备,可以自己打造一款智能音箱,也可以通过开发套件让电视、冰箱、机顶盒、后视镜,玩具等各种生活工作设备“能听能说会理解”,比如有工程师拿这个套件让自己的Hi-Fi音箱变智能。

a114a75de522c6d456adcb018d3bf4267aef6e15

另一方面是基于此开发语音技能,成为这个生态中的开发者,比如有人做了个“猜歌互动”的游戏,有人弄了机器充当狼人杀法官的应用,甚至还有一个百无聊赖的开发者,基于此做了一个“放个屁”的无聊应用。

总而言之,这是一个号称“All in One”的一站式语音解决方案(Turn Key Solution),目的也再明确不过:可以吸引更多极客、工程师和开发者,进入智能语音开发平台打造中,“智能”行业的准入门槛,会大幅降低。

真开放

不过也不全是好事。毫无疑问,这同样是一颗深水炸弹,可预见范围内,两大类公司会因之受影响。

第一类公司如科大讯飞和思必驰,拥有自己的完整语音交互方案,并以此进行B2B合作,围绕服务实现营收,利润市场遭遇轰炸,空间缩窄。

第二类公司群体更广泛,是语音交互中的链条公司,之前他们围绕语音交互的某一环节展开研发,成为具体技术方案供应商,如今也将承压,至少营收市场遭遇轰炸。

而“轰炸”杀伤力的大小,关键在于开源的诚意和实力。

eecc499b7bdaafc4ff7635bd408b0ab459fea1f0

Rokid创始人祝铭明对此深怀信心,他表示这是一次“真开放”,且“开放真东西”。

“真开放”,从端到云,全栈开发链条的开放,涉及70%的操作系统和框架代码,以及全部的E.E和M.E设计,这也是创业3年来Rokid日夜打磨的核心所在,而且每一环节都能单独拆分使用,可以更自主地展开开发。

4c1970ca9a814a5e1faa567d22fd57ab19178695

“开放真东西”则包含更多,主要涉及三大方向:

第一是整套软硬件一体化的语音交互OS,其中语音和语义应用中的难点——算法模型、前端降噪、5米以上远场交互、自定义唤醒词、声纹识别等,都一一开放,其中如“声纹识别”、“自定义唤醒词”等技术,都是目前语音交互中的难点所在,研发成本和难度,远不止金钱投入那么简单。

第二是内容和服务,包含音乐、有声读物、天气等语音内容,不存在版权问题的直接开放,需要版权购买的享受Rokid达成的合作价格及方案。

第三是智能家居接入方面,经过三年兼容协议和方案打磨,让包含小米米家、阿里IoT、Life smart、博联、飞利浦等品牌在内的智能家居接入不是问题,这也意味着开发者可以实现更多技能。

当然,以上能力开放,也意味着Rokid在“自断其臂”——拥有设计能力或硬件资源的公司,完全可以快速做出智能音箱产品或智能产品出来,分食市场蛋糕。

祝铭明对此观点明确,他说Rokid的志向并不局限在某一具体领域的产品上,只是因为AI落地需要软硬件端对端打磨,才会在音箱品类上先试水,他们同样也不会局限在语音交互方向,“Rokid是一家AI公司,我们要做的比现在展现的大得多。”

这位Rokid创始人还透露,明年CES上,一款视觉类产品就会亮相,现在已经进入最后的打磨迭代阶段。祝铭明相信,这会是“Rokid改变世界”的一次绝佳证明。

抱大腿?

实际上,关于Rokid的大梦想,量子位不是第一次听说,甚至还有一些小八卦。

比如3年前Rokid成立伊始,就有过一段关于投资的故事。

当时Rokid两个合伙人,履历光鲜,财务自由,正是为梦想而战的类型。CEO祝铭明,前阿里M工作室领头人,江湖人称Misa,博士学成于加州伯克利,创业猛犸科技后被蔡崇信购入阿里旗下,他也因缘际会实现财务自由。

CFO王舜德,先在阿里负责财务,后又去了金山,担任CFO,“花名”Eric,同样财务自由,然后和祝铭明一起土豪创业。

于是很自然,投资先投资人。

一家总部位于北京的知名VC机构的管理合伙人,为此专门跑了两次杭州,但是最后思虑再三……没有投。

3年后,中国智能音箱市场“百箱争鸣”。量子位听到的回答是:Rokid的梦想太大,要做的事情太大,这可能不是一件创业公司能Hold住的事情——除非抱大腿。

但此次联手阿里云推出开放平台,算不上“抱大腿”。

量子位得到的消息是,之所以跟阿里云联手,一是熟悉,双方从第一天就展开了端-云协同的合作,第二则是阿里云也希望借此输出云计算方面的能力,培育生态。

不过阿里云既然与Rokid共同推出开放平台,也可以侧面窥见阿里内部对“天猫精灵”的思路,短期内不会走技术开源的道路,而会是阿里更擅长的“赋能”,比如同样在云栖大会现场,阿里AI实验室负责人浅雪最核心谈论的还是AliGenie开放平台接入的商户,以及新进入的行业。

一位接近阿里的人士则告诉量子位,如果内部对“天猫精灵”有KPI,那也是量上的考核,这个项目的好与坏,最核心的标准是出货量。

而对于Rokid来说,一家以2C产品示人的公司,之所以此时选择开放,除了认为自己技术方案成熟,很重要的原因还有内部对AI时代下产品的理解。

在云栖现场,祝铭明说:AI时代的产品,无法像移动互联网一样通过手机这样的单一产品形态去赢得整个战场,所以既要专注,把产品软硬件、端对端的用户体验打磨到最好;又要开放,让有想法的开发者,可以用过你打磨好的技术,去创造出更多品类的智能产品。

当然,隐而未宣的是技术基础平台的野心,一旦占有最大的开发市场份额,未来将是语音交互时代的安卓。

但这并不会轻而易举,道阻且长,唯有用户和时间才能给出答案。

我们不妨拭目以待。

本文作者:李根
原文发布时间: 2017-10-12
相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
机器学习/深度学习 语音技术 开发工具
阿里巴巴开源语音识别声学建模技术
本文我们介绍阿里巴巴的语音识别声学建模新技术: 前馈序列记忆神经网络(DFSMN)。目前基于DFSMN的语音识别系统已经在法庭庭审识别、智能客服、视频审核和实时字幕转写、声纹验证、物联网等多个场景成功应用。
10489 0
|
1月前
|
自然语言处理 UED 开发者
LLaMA-Omni 低延迟高质量语音交互,开源!
随着GPT-4o的发布,在语音界面的Voice-Chat越来越受到大家的关注,对于低延迟,高准确性模型的speech-to-speech的需求日益增长
|
4月前
|
达摩院 语音技术 异构计算
语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
语音识别-免费开源的语音转文本软件Whisper的本地搭建详细教程,python版本是3.805,ffmpeg是专门处理音视频的,ffmpeg的下载链接,现在要求安装python和ffmpeg
|
5月前
|
人工智能 自然语言处理 语音技术
GigaSpeech 2:三万小时东南亚多语种语音识别开源数据集发布
GigaSpeech 2 是一个持续扩展的、多领域多语言的大规模语音识别语料库,旨在促进低资源语言语音识别领域的发展和研究。
|
6月前
|
PyTorch 测试技术 TensorFlow
Modelscope-FunASR是一个开源的语音识别框架
【2月更文挑战第9天】Modelscope-FunASR是一个开源的语音识别框架
719 2
|
达摩院 自然语言处理 测试技术
开源|业界首个应用落地的非自回归端到端语音识别模型,推理效率可提升10倍
近期,阿里巴巴达摩院发布新一代语音识别模型Paraformer,这是业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升10倍,且识别准确率在多个权威数据集上名列第一。 目前,该模型于魔搭社区面向全社会开源,适用语音输入法、智能客服、车载导航、会议纪要等众多场景。
713 0
|
达摩院 自然语言处理 测试技术
直接开源!达摩院公布下一代工业级语音识别模型
直接开源!达摩院公布下一代工业级语音识别模型
733 0
|
机器学习/深度学习 人工智能 自然语言处理
Facebook 开源首个全卷积语音识别工具包 wav2letter++
系统基于全卷积方法进行语音识别,训练语音识别端到端神经网络的速度是其他框架的 2 倍多。
646 0
|
语音技术 机器学习/深度学习
阿里开源新一代自研语音识别模型DFSMN,准确率达96.04%
近日,阿里巴巴达摩院机器智能实验室推出了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%(这一数据测试基于世界最大的免费语音识别数据库LibriSpeech)。
2578 0

热门文章

最新文章