【新智元100】云知声锁定IoT赛道,AI独角兽如何应对资本寒冬-阿里云开发者社区

开发者社区> 新智元> 正文

【新智元100】云知声锁定IoT赛道,AI独角兽如何应对资本寒冬

简介:

新智元100创业调研第一期走进云知声,与CEO黄伟面对面访谈,探究三大问题:如何在谷歌等开源趋势下,开发差异化产品;如何押注物联网AI,突破车载、家居、医疗领域应用;AI创业公司如何避免泡沫,应对资本寒冬。AI创业典型公司,一手数据首度曝光。


“新智元100”是新智元旗下专注AI创业与投融资研究的子品牌。“新智元100”正在寻找中国最具竞争力AI初创企业。欢迎企业报名参与调研评选。

 

新智元100创业调研第一期,走进云知声。

 

提到云知声,业内人士通常会同时想起国内的科大讯飞、思必驰和捷通华声以及国外的Nuance。云知声以语音技术起家,4年团队发展过200人。根据公开报道显示,云知声2014年底完成B轮融资,估值2亿美金。然而CEO黄伟坦言,在语音技术路线选择上各家公司差异不大。要在国内相对恶劣的竞争环境和资本寒冬中生存下去,云知声正全力押注IoT赛道,在车载后装、家居、医疗等应用场景优化产品细节,提高激活量和使用频次,争取更多客户订单,努力提高营收。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy


【技术与研发】谷歌等开源平台铸剑,云知声扎实落地苦练剑法


  • 语音识别领域LSTM-CTC技术效果最好,效率提升40%。

  • 百度、讯飞、云知声等各家企业技术路径相似,差异在于针对不同场景优化不同细节。

 

新智元】和国际巨头以及科大讯飞相比,云知声的语音技术什么不同?


【黄伟】坦率来讲,业内一线的公司包括Google、百度、科大讯飞等使用的技术都差不多。因为现在学术、技术层面的沟通是相对非常充分的。比如,语音识别领域,效果最好的就是LSTM-CTC。以前用的统计模型,以帧来做优化单位,会纠缠到局部细节里,但LSTM-CTC以整句优化为目标,忽略一些中间细节,不纠缠于对帧的处理,解码效率会提高很多。工业界看来,采用这种技术之后,语音识别的效率会比以前提升40%以上。云知声最近也刚刚做了引擎的升级,跟以前相比,语音识别平均的错误率下降了20%到40%,这些都是新技术带来的帮助。无论百度、讯飞,还是我们,都可以 follow 最前沿的技术,在技术路线方面不会有太大偏差。但不同在于,基于每家公司对算法的理解程度不一样,加上面向的应用场景不同,针对不同场景的优化细节会不太一样。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy
(云知声核心技术架构)


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
(云知声技术实力)


【新智元云知声会不会采用例如Google开源的资源?


【黄伟】云知声有些东西确实使用开源的资源,没必要全部模块自己写。像Google、Facebook等,他们在铸一把剑,我们来练剑法。但Google、Facebook开源的基本上是离线部分,我们拿来做模型训练,它实际上是一个是开发工具,并不是一个商业产品。真正要上线的产品一定是靠自己写的。


【新智元】作为一家AI技术公司,云知声的技术储备如何?


【黄伟】硬件基础设施上,我们在国内北京,上海、广州和成都4个城市布有机房,今年新添置的 GPU 花费大概在200多万,累计下来硬件研发上的花费有1、2千万,不包括第三方服务。另外,我们也在逐步地使用一些第三方的服务,比如说阿里云,他们也逐渐开放了GPU的云服务资源。


人才方面,公司工程师占比78%,核心团队博士占比超过45%。云知声最开始的创始人都跟我背景相近,CTO 梁家恩是我以前盛大的同事,也是科大的师弟,另外几个创始人,比如康恒以前也是一起共事过,基本都是从学术界到工业界一直在做这块的。后面,我们也在不断引入多元化人才加入,有很多海归,不是说海归一定比我们强,而是在这个领域里,需要中国跟美国的技术人才在一起,在国内产业格局理解和国际前沿跟踪方面有个良好的呼应。


【新智元】云知声每年在研发上的经费有多少,占多大比例?


【黄伟】我们每年成本差不多几千万,研发投入占到总支出的70%。


【产品与业务】All In物联网AI,投注车载、家居、医疗三大领域


  • IoT领域AI技术服务云知声All-In,手机端非其业务重点。车载后装、家居、医疗三领域为云知声产品主要应用场景,目前几乎无利润。

  • 产品服务激活量及其使用频次是重点评价指标之一,生产合同签订和实际落地出货量是关键指标之二。


【新智元】云知声的业务领域侧重哪方面?


【黄伟】我们的定位是专注物联网领域的人工智能服务,所以主要在IoT领域做优化,IoT领域的重点又集中在家居和车载两方面,以及在这两方面发展要整合的服务。比如,开车的时候,除了要对POI(point of interest)进行识别,用户可能还有一些如歌曲娱乐、餐饮、加油站等周边生活服务的需求,我们就要针对这些专门做优化;此外,IoT 领域,很多场景跟硬件有关,我们不能只做云端识别,还要做一些本地的、甚至低功耗的,这也是我们优化的目标。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy(云知声 IoT 生态图谱)


【新智元】为什么会定位在IoT 领域?与讯飞这样的巨头相比有什么差异?


【黄伟】云知声从2012年9月开始做语音云平台,发现了一些很有意义的数据:有一些用户量很大的 APP,其实语音使用的频次并不多;反倒是一些硬件设备厂商,数量上虽然没有软件多,但语音的使用频次很高。比如,今天乐视超级电视每天的语音激活几乎是100%,每个用户每天的语音使用频次在几十次以上,这是一个相对高频的数字,但我们也会看到一些号称用户过亿的 APP,每天语音使用其实只有1%-2%。所以我们判断语音并不是手机应用的刚需,再加上公司资源有限,所以从成立至今云知声一直没有在手机领域投入太多资源,而是专注在 IoT 领域。


我觉得我们和讯飞最大的差异就在于定位不一样。讯飞毋庸置疑是伟大的企业,是我师兄创立的公司,我对他非常尊敬。讯飞的主营业务,集中在教育、运营商、金融、政府领域,所以会侧重把人力和资源投入到这些方面。另外,讯飞是一家上市公司,要关注资源投入和收益产出比。坦率来讲,今天IoT的业务几乎是赔本的,所以我们跟讯飞技术都很优秀,但是为了让客户买单的话,技术优化目标不一样,提供的service不一样的,对客户的服务水平也不一样。整体而言就是资源投入上讯飞可能不会作为重点,但对云知声来说IoT是ALL IN来做的事情,今天它的规模并不大,但我们更相信未来。不过,今年我们渐渐看到讯飞对这块已经开始重视了。


【新智元】云知声目前在IoT 领域的业务做得怎么样?


【黄伟】IoT 领域来讲,云知声应该是国内最早落地的公司。去年IoT所有的语音收入几乎是被我们拿的,差不多有几千万,今年可能会有几个亿,但总体来讲市场规模并不大。我们是 TO B 的公司,站在客户的身后,这方面对外界讲得一直比较少,但比如说在汽车后装车载市场,云知声的车载语音交互方案已经有近百家合作客户,市场占有率第一,大概在60%至70%。


【新智元】为什么选择后装车载市场,又是如何挖掘这块市场的?


【黄伟】我科大毕业后在摩托罗拉工作,后来加入盛大,在加入盛大之前还有大半年在 Nuance工作,就是负责车载,对车载的市场了解比较多。车载前装市场,测试周期很长,流程非常严格,一般需要3-5年,流程都走完后发现一款车的销量其实很少。就像今天我们花100多万去买一辆好车,但发现电子设备都很落后,因为那是几年前定装的。对一个初创企业来说,做前装性价比不高。


作为创业公司,我们选择周期比较短的后装市场,这方面云知声抓住了一个时间点。车联网的概念叫了很久,但以前安卓占的份额一直不大,直到14年底到15年初,安卓车机开始上量,像行车记录仪、导航仪、后视镜、都开始用安卓。我们从14年底开始有面向汽车市场的团队,15年年中开始切入这个市场。后装车载市场标准相对较低,成本低,出货周期短,出货量也很大。比如我们在4S店买车,带不带导航仪可能差2万块钱,但买一个很高端的后装导航仪,可能也就3、4千块钱。


我们直接跟后装设备厂商合作,例如我们有一家合作代理商全志,提供整机方案的,我们为合作伙伴提供从麦克风降噪到本地云端混合识别及云端内容和服务的综合性软硬件一体的语音方案,它会把云知声的技术放进这些设备。去年不到半年时间,我们的后装车载语音交互设备的激活量就达到了百万台,这百万台要换算到前端市场,至少要做十几个大品牌才行。


【新智元】车载后装成本这么低,你们会有利润吗?


【黄伟】价格低,确实没什么利润。但从我们的业务模式上来看,车载用户是高频使用的刚需用户,这里面的数据信息量非常大。比如用户的出行、行车习惯、用户的个人属性,我们更看重数据背后的价值。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy(云知声-车载业务)


【新智元】既然如此看重数据,那么云知声的语音云服务平台的发展如何?


【黄伟】我们有自建的云服务平台,现在每天大概有1.5亿到2亿次的数据调用,现在和我们合作的公司大概有2万家,有大有小,大的像华为乐视,小的就是一些创业公司,目前云知声是公有云平台数据最大的创业公司。


数据体现出的价值,一方面是技术价值,今天我们的算法可能还没有很好的把数据利用起来,但CTC是一个很好的开始,已经减少人工干预数据的依赖性。随着技术进一步的成熟,我们的数据可以滚动起来;另一方面,用户使用频率提高,可以带动AI的进化,这就是我们从12年9月份就开始搭建免费的语音云平台的原因。


【新智元】在智能家居领域,云知声的业务开展得怎么样?


【黄伟】智能家居方面,我们从2012年底开始和乐视合作,三代超级电视累计出货量差不多有几百万台;去年我们和华帝合作一款高档油烟机,去年10月份已经开卖。此外,云知声和美的、格力、海信等都有合作,从这个月开始,还会有一批重量级客户与云知声合作的产品大批量上市,但暂时还不方便透露。


以我对家电行业的理解,我认为这个是有壁垒的,比方说大厂商跟技术服务商签合同,要看具体签的什么合同,如果只是签了合作合同,让你过来评估测试,可能半年、一年之后并不会用,只有签一个正式的生产合同,才算真正落地,这一般需要两年周期,目前云知声是白色家电领域唯一落地出货的语音芯片供应商。


【新智元】谈到智能家居厂商应用云知声的 AI 芯片,具体的技术和模式是怎样的?


【黄伟】在2012-2013的一年半时间里,我们走通了一条路,就是数据驱动的技术提升的一个过程,那时我们就在想,应该再往芯片走,2014年,提出了“云端芯”的战略。云知声并不是只做云,以云技术作为切入点,其实我们的语音识别其实包含了在线识别,本地识别,甚至芯片级的识别。向后有语义理解、语音合成、知识图谱、认知计算,再往前包括低功耗的降噪、回响、打断、唤醒等功能,在这些方面都做到了以深度学习为整体框架,例如在唤醒模块中,作为一个非常低的模块,我们都会用到深度学习。


云知声和高通、君正、全志等芯片企业全面深度合作,在物联网领域推出智能语音芯片,以授权(license)的模式向客户收费。像今天,我们给乐视、华帝提供的产品,还有即将大批量上线的产品,并不是一个独立的芯片,而是芯片模组,但是这个意义非常大。我们知道做芯片,一定要经历几个阶段,模组、FPGA到芯片。而FPGA是一个完成验证阶段,要把你的性能在上面验证通过。实际上云知声从2014年下半年开始规划产品形态,之后我们拿着这个概念、样片去跟客户打磨,花了一年多时间。第一,让客户接受这种未来的交互形态;第二,产品的性能达到客户的满意;当然还有重要的一点,量产前一定要做到成本满意。


今天在自有芯片这一块,我们已经完成了验证阶段,芯片模组已经在各个设备上用起来了。其实芯片设计也没有大家想的那么复杂,在IoT时代,芯片的运算能力够用即可,因为更多的智能是在云端。IoT时代的芯片,更像一个传感器芯片,有足够用的运算能力,再加上交互能力,已经有足够用的AI在里面。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy(云知声-智能家居业务)


【新智元】除了车载和家居,在其他领域还有业务布局吗?


【黄伟】云知声的定位是IoT的人工智能服务商,但我们还有一块做智慧医疗。云知声是国内唯一在医院信息系统中成功使用语音识别技术的方案提供商,在协和医院已经上线,使用语音识别技术录入电子病历,今年会全面推广。


我在以前在Nuance工作,Nuance有一半以上的营收是来自医疗,在北美每年Health Care 方面的收入有十多亿美金。这个方案这类似于讯飞的“听见”,只不过我们做的是专门针对医疗系统的,将看病的过程中所有的问询都是实时生成文字。协和医院给我们反馈一个评估报告,识别准确率达到95%以上、医生的平均效率提升38%左右,很大的节省了医生整理病历的时间。目前已经上线的医院有6家,即将上线的有70家,这些数据比如病理的问询、诊断处方都会回传到我们的云平台,现在是一个医疗感知的过程,为未来形成认知提供了基础。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy(云知声-智慧医疗业务)


【财务与融资】具备AI独角兽潜力,营收将达9位数


  • 云知声2015年营收几千万。2016年无盈利计划。

  • 预计2016年营收大幅增长,2017年营收上亿。

 

【新智元】云知声目前的营收情况如何?


【黄伟】去年营收有几千万,今年可能会大幅度增长。


【新智元】融资情况怎么样?今年会继续融资吗?公司估值有多少?


【黄伟】今年并没有特别急迫地去做融资,一方面账面上还有很多钱,再加上自己本身有营收,而且团队规模也还不太大。


【新智元】明年预计营收多少?会有盈利吗?


【黄伟】明年营收应该会达到9位数。今年不打算盈利,主要目标是完成从0到1。

今年云知声成立4周年,前两年,我们把技术演进的路走通了,2014年底、2015年开始商业化,选择好定位在IoT,有什么产品形态,用什么方式去和用户合作,跟客户大量沟通,最后得到客户认可,愿意为此买单,这就是我们的从0到1。


【行业趋势与战略】黄伟谈AI泡沫,AI创业公司如何度过资本寒冬?


  • 人工智能热潮遇到资本寒冬期,对于to B的技术创新企业,最终的竞争力评价指标是能否通过差异化产品定位及客户订单落地,带来营收和增长。

  • 目前最成熟的AI技术是语音技术。图像领域的人脸识别和安防是常见应用但有诸多限制。长期来看,图像、语义、无人机领域的技术将有较大应用发展。

 

【新智元】云知声对于未来3-5年如何规划?


【黄伟】长远来看,技术上要持续前进,在IOT时代做数一数二的人工智能服务商。 3-5年内,我们写出了一个1,希望在后面划很多0;也希望我们在新的领域写出新的1。人工智能是一项底层技术,它的应用点很多,我们能做家居、车载、医疗未来也能够拓展新的领域,也可能会投资和孵化一些团队来做。


【新智元】近年来,大企业研究院主管和高校教授创业成为一种风潮,您作为AI 领域比较早期的代表,如何看待这种现象?


【黄伟】我觉得一方面这是好事,这方面中国跟美国之间存在很大的差异,在美国的工业界和学界的流动比较频繁,但在中国还是相对封闭的。在中国,博士毕业后,你选择去高校还是去企业,基本上决定了未来的人生轨迹。今天,我们看到高校教授、大公司的高管出来创业,说明现在机会变多了,这个当然好事。但另一方面呢,可能会带来相对浮躁的东西,咱们之前在新智元的群里也交流过,我觉得人工智能热,和以前的O2O热,P2P热其实有些现象是比较像的,一窝蜂上。很多投资机构为了赶热点其实并不懂,很多投入的创业者其实也没想好竞争优势在哪里,哪怕拿到第一笔钱,又靠什么活下来?


我个人觉得,中美的创业环境不太一样,第一,在美国,你专注做好自己就可以了,大公司之间,还是有敬畏心的。中国不是这样,恨不得什么都能干,要不把你买了、要不把你灭了、要不然把人挖了,其实创业环境比较恶劣。第二,在美国是认可技术价值的,有人愿意为技术去买单,这是为什么在中国 to B 不被看好,但美国 to B 的公司活的很好,IBM就是 to B 的公司。在中国基本上全民认为技术不值钱的情况下,一个技术创新公司怎么生存下来很重要。第三,在创业竞争环境相对恶劣,自身价值不被认可的情况下怎么活下去?落地就很关键,在中国的产业环境下,怎么把技术阶段性的变成产品,借助产品去落地,最关键的是要够活下去,不能完全靠融资。


对于我个人而言,从科大博士毕业之后,一直在工业界工作,04年到当时的巨头摩托罗拉的全球四大研发中心之一,半年时间做出全球第一个语音识别工业界产品,这些工业界的经历,对于思考技术如何去落地有重要的帮助。


【新智元】您如何看待这一轮资本寒冬的影响?


【黄伟】我认为资本寒冬是相对的概念,早期项目估值不高、要的钱也不多,影响不是特别大。但要看寒冬延续多久,拿到第一笔钱的团队可能拿不到第二笔钱。最终还是取决于企业能能否把讲出来的故事落地,资本寒冬的影响不外乎融资难度大一点,估值下调一些,但能搞定的公司基本都能搞定。


【新智元】如何量化一个AI技术公司的商业化?


【黄伟】用户量、市场份额、营收能力。尤其在资本寒冬下,最重要的还是营收,有客户买单。云知声走过这条路,当然时间窗口不太一样,但1-2年内初创公司做到规模级的营收比较困难,除非团队已经有很成熟的技术、产品,从公司成立的第一天开始商业化。如果只有初步的技术储备、团队架构还不完善,要花1年左右的时间来搭班子、做产品研发,其实离商业化落地还需要挺长的时间


【新智元】如果您是投资界人士,会在人工智能各领域如何选择?


【黄伟】看重短期回报的话,肯定投语音,相对而言最成熟的技术还是在语音方面。其他的,比如图像领域,主要在做人脸,跟安防相关,这就会遇到一个尴尬的地方,被业务控制,还是要拓展一些其他应用识别领域,但其他领域技术确实还不是太成熟。但从长期回报考虑,比如5年时间,包括图像、语义、无人机等我都会投。


文章转自新智元公众号,原文链接

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

官方博客
官网链接