人工智能时代,语音技术怎么赚钱?

简介:

雷锋网(公众号:雷锋网)按:本文由DeeperBlue发布于雷锋网。转载请联系授权,不得删减内容。

半个月前的锤子手机发布会让全国人民(包括我妈)知道了一家叫科大讯飞的公司,以及语音智能这件事。


我没有在现场。据说老罗向观众们介绍了锤子的主要合作伙伴科大讯飞的一款产品——讯飞输入法。老罗用很快的语速说出一大段长文字,讯飞做到了无时差翻出文字版本,并且识别结果几乎没有任何偏差,堪称完美,现场一片欢呼。


讯飞输入法支持 19 种方言输入,相比苹果的 Siri,以及微软的 Cortana,讯飞输入法显然在本土化上占尽优势。


讯飞输入法背后的公司叫科大讯飞,是目前国内最大的智能语音技术提供商。第二天,科大讯飞的股价在开盘点迎来了新高。鉴于从 2008 年科大讯飞上市开始股价表现平平,不少人表示终于熬到了可以套现的时刻。


除了讯飞,国内在近几年内崛起了一连串致力于智能语音的创新公司,典型代表有思必驰、声智科技,以及云知声。


人工智能时代来临,语音技术公司的春天又来了。围绕 AI 的创业团队如雨后春笋,智能语音技术的应用成为它们打开市场的首要选择,几乎每个月都会有数款语音交互机器人发布。除了硬件,语音服务平台也迅速被建立。键盘作为输入系统即将被停留在上个时代,人类将用语言和机器进行交互。智能家居和车载成为语音产业最集中的领地,也即将诞生出爆发市场。


然而,高新技术怎么赚钱、做什么赚钱,是一个永恒的话题。事实上,热炒的讯飞输入法、讯飞语点以及讯飞语音云,仅占讯飞的总营收 3% 左右,收入不足千万。道听途说的还有一件事,科大讯飞每年 20 多亿的收入,其中绝大多数来源于铺网线和做教育工程的集成,并非是高精尖的智能语音技术。


上个月,在深圳举办的一场小型内部智能语音研讨会上,思必驰副总裁、声智科技创始人,以及来自峰瑞资本、祥峰投资的两位关注人工智能的早期投资人进行了关于“语音技术如何赚钱”的话题讨论。恰好我在现场,觉得说得非常不错,有些段落简直堪称精彩。于是要来了录音记录和版权,分享给大家。这里也许有你想要听的实话、真话。

以上内容来自DeeperBlue季星。

人工智能时代,语音技术怎么赚钱?

(参与研讨的嘉宾)

FREES 朱祎舟:前沿科技类的东西其实是没赚到钱的

2012 年智能手机出现后,短短几年内,国内就涌现了一大批语音相关的公司,像云知声、思必驰、科大讯飞,发展都非常迅速,很快进入了公众的视野。这也得益于手机这个智能终端的发展,使得语音成为手机上的一个重要应用。

而在 2015 年,我们依然认为语音是一个非常好的投资机会。原因有以下两点:首先,虽然在过去的两到三年里,人工智能的发展使得语音技术取得了很大进步,但我们发现实际准确率仍然不够高——虽然大家根据实验数据进行宣传,说准确率达到了 95% 以上或者更高,但实际情况是,在实际使用时并没有那么高。

抛开算法和技术方面不谈,前端的很多问题我们还没有解决。我打个最简单的比方:过去我们讨论的语音识别技术,有点像人类的大脑——在听到声音之后,我们如何进行翻译,或是怎样把它变成大脑可以理解的信息。但实际上,关于耳朵的问题我们还没有解决——如何排除噪声干扰?如何在多人讲话的时候会听清想听的内容?如何在距离较远时分别声音的方位?前端的语音/声学交互的很多问题如果得不到解决,整体的体验始终不够好。

第二点,从数据上看,苹果上语音搜索的使用率其实并没有那么高,原因在于,手机虽然不是键盘的,但触屏的体验还是很好的。发展的前景在于智能硬件:在手机之后,大量智能终端的爆发,包括家居、车载、可穿戴设备、机器人等,这些智能终端上的键盘——或者说手指就变得更加不重要以及不友好,而语音则变得更加友好和重要。

人工智能时代,语音技术怎么赚钱?

思必驰语音智能后视镜,驾驶员在跟机器交流的时候,可以随时打断机器的说话,让他去执行其他任务,让机器做你临时想做的事情。可以解放双手,让驾驶更安全。

基于以上两点,我们认为,语音技术还会有更多发展和进步。

关于语音技术,大家其实一直都面临一个问题,就是怎么赚钱?科大讯飞 20 多亿的收入,其中绝大多数是铺网线和做项目工程,前沿科技类的东西其实是没有赚到钱的。

在线上,我们本来可以提供 API 赚钱,但后来百度免费了,那其他人也只能免费了。做 APP 去对接服务,大家会觉得手机上的用户习惯、行为习惯还没建立起来。所以我想问就这个很实际的问题听听大家怎么看。

思必驰副总裁雷雄国:我们现在在考虑怎样把钱烧掉

这个问题很好,也很难回答。对思必驰来说,我们现在是在考虑怎样把钱烧掉,并没有考虑怎么赚钱这件事,这件事情确实是比较难。

现在其实大家能够看到,从 PC 和互联网到移动互联网、再到其他,语音很可能是一个方向。语音作为一个便捷的交互方式之一,随着智能硬件设备的迭代更新,它有可能会成为替代触屏的交互模式。这也是为什么资本和技术都聚焦在这一块,使得人工智能的一个小春天在寒冬中诞生。

赚钱这件事情,目前我们确实看不清。

但是围绕着这个方向,我们可以看到一些大方向:一个是核心技术以及产品体验的提升,这是必须要做的。第二个则是,我相信大部分公司,在未来肯定会有一笔相对不多也不少的技术授权费之类,虽然这部分不足以满足资本需求。

然而我仍旧相信,未来无论是 2C 也好、2B 也好,在这个环节上大家都在探索。这条路径是曲折的,但方向一定是正确的。

祥峰投资朱嘉:赚钱最主要的是找到需求

我先简单介绍一下祥峰投资,我们是新加坡淡马锡旗下的 VC,主要关注消费和技术领域的中早期投资,在人工智能方向投资了地平线、Maxent 等。下面我从投资方的角度简单谈一些看法。

要看怎么赚钱,最主要的是找到需求在哪。在看了这么多创业项目后,我们会思考在中国的消费生态下,那些赚钱的公司是怎么来的?其实核心是抓住用户的真正的需求点,从需求点出发,考虑怎么样去做产品,然后追溯到你的上游,再到顶层甚至是芯片,找到哪里有机会。

首先,在手机端,语音作为输入方式是有需求的,但刚才大家都说,现在如今只是在手机上做一个语音识别的技术,提供一个输入的方式,希望通过输入法建立 APP 来收费,显然这在今天已经是不太可能的事情了——现在,没有一个类似百度输入法这样键盘输入的 APP 还是收费的。

即便语音是不一样的输入方式,但想要收费还是很困难的,特别是当大佬们都已经在做的时候了。这个时候,就要找到一个需求场景,并且上面没有其他方案可以和你竞争——一个语音可以扮演重要角色的场景。

比如智能家居中的音箱,就是一个很好的例子:你不可能在音箱上去触摸,也很难用其他键盘去输入。因此,如果你找到一个和音箱产生交互的方式,那么显而易见你就是最好的,因为没有其他强有力的替代者。

再说汽车。其实汽车里面,多年来大家使用的旋钮、按键,本身是一个非常好的人机交互方式——它未必比语音输入的效率低,反而效果很好,因为你可以做到盲操作。设想一下,在车里面我要换电台的时候,我不用看中控,就可以摸到旋钮去操作,或者在方向牌上有一个旋转的轮子,可以让我调整音量之类,这已经是最好的人机交互方式了,而通过语音增大音量或是切换频率,则未必能更加直接和准确。

但是,在车中还有很多旋钮无法解决的其他需求。比如。后排的一客需要和车发生交互——现在很多车都有后排独立的空调系统,当乘客觉得后排的温度太低了,希望空调调高一点的时候,现在的情况是只能让驾驶者把后排的空调调一调,或者后排有自己调整的方式,但它未必是自动的方式。

如果能够做到,通过一个很好的语音识别的阵列工具,很好的分辨出不同乘客的方位,到底是在主驾、副驾,还是后排的左边或右边,根据他们发出的语音指令满足不同人的需求,就能产生一种新的交互方式。除了空调,还有的需求比如切换一个电台、换一首歌,等等。

那么从产业链上游来看,这么多年,芯片一直都是一个可以赚钱的事情。在语音识别这一块,做语音的处理芯片,比如 iPhone 使用的 Cirrus Logic,在语音处理这一块的算法做得非常好,它解决了语音降噪、方位识别上的关键问题。有了芯片作为载体,就可以基于传统芯片的商业模式去挣钱。

人工智能时代,语音技术怎么赚钱?

Cirrus Logic 推出的 CS44130 可以为整个音频信号链提供芯片,包括模拟或、数字输入和扬声器喇叭输出之间的各个部分。它精小的设计可以大大简化产品的设计。

往下走,在芯片的下游,模块也有赚钱的机会,就像今天声智科技在做的事情一样。如今的产业链分工是非常细的,很难再有像过去的飞利浦、西门子这样的大公司,核心的部件、全器件的研发,一直到最终的产品都是由一家公司来做。在分工很细的情况下,芯片公司不可能再去做一个产品,也很难再去做一个模块,中间其实需要的是一个做阵列的公司:把产品以一个模块的形式提供,同时不仅仅做一个 PCB 板把芯片放上去,而是把算法结合在里面,体现出附加值。

最后,生产用户真正使用的一些产品也有赚钱的机会。比如类似于 Echo 这样的终端产品,京东和讯飞也在做,之前也有一些创业公司在做。不过,真正有机会的创业公司是能够去开拓一个新的市场领域的。就音箱来说,这是一个长期存在的行业和产品,那么,可不可以创造出一个新的产品形态?在这方面,创业公司往往拥有更大的机会,比如大疆在无人机领域能做到今天的体量,是因为它完全开创了一个新的产品品类。

人工智能时代,语音技术怎么赚钱?

图为 Echo Dot, 它的场景就不是用来听歌的,而是一个语音助理。

比如说机器人,虽然现在大家还没有普遍使用机器人,但是它一定是一个趋势性、未来性的东西。在家庭场景中,使用最为广泛的其实是扫地机器人。很多人买了一段时间就未必再用扫地机器人了,其中有各种各样的原因,可能扫得不够干净,也有它不够智能的原因——它是在完全没有规划路径地在乱扫。如果现在我们能够加入更多智能的东西,包括语音的交互,它就有可能成一个真正的智能机器人。你可以呼唤它:“扫地机器人,到我这里来,把这个房间打扫一下。”  而不是拿一个摇控器操作,或者走过去把它提过来。你的声音传递给他,他就知道你的方位,就会自动朝你的方向走,这也是一个可以提升用户体验的方向。

声智科技陈孝良:不赚钱是因为一开始没搭建好商业模式

为什么会说语音技术赚不到钱?其实是一开始没搭建好商业模式。刚开始提供云识别,是 to VC 的模式,强调的是公司的品牌影响力。那一旦开了免费的口子,之后就无法再收费了。

我们现在希望能先把 “蛋糕做大了”,之后怎么分蛋糕大家再商量。但现在整个市场还没有起来,所有做语音技术的都在烧钱。

声智科技的起步有点特殊:它一开始就做硬件,大家看到很多的展示的产品,有我们授权的,也有我们自己的,都可以让我们从硬件中直接得到收入,相对来说,我们最初的商业模式是非常简单的。

人工智能时代,语音技术怎么赚钱?

图为声智科技的主要产品方向

但就像刚才我说过的一样,这个是有问题的。光看硬件,是不足以吸引公司对我们的定义产生理解的,我们很难再做一个大规模的公司,这个时候,我们对硬件加软件后端的理解就和讯飞产生了一些差异,我们并不把语音交互只看作一个输入法,也就是说,我们把它定义为类似于其他的操作方式的升级。我们把它看作搜索的升级,也就是让语音交互可能成为下一代的搜索。而我们现在做的是现代搜索的一个入口,有点像以前的浏览器和后面的百度、谷歌之类。可能我说得比较大一点,就是将我们原先的交互方式升级。

我们回想一下,在 PC 端时代,我们用得比较多的是谷歌和百度。那个时候,我们要打开浏览器、输入内容,再去查找网页,但是到了移动互联时代,用手机时我们会发现,在手机上,我们很少去打开一个浏览器,打开百度、谷歌,再去搜索内容,至少频次明显比原先在 PC 上的频率小很多。现在,我们已经更习惯打开 APP ——实际上,通过 APP 的形式,搜索已经被折叠化了。

我们现在知道,谷歌和亚马逊对智能音箱很感兴趣。提到智能音箱,我们又会发现,当我们面对没有屏幕的音响是,你就不会去输入或者打开 APP 了——也就是把搜索进一步折叠了,折叠的结果是,你去直接问它,这个效率明显比前两个的效率更高。实际上,这些都是由人性决定的——人的本性就是,喜欢向着简单、高效去发展。

这个时候我们会发现,语音会改变未来搜索的状态:现在的小朋友如果适应了智能音响的交互方式,很多时候他就会直接提问,而不是打开 APP,或者像 PC 时代一样,输入很多需要查找的信息。

人工智能时代,语音技术怎么赚钱?

电影《 Her 》的海报,电影中的主角爱上了他的智能设备——一个来自语音识别系统中的声音。电影预言:在未来,人们都离不开基于语音识别技术的智能系统。

我们现在有一些微薄的收入,但是以后我们在里面怎样能够产生更好的方式,对我们来说,就是硬件+芯片,这在以后会产生更好的营收。移动端有很多 AP、很多的巨头,但是这到底能产生一种什么样的新的商业模式,可能还都是在探讨和摸索中。

现在很多巨头,不用考虑营收,所以它们会尽量去做。对我们来说,只能先有硬件,然后下一步加轻量的方式,维持公司正常的商业运转,然后下一步,看看会不会像我们预想的一样,语音能够下一代的搜索入口、甚至发生入口大战,然后形成新的商业模式,能够改变我们很多的行为习惯。这就需要各方面去探讨和摸索,甚至还会掉进很多坑。

我相信第一波会有很多家公司做进去,因为大家经常说,第二波公司会做得很好,每个时代的发展都经常出现这样的情况。关于定位,我们也不敢说什么,只是先给大家提供完整的解决方案,不管是机器人、智能音响、车载,我们都更希望,大家共同开拓这个市场。同时,我们本身也是非常开放合作的。

注:本文来自微信公号深蓝deeperbule(ID:depperbluetech),转载可联系深小蓝(ID:miniDeeperBule)。


本文作者:Deeperblue


本文转自雷锋网禁止二次转载,原文链接

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
77 10
|
6天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
10天前
|
人工智能 安全 算法
深度剖析 打造大模型时代的可信AI:技术创新与安全治理并重
2024年12月11日,由中国计算机学会计算机视觉专委会主办的“打造大模型时代的可信AI”论坛在上海举行。论坛汇聚了来自多家知名学术机构和企业的顶尖专家,围绕AI的技术风险与治理挑战,探讨如何在大模型时代确保AI的安全性和可信度,推动技术创新与安全治理并行。论坛重点关注计算机视觉领域的最新进展,提出了多项技术手段和治理框架,为AI的健康发展提供了有力支持。
49 8
深度剖析 打造大模型时代的可信AI:技术创新与安全治理并重
|
10天前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
17天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
12月05日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·电子科技大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
|
21天前
|
机器学习/深度学习 存储 人工智能
【AI系统】离线图优化技术
本文回顾了计算图优化的各个方面,包括基础优化、扩展优化和布局与内存优化,旨在提高计算效率。基础优化涵盖常量折叠、冗余节点消除、算子融合、算子替换和算子前移等技术。这些技术通过减少不必要的计算和内存访问,提高模型的执行效率。文章还探讨了AI框架和推理引擎在图优化中的应用差异,为深度学习模型的优化提供了全面的指导。
40 5
【AI系统】离线图优化技术
|
9天前
|
机器学习/深度学习 传感器 人工智能
AI视频监控系统在养老院中的技术实现
AI视频监控系统在养老院的应用,结合了计算机视觉、深度学习和传感器融合技术,实现了对老人体征、摔倒和异常行为的实时监控与分析。系统通过高清摄像头和算法模型,能够准确识别老人的动作和健康状况,并及时向护理人员发出警报,提高护理质量和安全性。
66 14
|
10天前
|
传感器 机器学习/深度学习 人工智能
AI视频监控卫士技术介绍:智能化河道管理解决方案
AI视频监控卫士系统,通过高清摄像头、智能传感器和深度学习技术,实现河道、水库、城市水务及生态保护区的全天候、全覆盖智能监控。系统能够自动识别非法行为、水质变化和异常情况,并实时生成警报,提升管理效率和精准度。
61 13
|
2天前
|
机器学习/深度学习 传感器 人工智能
开源AI视频监控系统在监狱安全中的应用——实时情绪与行为分析、暴力预警技术详解
针对监狱环境中囚犯情绪波动和复杂人际互动带来的监控挑战,传统CCTV系统难以有效预警暴力事件。AI视频监控系统基于深度学习与计算机视觉技术,实现对行为、情绪的实时分析,尤其在低光环境下表现优异。该系统通过多设备协同、数据同步及自适应训练,确保高精度识别(95%以上)、快速响应(<5秒),并具备24小时不间断运行能力,极大提升了监狱安全管理的效率与准确性。
|
2天前
|
人工智能 分布式计算 供应链
高效提取图片信息:AI技术赋能企业数字化转型
本文介绍了如何通过AI技术高效提取图片中的结构化信息,提升企业运营效率。具体应用场景包括票据与合同管理、电商商品信息管理、保险理赔和物流单据处理等。AI技术能将传统人工录入流程缩短至秒级,准确率高达99%,减少人为错误,提升客户满意度。方案优势在于易于扩展、灵活高性价比的调用模式及便捷安全的云产品接入。文中还详细描述了部署应用、访问示例应用及使用官方示例进行信息提取的操作步骤,并提供了参考链接和源码下载途径。