对话蓦然认知 CEO 戴帅湘:我坚定地不看好智能音箱 | CCF-GAIR 2017

简介:

雷锋网注:7 月 8 日,中国计算机学会(CCF)主办、雷锋网(公众号:雷锋网)与香港中文大学(深圳)承办的 CCF-GAIR 2017 大会,蓦然认知 CEO 戴帅湘在智能助手专场做了《对话即应用》的演讲,阐述了语音交互在生活场景中的具体应用,以及机器对话中需要解决的有关语义理解的诸多问题。

会后,在专访中,戴帅湘又与雷锋网进一步分享了其对于语义理解、场景服务的理解。眼下语义理解的核心是什么?难题在哪儿?如何克服?百度、阿里等巨头的进入将对创业公司造成什么影响......关于这些问题,戴帅湘一一作了解答。

对话蓦然认知 CEO 戴帅湘:我坚定地不看好智能音箱 | CCF-GAIR 2017

以下为戴帅湘采访实录,雷锋网做了不改变原意的修改:

问:蓦然认知的连续对话能到什么程度?似乎在一些场景中,连续对话总是不能满足需要?

戴帅湘:连续对话其实不是句子,是意图,你可能说五句话还是同一个意图。刚才我说的多轮对话实际是融合了多种场景,比如你说“我要去看电影”,但是在这之前,你可能需要了解,现在上映的有什么电影,是谁演的,这个导演最近有没有绯闻......它是扩展的,不只停留在看电影上面。

你要覆盖尽可能多的、用户可能发散的意图,因为人不是机器,不会按照固定的套路去问。人的思路是一个由单点往外扩散的过程,所以要尽可能地多理解他的意图,尽可能多做长尾的意图理解。解决这种发散性问题,把它囊括在对话系统里面很重要,所以,不是只要多轮次,要将多场景结合在一起。

问:要实现对长尾意图的理解,有什么难题?

戴帅湘:难题肯定会有,但是还是可以做到的。比如说语义理解,你是不是可以快速进行场景移植,是不是可以在新的场景里把已有的、已学的东西进行迁移学习。

要做到这些,现在有一些基本的方案,但不管用哪种,你都会考虑,有没有优化的。难点就在于,你能想到什么样的途径。

 问:刚才在台上你说“坚定地不看好智能音箱”,但好像蓦然现在也正在跟声智科技合作智能音箱的项目?

戴帅湘:声智做的是声音入口,它不一定要放到音箱里面,也可以是汽车、电视、穿戴式设备。音箱现在很火,推一个音箱芯片,可以多一份市场,并没有坏处。 

但音箱不太可能成为量很大的产品,它烧不了量,规模化就很难,所以不太可能成为像电视那么主流的设备。 

问:可亚马逊的出货量已经超过 1000 万台了。

戴帅湘:这是累计吧。美国的生活里,每家每户都有音箱,它是有基础的。这是很重要的原因。一样东西要成为爆款,必须要有延续性,比如手机,用户有需求,手机本身就是很大的市场。 

存量市场必须得有,没有存量市场或者存量市场很小的话,推一个全新的品类,其实意义不大。除非你有说服用户的巨大能力,非常强大的营销能力,去让用户接受一个本来不大需要的东西,这个其实是有难度的。

问:为什么选择家居和车载这两个场景?

戴帅湘:因为它们本身就已经实现了商业化,市场前景非常广阔。电视在中国人的家里占据中心位置,做电视不是为了电视,而是为了占住家庭中心。只是电视比音箱难,它涉及的内容太多。

汽车产业已经有 100 年了,它需要融入更多新技术和互联网思维,比如自动驾驶、人机交互。这是一个非常有前景的场景,而且非常适合交互。

问:一些生态厂商,像小米、乐视可能已经占据了家庭设备的中心?

戴帅湘:其实在中国,真正占据家庭中心的是传统设备厂商,电视发货量最大的还是传统那几家。

而且电视没有那么大的增量,你还得改造它,比如说,已有的电视可以通过接入盒子或者其它东西改变。现在在国内,还没有可以垄断硬件的生态厂家,硬件永远是不可能垄断的,它一定是五花八门,百花齐放的。

问:像蓦然这样做云交互的公司,眼下最大的难点在哪里?

戴帅湘:最大的难点在于,现在面对的设备都是传统设备,要传统设备商接受一个新方案,改变既有的交互方式,这本质上需要传统行业的从业者有一定的新观念。比如传统企业和我们这种新兴的 AI 技术行业,如何很好地对接?

都说互联网+,大家的观念是一致的,可是很难加在一起。

问:现在我们的技术在产品化上还有其它新的进展吗?

戴帅湘:我们其实有成套的框架,可以快速变成电视系统,音箱系统或者车载系统。从这方面看,我们有非常快的产品构建能力。下半年我们会做一次发布会,发布各种产品,包括耳机的、音箱的、电视的、车载的、机顶盒的等等。它们的样式都不一样,软件也有差异,但是对我们来说都是一套系统。

问:同样是做语音交互,阿里前几天推出了天猫精灵,百度也在一直强调 DuerOS 的战略地位,巨头的动作会对我们这样的公司决策有什么影响?

戴帅湘:我一直觉得这是一件好事。因为对话式语音交互其实是一个完整的链条,这个链条包含了很多方面,大家要做很多重复工作,比如降噪、云识别,这些劳动其实是不必要的。巨头开放可以很快把这块搞定,让创业公司告别重复劳动。

其实这个环境里最核心的部分是三个:语义理解,对话系统,学习系统。这部分没有任何限制,也没有任何界限,这些大公司自己都没做到这一步,它怎么开放给你?它开源的是两部分:

第一,前面的语音识别、降噪方案;

第二,后台的基本资源,比如百度的那些,其实本身就是免费的,到百度搜索上就可以获取到,它也是拿别人的。

问:大公司如果在这个领域重投入,将会对创业公司造成很大威胁?

戴帅湘:这是有可能的。一个东西刚开始出来,肯定是要跑得快,快速落地,积累数据,迭代,到后面也一定会有竞争,因为大家都认为语义理解、对话系统、学习系统是最核心的。

问:那跟大公司相比,创业公司的竞争力在哪里?

戴帅湘:很多人问过我这个问题。创业公司有一个很大的特点,就是专注,这非常重要,尤其是对于一个还没有成熟的东西,你要去攻克它,快速和应用市场、传统产业设备紧密结合起来。你的技术必须和这些设备同步打造、分析,要和这些公司团队坐在一起分析产品形态怎么设计,技术什么地方可用,什么地方不可用,不可用的情况下要怎么做。

但对于大公司来说,一些客户对它来说可能微乎其微,它的目标是做平台,我们是要创造一个东西。传统厂商并不具有那么多的认知,我们和它紧密结合起来,一步一步,先有一些它可感知的东西,再慢慢往下推。我觉得这个差异是很大的。

问:数据算是我们的一个劣势吗?

戴帅湘:其实我觉得不是。可能你不相信,但是我非常坚定地说,我们在技术上和这些所谓的大公司比,没有任何劣势。在机器数量、带宽费用上,我们会更节约,但是在技术上没有任何劣势。每个细节,每个到达技术的路径,我们都非常非常清晰。

到达每个目标的路径很多很多,我们明确地选择了一条,大公司选择的可能和我们不一样,但无非就是谁更快找到坡度更大的路线,可以快速达到目的。我觉得在这一点,创业公司会更容易,因为它直接和厂商对接,能达到目的,就快速达到目的,不追求平台有多大,多规范化。

问:听、听懂和服务的满足这三点,听懂好像是最难的,如果现在让你打分,满分 10 分,蓦然能做几分?

戴帅湘:这个怎么说,其实还是有一些限制。比如说在生活常用的场景,我们可以达到 7-8 分,但是如果要是泛泛地说,肯定是 5 分以下。因为有太多东西是你不能学习和了解的,它需要一个基本的框架,然后逐步迭代。人也是从小开始学基本的语文数学,然后慢慢学会更多。

现在如果停留在某些常用的、可用的场景里面,只要是能提供生活服务的,我们都能做出比较好的水平。但是脱离整个应用场景说听懂,其实意义不是很大。而且听懂和满足不是截然分开的,它们是紧密结合的,因为其实你不能判断它听不听得懂,而一定是从它的满足或者后效性上判断的。两者天生是不可分的。所以这样分为三个阶段,其实我是不认同的。

问:业务上有 2C 的考虑吗?

戴帅湘:我还是引用别人的一句话:真正做好一个软件以后,你很可能要做自己的硬件。这个硬件的形态可能不一样,可以是机器人,也可以是穿戴式设备,但是对于一个直接做交互,跟用户打交道的公司,将来肯定会推出适合自己的一系列硬件。

我们坚定地看好设备,我觉得影像时代就是设备的时代。

推荐阅读:《蓦然认知 CEO 戴帅湘:对话式语音交互将无处不在 | CCF-GAIR 2017》

本文作者:张梦华

本文转自雷锋网禁止二次转载,原文链接

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
商汤科技利用AI“复活”创始人汤晓鸥
【2月更文挑战第16天】商汤科技利用AI“复活”创始人汤晓鸥
117 4
商汤科技利用AI“复活”创始人汤晓鸥
|
人工智能 自然语言处理 搜索推荐
美的智家、海尔智家,吹响新一轮AI竞赛号角
美的智家、海尔智家,吹响新一轮AI竞赛号角
97 0
美的智家、海尔智家,吹响新一轮AI竞赛号角
|
人工智能 边缘计算 算法
张勇对话西门子CEO博乐仁:AI时代不持续转型就会落伍
张勇对话西门子CEO博乐仁:AI时代不持续转型就会落伍
141 0
|
传感器 人工智能 安全
从电报到AI耳机 这家百年企业依旧走在科技最前沿
提起大北欧通讯,可能有些消费者会觉得陌生,但提起捷波朗(Jabra),相信许多人一定会想起那著名的耳机品牌。其实捷波朗正是大北欧通讯(GN Great Nordic )的成员公司之一。
290 0
从电报到AI耳机 这家百年企业依旧走在科技最前沿
|
机器学习/深度学习 人工智能 自然语言处理
NIPS举办了第一场记者发布会:请媒体警惕这波AI热潮
面对记者,NIPS 大会传达了很明确的信息——请不要妖魔化机器学习。
193 0
NIPS举办了第一场记者发布会:请媒体警惕这波AI热潮
|
人工智能 达摩院 自动驾驶
马云、马斯克同台谈AI:人工智能拯救世界?
双马像是来自不同的星球,因人工智能而聚首,一方支持人类文明,一方推崇科技智能,在世界人工智能大会上演了一场“功守道”。今年受疫情影响,马云与马斯克并未亲临大会现场,而是以视频的方式分别发表了演讲,这与去年二人并肩而坐、侃侃而谈“人类 PK 技术,谁是赢家?”的景象大不相同。但两位“大牛”的发言仍然妙语连珠、引人深思,犹如隔空对话,俨然是去年对话主题的延续。经此一“疫”,“双马”对于人工智能如何赋能人类,较去年有了新的理解。
1125 0
马云、马斯克同台谈AI:人工智能拯救世界?
AI顶级专家Jianbo Shi史建波正式加盟,首席科学家助力驭势科技持续领跑自动驾驶
未来驭势进一步加大人工智能研发的投入力度,将前沿研究成果进行产业化,继续致力于推动中国无人驾驶行业的发展。
822 0
|
人工智能
九合创投王啸:送给AI创业者的2018年生存指南 | 36氪阿里AI赛道明星班
2018年8月,阿里巴巴携手36氪,启动了“AI赛道明星班”项目。8月20日,“AI赛道明星班”第一次集结,开启为期四天的培训课程。活动第三天,九合创投创始人王啸也分享了对“AI创业的挑战和机遇”的观点。
703 0
|
机器学习/深度学习 人工智能 Java
5月8日云栖精选夜读丨ai无人出租车首发德州,大学AI人才争夺战烽火再起
在德克萨斯州弗里斯科市,公众将有望享受到无人出租车服务, 吴恩达与太太Carol Reiley任联合创始人的无人车初创公司——Drive.ai。最近,MIT实现机器学习首次模仿大脑处理声音,能辩歌词和歌曲分类。
3411 0
下一篇
无影云桌面