阿里人工智能实验室王刚:找到合适的应用场景是实现人工智能商业化的关键点

简介: 王刚博士是今年3月加入阿里人工智能实验室的,在此之前,他在南洋理工大学担任副教授(终身教授),专注于深度学习的研究,是众多转投工业界的学术专家之一。
编者按:由中国人工智能学会、阿里巴巴以及蚂蚁金服联合主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会( CCAI 2017)将于7月22-23日正式召开,届时,阿里人工智能实验室杰出科学家王刚博士将分享人工智能应用的前沿趋势。在此之前,阿里云云栖社区作为独家直播合作伙伴对其作了专访。
在刚刚过去的6月份,阿里人工智能实验室迎来了成立一周年的纪念日。这是一个比阿里iDST还神秘的部门,业界鲜有人知道它的存在,直到日前实验室首款终端产品天猫精灵X1的发布,这支神秘之师才正式成为镁光灯下的焦点。
王刚博士是今年3月加入阿里人工智能实验室的,在此之前,他在南洋理工大学担任副教授(终身教授),专注于深度学习的研究,是众多转投工业界的学术专家之一;加入阿里人工智能实验室后,他负责的是机器学习、自然语言理解,和计算机视觉等技术的研究以及落地。
47799c168b3a6a111e1c73754d2136a2d862620b
在王刚博士看来,即便身处学术界,在做学术研究的同时,也需要挖掘技术的经济价值。事实上,早在南洋理工大学期间,王刚博士和其研究团队就研发出了多款人工智能商业化产品。“在学术界的时候我就对技术的商业化和落地非常感兴趣。”王刚回忆道。但他深知,人工智能产品要实现商业化必须要了解用户,要找到合适的应用场景,同时要有好的用户体验也离不开数据的支撑,这些都是高校最匮乏的资源,这也是他选择迈进工业界的主要原因。
以下是本次采访的实录:
云栖社区:加入阿里之前,您一直在学术领域,是什么让你选择从学术界向工业界的角色转变呢?
王刚:以前在学术界的时候我就对技术的商业化和落地非常感兴趣,因为我觉得,我们做工程学科的研究人员,除了发论文,也应该要强调这种技术的经济价值,让技术转化为产品。这和基础学科的研究人员还是不太一样的,他们更多的是探索未知的知识,而工程学科应该要为经济和产品服务的。
所以我在南洋理工大学任教的时候就花了很多时间在做高新技术产业化的事情,比如2011年我带领团队做的时尚衣服搜索系统(CHIC Finder),这个产品上线比拍立淘还要早。当时我们做了很大的努力把这个产品推到市场上,但是我发现在学校很难有市场影响力。即使技术做得很好也不能很快的被用户所知道。所以我就开始思考,是不是应该换一个平台做我感兴趣的事情。
另一方面,人工智能技术在近年取得了很大的进展。以前大家认为不能做的很多任务,现在我们都能够用人工智能技术来实现了。人工智能已经处于一个从学术界到大众爆发的一个零界点。基于这样的考虑,我选择加入了阿里巴巴。因为它了解消费者需要什么,也知道如何把技术用最好的形式呈现给消费者。在这样一个平台上去做人工智能技术落地的事情,更容易获得成功。
云栖社区:在南洋理工大学,您和您的团队取得了哪些研究成果?
王刚:先说学术方面,我们在人工智能最顶尖的期刊和会议上发了将近有一百篇文章,例如CVPR/ICCV/TPAMI等。这些文章在推进深度学习和计算机视觉研究上都做了较大贡献。例如我们改进了深度神经网络的设计机理:让神经网络能根据具体应用场景更灵活,更高效的去处理复杂信息,从而提高学习的效果和效率,增加泛化能力。另外我们在语义理解和行为分析等前沿问题上也取得了较大进展,并建立了标准的数据库为学术界和工业界所使用。
学术研究之外,我们还研发了很多商业化系统。除了刚才提到的图像搜索系统,我们还做了药片识别系统:护士发药的时候可能会把药发错,这样的失误非常危险,而这个系统能够根据药品的表面的特征,再通过摄像头,识别出分发的药片是否准确。另外我们还做过辅助驾驶系统,它能够自动检测前面的车辆、车距以及两边的车道。这三个系统都已经成功商业化了,目前已经转让给相关的公司进行进一步的产品的开发。
云栖社区:加入阿里之后您的工作有什么变化?和之前在学术界最大的区别是什么?
王刚:从加入阿里到现在,我主要的工作带领算法团队实现人工智能技术在天猫精灵X1智能音响上的落地,工作内容和在南洋理工大学期间的学术研究的区别还是挺大的。在学术界,我们考虑的主要是技术的前沿性以及潜力;但是把前沿技术转化为产品,要考虑技术的鲁棒性和可扩展性,也有很多技术细节需要去打磨。很庆幸我们有很多非常优秀的同事,他们在算法和工程上的能力都很强,所以我们能克服落地过程中的很多困难,从而推出天猫精灵这样在未来能改变人机交互方式的极具潜力的人工智能产品。
云栖社区:虽然最近两年人工智能很火,但是有一个比较现实的一个问题:无论是学术机构,包括一些企业现在大多都还是处于研究的阶段,您认为人工智能实现商业化最大的挑战是什么?
王刚:无论是在学术界还是工业界,人工智能最近的发展非常迅速。也可以看到在人工智能商业化这个事情上,我们还是取得了非常大的进展的。像前文提到的我们已经发布的天猫精灵,能让人机交互更自然,更轻松,更容易,这背后就是大量的人工智能技术在支持。但是很多人工智能机构确实遇到了商业化的难题,一个比较大的原因就是没有找到合适的应用场景。细化一下,又有几个可能的原因,例如不了解用户真正的需求,不知道现在的技术的能力界限:能做什么和不能做什么,不知道怎么用合适的产品形式把技术包装起来。所以实现人工智能商业化需要同时有优秀的产品团队和技术团队,两者是缺一不可的。
云栖社区:人工智能在技术上有哪些挑战呢?
王刚:我们可以看到现在还是需要大量的训练样本去训练深度学习系统。不过在很多领域我们很难找到这么多的训练数据。要想人工智能取得进一步的发展,就需要去解决训练样本比较小(小数据),或者是没有训练样本的问题。如果能把这个问题解决好,那么人工智能大规模的应用就到来了。我们实验室在这个前沿性的问题上也进行了很多的探索。
云栖社区:实验室已经发布了首款产品——天猫精灵X1,能否介绍一下这款产品的核心技术?
王刚:这是一款大众消费级的语音终端产品,产品包含了很多人工智能的核心技术,例如自动语音识别,自然语言理解,对话生成,TTS,知识图谱,还有个性化的决策和执行等。
云栖社区:阿里人工智能实验室专注消费级产品,您认为云上的人工智能和终端人工智能如何协同工作?
王刚:消费者只会在乎产品给他们的最终的智能的体验,而不会特别关注人工智能是在端上实现还是云上实现的。所以我们做消费级智能终端也是很关注云端协作的。因为如果我们只依赖终端,就存在一个问题:终端的计算能力一般都比较弱,这就导致返回的结果可能不准确;另外,终端只植入本地的信息,它不知道其他的端的信息,其智能的判断也不会特别完美。当然,在终端实现人工智能也有优点,就是它没有延迟,因为它不需要把数据传到云端:当数据是大量视频流量数据时,传输到云端就成为了瓶颈。
反之,云端实现人工智能会产生传输上的延迟,但是它又具有更强的处理能力,也能够接触到更多的信息。
因此,找到二者结合的平衡点才是关键。怎么优化,怎么能够做好这样的配置,取决于我们的应用场景。
云栖社区:关于这个月的CCAI大会,您对哪些话题比较感兴趣?
王刚:这次大会应该会分享很多人工智能落地的案例,我对这样的话题比较感兴趣。通过这些案例,我们可以知道人工智能在目前这个阶段在哪些领域创造了惊喜。这些人工智能落地的经验也会给我们自己产品的研发带来很多启发。另外我也希望能看到在算法方面的进展。
CCAI大会简介:
CCAI 2017大会由中国科学院院士、中国人工智能学会副理事长谭铁牛,阿里巴巴技术委员会主席王坚,香港科技大学计算机系主任、AAAI Fellow 杨强,蚂蚁金服副总裁、首席数据科学家漆远,南京大学教授、AAAI Fellow 周志华共同甄选出在人工智能领域本年度海内外最值得关注的学术与研发进展,汇聚了超过 40 位顶级人工智能专家,带来 9 场权威主题报告,以及“语言智能与应用论坛”、“智能金融论坛”、“人工智能科学与艺术论坛”、“人工智能青年论坛”4 大专题论坛,届时将有超过 2000 位人工智能专业人士参与。 报名请戳这里
大会讲师采访:
目录
相关文章
|
5月前
|
机器学习/深度学习 人工智能 监控
人工智能之人脸识别技术应用场景
人脸识别技术是一种通过计算机技术和模式识别算法来识别和验证人脸的技术。它可以用于识别人脸的身份、检测人脸的表情、年龄、性别等特征,以及进行人脸比对和活体检测等应用。
377 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里通义千问大语言模型在人工智能教育领域的应用探索
阿里通义千问,阿里集团的大型预训练语言模型,应用于AI教育,实现个性化教学、自适应学习系统和智能答疑。通过AIGC,它生成个性化内容,适应不同学生需求,优化教育资源配置,推动教育创新。在教育场景中,模型提供实时反馈,定制学习路径,促进教学质量提升。随着技术进步,AI在教育领域的应用将更加深入,但也需关注伦理与安全。
1951 1
|
1月前
|
人工智能 安全 算法
上交大、上海人工智能实验室开源首个多轮安全对齐数据集 SafeMTData
最近,以 OpenAI o1 为代表的 AI 大模型的推理能力得到了极大提升,在代码、数学的评估上取得了令人惊讶的效果。OpenAI 声称,推理可以让模型更好的遵守安全政策,是提升模型安全的新路径。
|
4月前
|
机器学习/深度学习 人工智能 算法
【人工智能】传统语音识别算法概述,应用场景,项目实践及案例分析,附带代码示例
传统语音识别算法是将语音信号转化为文本形式的技术,它主要基于模式识别理论和数学统计学方法。以下是传统语音识别算法的基本概述
90 2
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】常用的人工智能框架、模型、使用方法、应用场景以及代码实例的概述
人工智能(AI)领域涉及众多框架和模型,这些框架和模型为开发人员提供了强大的工具,以构建和训练各种AI应用。以下是一些常用的人工智能框架、模型、使用方法、应用场景以及代码实例的概述。
212 1
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】TensorFlow简介,应用场景,使用方法以及项目实践及案例分析,附带源代码
TensorFlow是由Google Brain团队开发的开源机器学习库,广泛用于各种复杂的数学计算,特别是涉及深度学习的计算。它提供了丰富的工具和资源,用于构建和训练机器学习模型。TensorFlow的核心是计算图(Computation Graph),这是一种用于表示计算流程的图结构,由节点(代表操作)和边(代表数据流)组成。
86 0
|
6月前
|
人工智能 自然语言处理 安全
【人工智能】第三部分:ChatGPT的应用场景和挑战
【人工智能】第三部分:ChatGPT的应用场景和挑战
86 3
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
|
7月前
|
人工智能 搜索推荐 机器人
人工智能在电商领域还有哪些应用场景
人工智能在电商领域还有哪些应用场景
264 0
|
7月前
|
机器学习/深度学习 数据采集 人工智能