【专访】KDD2018主席熊辉教授:数据挖掘与深度学习结合新趋势

简介: 2017年8月13日至17日,数据挖掘国际顶级学术会议 KDD2017在加拿大哈利法克斯市举行。本次大会总的注册人数达到1656人,来自全世界51个国家和地区。其中,美国注册人数最多,其次是中国,第三是加拿大。

2017年8月13日至17日,数据挖掘国际顶级学术会议 KDD2017在加拿大哈利法克斯市举行。本次大会总的注册人数达到1656人,来自全世界51个国家和地区。其中,美国注册人数最多,其次是中国,第三是加拿大。


关于本次大会论文接受数据、中国学者和公司的表现以及最佳论文、最佳论文请参见新智元此前的报道《【KDD最佳论文出炉】BAT、华为谷歌论文排行榜,中国包揽KDDCUP》。


大会同时宣布了KDD2018年大会的主席名单。美国罗格斯-新泽西州立大学信息安全中心主任、罗格斯商学院管理科学与信息系统系熊辉当选 Research Track PC 主席。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

熊辉 E- Mail:hxiong@rutgers.edu ;实验室主页:http://datamining.rutgers.edu


熊辉教授本科毕业于中国科学技术大学,博士毕业于美国明尼苏达大学,目前为美国罗格斯-新泽西州立大学信息安全中心主任、罗格斯商学院管理科学与信息系统系副系主任、正教授 (终身教授)、RBS院长讲席教授,并担任中国科学技术大学大师讲席教授。


熊辉教授主要研究领域涵盖数据挖掘、大数据、人工智能;获得的部分荣誉包括ACM杰出科学家,长江讲座教授,海外杰青B类(海外及港澳学者合作研究基金)。熊辉教授的研究工作被Forbes, The Economist,Harvard Business Review,The Wall Street Journal等媒体广泛报道。其中,经济学人杂志(The Economist)在2016年专文重点介绍了熊辉教授利用大数据技术预防犯罪的研究工作 (Economist Article Title: Cutpurse capers),同时哈佛商业评论在2016年也以专文重点介绍他的关于人力大数据分析的前沿工作。


KDD高产学者:今年被接收文章有8篇;中国学者学术地位大幅提升


据介绍,本次大会熊辉教授和团队总共有8篇文章被接收(包括oral),去年他们团队的论文被接收数量是9篇,可谓非常高产。要知道,相比之下,在本年度KDD接收的 200 多篇论文里,来自中国大陆的高校和企业只有 20 多篇。


另外,本届KDD上 China Chapter,熊辉教授与裴健、郑宇和叶杰平等多位顶尖的学者一起组织了精彩的分享。


熊辉对新智元介绍说:“在本届KDD China Session, 我介绍了在大数据人才智能化分析这一世界前沿领域的创新工作。区别于传统人力资源管理须通过大量长期实践才能总结出经验规则,永远在解决问题,管理相对滞后。大数据人才智能化管理通过数据挖掘提供客观性,完整性,透明性,预测性分析,可以让管理做到更加客观,公正,未雨绸缪。具体来说,我从人才、组织和文化三大人才管理业务场景出发,介绍了一整套针对业务痛点的智能化人才管理工具和解决方案,所介绍的人才智库系统是基于我们自主开发的数十项智能化机器学习模型算法工具,有效支持和辅助了人才获取、人才保留、人才发掘、组织稳定等一整套管理动作。我们构建的这套完整的智能化人才管理系统,充分展示了以大数据驱动智能化人才管理的高效性,在世界范围内尚属首创。”


近年来,中国学者在KDD学术会议上的存在感逐渐变强,表现非常突出。对此,熊辉教授也有感受,他说:“中国学者这几年在各个研究方向都在快速成长和突破。我具体感觉体现在两个方面。首先是大量高水平的论文发表,并伴生大批的优秀青年学者;其次是中国学者学术地位的大幅提升,越来越多的中国学者担任行业顶级会议的组织者和顶级期刊的编委甚至主编。”


今年论文接受率最高只有12.8%, 为什么KDD的论文录取率那么低?


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


数据显示,今年KDD研究Track共审阅了748篇论文,共接收130篇,其中口头展示64篇,海报展示66篇,接收率分别为8.6%和8.8%。数据科学应用Track 共审阅了390篇论文,共接收86篇,其中口头展示36篇,海报展示50篇,接收率分别为9.2%和12.8%。


KDD向来以论文接受率低著称。被问及大会接受率为何如此低,熊辉教授向新智元介绍说,KDD是数据挖掘和数据科学领域最顶级的学术年会。来自学术界,工业界和政府部门的研究人员都希望在KDD上发表和展示自己的有影响力的工作,因而投稿量每年都特别大,所以KDD的接收率一直非常低。另外,非常多的高科技公司人力资源部门都积极招聘在KDD以第一作者发表过论文的学生,所以学生也都非常有投稿热情,这也客观导致文章接受率低。 


KDD新趋势:传统行业与大数据,机器学习,人工智能技术的结合将会成为一个新的战场和制高点


新智元在采访中问到,近两年KDD领域最值得关注的趋势是什么?


熊辉教授认为,近两年,数据挖掘,机器学习和人工智能技术,不仅仅和新兴互联网产业结合紧密,和传统产业的相互结合和促进,也成为了一个新亮点。比如,根据人们传统的理解,人力资源行业是一个组织行为学科,是很难被量化的。我们的人才智能化的项目展示了通过大数据分析提供客观性,完整性,透明性,预测性分析,可以让管理做到更加客观,公正,未雨绸缪。又比如,工业制造行业,似乎也是很难拥抱大数据和人工智能技术。但是,在工业制造4.0的标准里,人工智能技术,将会成为传统工业制造涅槃重生的引擎。他说:“我相信传统行业与大数据,机器学习,人工智能技术的结合将会成为一个新的战场和制高点。”


那么,近年来,KDD领域向机器学习和实际应用的结合非常紧密,这是一个大趋势么?


熊辉教授认为这是一个大趋势。他进一步解释说,首先人类在世界任何一个角落,任何一个时间,任何一类的行为,都以不同数据的形式开始保存了下来。在人类历史上,我们从来没有这么好的机会能够通过细致化,全面化的数据,深入毛孔的了解人的行为,发现行业的痛点。所以,未来KDD领域向机器学习和实际应用的结合会越来越紧密,而且未来越来越多KDD的研究问题会来源于应用实践。


具体到深度学习。熊辉教授认为,大数据+深度学习,目前是很多领域的非常热门的一类技术解决方案。深度学习在拥有大数据的很多应用领域展示了自己独特的优势,比如语音识别和图像处理。然而,他的个人观点是,深度学习就像任何一种技术都有它的局限性,也有它的适用范围在KDD领域,他相信会有很多研究专注于深度学习的参数选择,降低计算复杂度和结果的可解释性。


数据挖掘高手谈数据:什么样的数据才是好数据?


作为在数据挖掘领域有着深厚积累的资深教授。熊辉教授如何看待数据?怎么样的数据才能是好数据?要怎样获得这些好数据呢?


熊辉教授认为,要获得高效优质的数据,我认为应该同时考虑“量”和“质”。 量,不仅仅是指数据量的大,还包括是否有效覆盖所要研究课题的不同的对象,即统计里的population;“质”指的是数据信息的有效性,即我们的数据的噪声程度,是否包括具体问题分析所需的各种属性,是否存在和易于构建内在的关联性,是否能有表征丰富的语义,是否能够支持快速计算和分析。 


对于大数据。他认为,数据不是简单的越大越好,而是和需要解决的问题相关的数据越大越好。在很多具体数据分析应用,特别是商务智能中,还要注意大数据和小数据的有效结合。

 

AI的迅速发展也为数据挖掘领域带来了一些有趣的变化,比如数据的发现和挖掘的自动化,就是由机器来自动完成数据挖掘的工作。针对这一研究方向,熊辉教授向新智元介绍说:“在学术界,已经有一些学者开始尝试探索自动化的数据挖掘,一个潜在方向是Prescriptive Analysis。”


比如,他们和IBM的学者合作尝试实现自动化的异常点检测,在今年KDD17发表了文章 “REMIX: Automated Exploration for Interactive Outlier Detection”。但是,基于数据挖掘工作本身的多样性和复杂性,往往需要领域知识和技术知识的有机结合,经常很难完全避免人的参与,所以做到完全自动化在目前看还是不现实的。


挖掘数据的价值:抓小偷,治雾霾甚至反恐


2015年开始,数据挖掘领域出现了一些非常有意思的研究,比如熊辉教授做的利用大数据分析“抓小偷”的研究(参见新智元的报道:KDD 精彩论文:用智能公交一卡通数据抓小偷)。


另外,也有研究员在探索使用数据挖掘进行雾霾的治理和反恐。熊辉教授对新智元说,随着传感网技术的快速发展和实施,越来越密集的传感器可以帮助实时搜集广泛覆盖的环境监测的数据。这些数据对于我们有效判断雾霾的成因,进而帮助合理的雾霾治理提供了决策支持。


在反恐领域,数据挖掘应用前景广阔。首先,近几年数据分析技术和大数据硬件分析平台技术获得突破性进步。比如,云计算大数据分析平台的快速发展和应用,以及深度学习技术在文本,声音,图像,视频数据的分析取得了很大成功。其次,现在可运用于反恐的数据来源多样化和数据覆盖范围也更广阔。例如,广泛分布的摄像头已经一定程度上物联网了,联网的摄像头产生的多源视频数据可以很好的帮助发掘潜在恐怖袭击,或者帮助捕获恐怖分子。


文章转自新智元公众号,原文链接

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
机器学习/深度学习 人工智能
AI:2020年6月21日北京智源大会演讲分享之20:00-21:00邱锡鹏教授《如何学习深度学习》
AI:2020年6月21日北京智源大会演讲分享之20:00-21:00邱锡鹏教授《如何学习深度学习》
AI:2020年6月21日北京智源大会演讲分享之20:00-21:00邱锡鹏教授《如何学习深度学习》
|
机器学习/深度学习 存储 算法
UIUC陈德铭教授:「万能芯片」FPGA与深度学习
FPGA 与深度学习的关系究竟是什么?它适合加速何种类型的运算?适合应用于何种场景?6 月,机器之心采访了美国伊利诺伊大学香槟分校电气与计算机工程系(UIUC ECE)教授、深度学习算法硬件加速解决方案创业公司 Inspirit IoT 创始人陈德铭,与他聊了聊「万能芯片」FPGA 在深度学习领域的用法。陈教授于近期宣布兼任国内计算机视觉领域创业公司触景无限的首席科学家。
388 0
 UIUC陈德铭教授:「万能芯片」FPGA与深度学习
|
机器学习/深度学习 存储 人工智能
专访乔治亚理工终身教授蓝光辉: 开创随机加速梯度法助力深度学习
随机优化和非线性规划的理论、算法和应用,包括随机梯度下降和加速随机梯度下降,以及用于解决随机凸和非凸优化问题。
324 0
专访乔治亚理工终身教授蓝光辉: 开创随机加速梯度法助力深度学习
|
机器学习/深度学习 人工智能 自然语言处理
|
机器学习/深度学习
普林斯顿大学教授:用理论的力量横扫深度学习(77PPT)
目前深度学习的应用较为广泛,尤其是各种开源库的使用,导致很多从业人员只注重应用的开发,却往往忽略了对理论的深究与理解。普林斯顿大学教授Sanjeev Arora近期公开的77页PPT,言简意赅、深入浅出的介绍了深度学习的理论——用理论的力量横扫深度学习!
1932 0
|
机器学习/深度学习 测试技术 TensorFlow
【深度学习框架大PK】褚晓文教授:五大深度学习框架三类神经网络全面测评(23PPT)
香港浸会大学褚晓文教授团队在2016年推出深度学习工具评测的研究报告《基准评测 TensorFlow、Caffe、CNTK、MXNet、Torch 在三类流行深度神经网络上的表现》,并在2017年年初发布更新,引起广泛关注。
2499 0
|
机器学习/深度学习 人工智能 自然语言处理
|
机器学习/深度学习 人工智能 算法
7月7日云栖精选夜读:专访 | 杨强教授谈CCAI、深度学习泡沫与人工智能入门
中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办,云栖社区作为独家直播合作伙伴的第三届中国人工智能大会(CCAI 2017)将在杭州国际会议中心盛大开幕。
4269 0
|
机器学习/深度学习 人工智能 自然语言处理
专访 | 杨强教授谈CCAI、深度学习泡沫与人工智能入门
7 月 22 - 23 日,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办,云栖社区作为独家直播合作伙伴的第三届中国人工智能大会(CCAI 2017)将在杭州国际会议中心盛大开幕。
10410 0
|
3天前
|
机器学习/深度学习 存储 边缘计算
深度学习在图像识别中的应用与挑战
【4月更文挑战第23天】 随着人工智能技术的飞速发展,深度学习作为其重要分支之一,在图像识别领域取得了显著的成果。本文将探讨深度学习在图像识别中的应用,分析其优势和面临的挑战,并展望未来的发展趋势。