根据新智元获得的最新消息,ACM SIGKDD日前公布了新一任主席的名单,加拿大西蒙弗雷泽大学教授裴健当选,任期为 2017.07.01——2019.06.30。
裴健是加拿大西蒙弗雷泽大学计算科学学院教授,统计学与精算系及健康科学学院兼职教授,加拿大一级研究讲席教授(Canada Research Chair, Tier 1)。他专注于数据挖掘、大数据、数据科学和数据库的研究及其在健康信息学、金融、企业业务系统等的应用。他发表了200多篇学术论文、一本教科书和两本学术专著,被引用7万多次。此外,他还是 ACM 和 IEEE 的 Fellow。
根据裴健教授对新智元的介绍,SIGKDD的主席选举过程包括:现任执委会任期到期前,由一个提名委员会提名下一届的候选人,其中必须有两名主席候选人和两名秘书长兼司库候选人,执委候选人必须多于6人。然后全体SIGKDD会员通过不记名投票选出主席、秘书长兼司库和6名执委。候选人通常是在SIGKDD中活跃的成员,之前有SIGKDD服务经验,在技术、应用和战略方面有一定经验。
裴健说,当选SIGKDD主席后,在未来两三年,SIGKDD重点要做好几件事情:
· 首先,SIGKDD作为数据科学的全球领先的专业人士组织,需要得到学术界和产业界持续支持。SIGKDD会继续为学术界和产业界提供全面的支持,推动学术界和产业界的互动;
· 第二,SIGKDD的核心领域是数据科学,我们要团结相关的专业人士和社区,如机器学习、人工智能、统计学、数据库、认知科学等。我们要通过各种活动推动数据科学的创新和应用;
· 第三,SIGKDD要进一步推动这个组织的多样性,如鼓励更多的女性进入KDD这个行业,在各个地区和应用领域建立发展SIGKDD的分支机构。最重要的是SIGKDD要大力推动数据科学的教育普及,为培养下一代数据科学家铺路搭桥。
2017年8月,SIGKDD将在加拿大新斯科舍哈利法斯举行,裴教授对新智元说,这几年KDD大会在如何使数据科学和人工智能在数据密集应用中落地,如何做出开创性的新颖应用等方面都很出彩,欢迎大家关注大会。
根据裴健教授的介绍,在数据挖掘领域,有一批优秀的华人学者非常活跃,做出了杰出的贡献,如前辈 Jiawei Han 教授和陆宏钧教授,以及现在很活跃的周志华教授、刘兵教授和熊辉教授等,在产业界特别是国内企业,有很多年轻的专家做出了突出的成绩,如百度的沈抖博士、滴滴的叶杰平教授、领英的Shipeng Yu博士等。
作为美国计算机学会 ACM 旗下数据挖掘和知识发现的专业组织,SIGKDD 每年都会主办 KDD 大会,是数据挖掘领域的最高学术会议,每年都吸引2000 多与会者,大部分来自产业界,学术论文的接收比例不超过 20%。
资料显示,2016年的KDD大会共吸引了1115 篇投稿,其中研究专题投稿论文784篇,最终有142篇录用;应用数据科学专题投稿论文331篇,录用66篇。
SIGKDD 2016年1月在中国设置了分会(SIGKDD China) 目前,SIGKDD China 的执行委员会主席为香港科技大学杨强教授,副主席为南京大学的周志华教授,以及百度公司副总裁沈抖。微软研究院郑宇担任秘书长,西南交通大学的李天瑞为财务主管。
在查阅背景资料,我们看到网上有这样一种说法:数据挖掘目前在中国的尚未流行开,犹如屠龙之技,现实情况是这样吗?裴健教授说,就他了解的情况,其实数据挖掘在中国到处开花结果。实际上很多号称AI公司的企业都在干数据挖掘和数据科学的事情。大家越来越认识到 AI 应用数据为王。
针对现在数据挖掘行业存在概念混乱的现象,许多局限在报表的展示和简单的统计分析,却也号称是数据挖掘。裴健教授认为,报表是数据挖掘结果的重要展现形式之一,另一个重要展现形式是可视化分析。数据挖掘可以从报表和简单的统计分析出发,关键是逐步挖掘业务需求和潜能,推进数据挖掘的深入应用,在业务中发挥作用,产生越来越大的价值。数据挖掘的关键是能利用越来越多的数据产生越来越大的业务价值。
关于数据挖掘,有人说“沟通能力和兴趣爱好是个人的数据挖掘的核心竞争力”,对于这一观点,裴健在接受新智元的采访时表示:“数据挖掘的核心是对数据和业务的理解能力和对算法的构建能力。沟通能力很重要,是对数据和业务的理解能力的关键,但同时算法的构建能力也很重要。”
在谷歌学术上,我们查到,裴健教授的研究总共被引用数量超过了7万次,2012年至今的5年间,被引用次数超过3万5千次。在数据挖掘领域可谓有着强大的影响力。
在采访中,我们希望裴健教授向我们推荐一篇他认为最满意的论文。谦虚的裴健老师表示,“与其选自己最满意的论文,还不如说自己最常有的遗憾。 ”
他说:“每篇论文发表之后就会留下遗憾,因为总有可以改进的地方。回头看,对自己的每篇论文我都能说出自己的遗憾。与其选自己最满意的论文,还不如说自己最常有的遗憾。 我经常遗憾对一个问题的本质认识不足,忽略了更简洁的算法,对别的领域不够了解,未能借用别的领域已有的技术和方法。”
数据挖掘其实是一个非常跨学科的领域,与众多学科相互促进,共同发展。以人工智能和机器学习为例,可以结合的点非常多。对于这种跨界的合作,裴健教授对新智元介绍说:“我和机器学习的专家合作很多,自己也可以滥竽充数地说懂一点机器学习。我在数据库、数据挖掘、机器学习和信息检索多个领域都做一点,和不同的学者合作,从他们身上学到不同的东西,如不同的思维方式和领域知识,收益非浅。多跟不同的人合作是很有帮助的。”
KDD领域近年来向机器学习靠拢的趋势很明显。从大会评选出的最佳论文,以及组织举办的Workshop就能够看出,话题与实际应用结合非常紧密,keynote 演讲里还有专门请投资人从VC视角讲解机器学习。
那么,这算是一个大趋势吗?
裴健教授在接受新智元的专访时表示,机器学习本身就是数据挖掘的一个重要工具,20年前数据挖掘创始的时候的三大主要内容就包括机器学习。机器学习与数据密不可分,数据挖掘是打通从数据到业务的端到端流程。
再具体到深度学习,裴健说:“深度学习最近的发展很 Disruptive。在数据挖掘领域,很多工作用深度学习作为工具。KDD上有很多文章提出了很有趣的问题,然后用深度学习作为工具巧妙地解决了问题。建议感兴趣的读者去浏览一下今年来的KDD论文集。”
人工智能的发展很大程度上依赖于数据的获取,有人曾说,如果人工智能是火箭,数据就是燃料,从你在数据挖掘多年的经历来看,怎样才能获得高效的、优质的“燃料”,确保火箭不会出事?现在深度学习领域出现了各种各样的数据集,数据的量非常大,在图像领域就出现了比著名的Imagenet要大很多的数据库,那么,是不是数据永远是越大越好?对于研究者来说,怎样才算是适合的数据?
在“数据”上有着多年研究经验的裴健对新智元介绍说:“一般来说,数据是越多越好。深度学习需要大量的数据来产生可以generalize的模型。在实际应用中,数据往往是有成本的。有很多应用场景不容易获取大量的高质量数据。所以说我们需要针对具体问题,获取合适的数据。在这方面,统计学对数据的采集评价有一系列的方法和原则,值得深入学习。另一个方面,要很好利用大量的数据,通常需要比较复杂的模型,对计算的要求也相应地比较高,所以我们要根据数据量和应用来选择合适的模型。”
提到大数据和好数据,人工智能发展的另一个前沿方向就是能减少数据依赖,实现无监督学习。裴健认为,无监督学习的一个难点在于其没有绝对的评价标准。例如病人可以按病因、症状、并发症、风险等很多方面进行分群。因此,无监督学习的一个难点就是如何形成合适的类别,特别是结合问题的上下文,如常识,去形成合理有意义的类别。
采访的最后,新智元提到,最近“程序员自动化”的讨论比较多,那么在数据发现和挖掘领域,是不是也可以实现“自动化”,由机器来完成数据的挖掘工作?裴健表示,数据挖掘就是致力于数据的挖掘工作自动化。这是我们数据挖掘领域专家正在努力做的。
文章转自新智元公众号,原文链接