【裴健当选SIGKDD主席】研究被引超7万次，他还有一个遗憾

根据新智元获得的最新消息，ACM SIGKDD日前公布了新一任主席的名单，加拿大西蒙弗雷泽大学教授裴健当选，任期为 2017.07.01——2019.06.30。

裴健是加拿大西蒙弗雷泽大学计算科学学院教授，统计学与精算系及健康科学学院兼职教授，加拿大一级研究讲席教授(Canada Research Chair, Tier 1)。他专注于数据挖掘、大数据、数据科学和数据库的研究及其在健康信息学、金融、企业业务系统等的应用。他发表了200多篇学术论文、一本教科书和两本学术专著，被引用7万多次。此外，他还是 ACM 和 IEEE 的 Fellow。

新上任主席的三把火

根据裴健教授对新智元的介绍，SIGKDD的主席选举过程包括：现任执委会任期到期前，由一个提名委员会提名下一届的候选人，其中必须有两名主席候选人和两名秘书长兼司库候选人，执委候选人必须多于6人。然后全体SIGKDD会员通过不记名投票选出主席、秘书长兼司库和6名执委。候选人通常是在SIGKDD中活跃的成员，之前有SIGKDD服务经验，在技术、应用和战略方面有一定经验。

裴健说，当选SIGKDD主席后，在未来两三年，SIGKDD重点要做好几件事情：

· 首先，SIGKDD作为数据科学的全球领先的专业人士组织，需要得到学术界和产业界持续支持。SIGKDD会继续为学术界和产业界提供全面的支持，推动学术界和产业界的互动；

· 第二，SIGKDD的核心领域是数据科学，我们要团结相关的专业人士和社区，如机器学习、人工智能、统计学、数据库、认知科学等。我们要通过各种活动推动数据科学的创新和应用；

· 第三，SIGKDD要进一步推动这个组织的多样性，如鼓励更多的女性进入KDD这个行业，在各个地区和应用领域建立发展SIGKDD的分支机构。最重要的是SIGKDD要大力推动数据科学的教育普及，为培养下一代数据科学家铺路搭桥。

2017年8月，SIGKDD将在加拿大新斯科舍哈利法斯举行，裴教授对新智元说，这几年KDD大会在如何使数据科学和人工智能在数据密集应用中落地，如何做出开创性的新颖应用等方面都很出彩，欢迎大家关注大会。

SIGKDD在中国

根据裴健教授的介绍，在数据挖掘领域，有一批优秀的华人学者非常活跃，做出了杰出的贡献，如前辈 Jiawei Han 教授和陆宏钧教授，以及现在很活跃的周志华教授、刘兵教授和熊辉教授等，在产业界特别是国内企业，有很多年轻的专家做出了突出的成绩，如百度的沈抖博士、滴滴的叶杰平教授、领英的Shipeng Yu博士等。

作为美国计算机学会 ACM 旗下数据挖掘和知识发现的专业组织，SIGKDD 每年都会主办 KDD 大会，是数据挖掘领域的最高学术会议，每年都吸引2000 多与会者，大部分来自产业界，学术论文的接收比例不超过 20%。

资料显示，2016年的KDD大会共吸引了1115 篇投稿，其中研究专题投稿论文784篇，最终有142篇录用；应用数据科学专题投稿论文331篇，录用66篇。

SIGKDD 2016年1月在中国设置了分会（SIGKDD China）目前，SIGKDD China 的执行委员会主席为香港科技大学杨强教授，副主席为南京大学的周志华教授，以及百度公司副总裁沈抖。微软研究院郑宇担任秘书长，西南交通大学的李天瑞为财务主管。

数据挖掘是屠龙之术？很多号称AI公司的企业其实都在干数据挖掘的事情

在查阅背景资料，我们看到网上有这样一种说法：数据挖掘目前在中国的尚未流行开，犹如屠龙之技，现实情况是这样吗？裴健教授说，就他了解的情况，其实数据挖掘在中国到处开花结果。实际上很多号称AI公司的企业都在干数据挖掘和数据科学的事情。大家越来越认识到 AI 应用数据为王。

针对现在数据挖掘行业存在概念混乱的现象，许多局限在报表的展示和简单的统计分析，却也号称是数据挖掘。裴健教授认为，报表是数据挖掘结果的重要展现形式之一，另一个重要展现形式是可视化分析。数据挖掘可以从报表和简单的统计分析出发，关键是逐步挖掘业务需求和潜能，推进数据挖掘的深入应用，在业务中发挥作用，产生越来越大的价值。数据挖掘的关键是能利用越来越多的数据产生越来越大的业务价值。

关于数据挖掘，有人说“沟通能力和兴趣爱好是个人的数据挖掘的核心竞争力”，对于这一观点，裴健在接受新智元的采访时表示：“数据挖掘的核心是对数据和业务的理解能力和对算法的构建能力。沟通能力很重要，是对数据和业务的理解能力的关键，但同时算法的构建能力也很重要。”

研究被引用数量超过7万次，裴健还有一个遗憾

在谷歌学术上，我们查到，裴健教授的研究总共被引用数量超过了7万次，2012年至今的5年间，被引用次数超过3万5千次。在数据挖掘领域可谓有着强大的影响力。

在采访中，我们希望裴健教授向我们推荐一篇他认为最满意的论文。谦虚的裴健老师表示，“与其选自己最满意的论文，还不如说自己最常有的遗憾。 ”

他说：“每篇论文发表之后就会留下遗憾，因为总有可以改进的地方。回头看，对自己的每篇论文我都能说出自己的遗憾。与其选自己最满意的论文，还不如说自己最常有的遗憾。我经常遗憾对一个问题的本质认识不足，忽略了更简洁的算法，对别的领域不够了解，未能借用别的领域已有的技术和方法。”

数据挖掘其实是一个非常跨学科的领域，与众多学科相互促进，共同发展。以人工智能和机器学习为例，可以结合的点非常多。对于这种跨界的合作，裴健教授对新智元介绍说：“我和机器学习的专家合作很多，自己也可以滥竽充数地说懂一点机器学习。我在数据库、数据挖掘、机器学习和信息检索多个领域都做一点，和不同的学者合作，从他们身上学到不同的东西，如不同的思维方式和领域知识，收益非浅。多跟不同的人合作是很有帮助的。”

KDD最新趋势：深度学习最近的发展很Disruptive

KDD领域近年来向机器学习靠拢的趋势很明显。从大会评选出的最佳论文，以及组织举办的Workshop就能够看出，话题与实际应用结合非常紧密，keynote 演讲里还有专门请投资人从VC视角讲解机器学习。

那么，这算是一个大趋势吗？

裴健教授在接受新智元的专访时表示，机器学习本身就是数据挖掘的一个重要工具，20年前数据挖掘创始的时候的三大主要内容就包括机器学习。机器学习与数据密不可分，数据挖掘是打通从数据到业务的端到端流程。

再具体到深度学习，裴健说：“深度学习最近的发展很 Disruptive。在数据挖掘领域，很多工作用深度学习作为工具。KDD上有很多文章提出了很有趣的问题，然后用深度学习作为工具巧妙地解决了问题。建议感兴趣的读者去浏览一下今年来的KDD论文集。”

聊一聊数据：这样才能获得高效的、优质的“燃料”，确保火箭不会出事？

人工智能的发展很大程度上依赖于数据的获取，有人曾说，如果人工智能是火箭，数据就是燃料，从你在数据挖掘多年的经历来看，怎样才能获得高效的、优质的“燃料”，确保火箭不会出事？现在深度学习领域出现了各种各样的数据集，数据的量非常大，在图像领域就出现了比著名的Imagenet要大很多的数据库，那么，是不是数据永远是越大越好？对于研究者来说，怎样才算是适合的数据？

在“数据”上有着多年研究经验的裴健对新智元介绍说：“一般来说，数据是越多越好。深度学习需要大量的数据来产生可以generalize的模型。在实际应用中，数据往往是有成本的。有很多应用场景不容易获取大量的高质量数据。所以说我们需要针对具体问题，获取合适的数据。在这方面，统计学对数据的采集评价有一系列的方法和原则，值得深入学习。另一个方面，要很好利用大量的数据，通常需要比较复杂的模型，对计算的要求也相应地比较高，所以我们要根据数据量和应用来选择合适的模型。”

提到大数据和好数据，人工智能发展的另一个前沿方向就是能减少数据依赖，实现无监督学习。裴健认为，无监督学习的一个难点在于其没有绝对的评价标准。例如病人可以按病因、症状、并发症、风险等很多方面进行分群。因此，无监督学习的一个难点就是如何形成合适的类别，特别是结合问题的上下文，如常识，去形成合理有意义的类别。

采访的最后，新智元提到，最近“程序员自动化”的讨论比较多，那么在数据发现和挖掘领域，是不是也可以实现“自动化”，由机器来完成数据的挖掘工作？裴健表示，数据挖掘就是致力于数据的挖掘工作自动化。这是我们数据挖掘领域专家正在努力做的。

文章转自新智元公众号，原文链接

【裴健当选SIGKDD主席】研究被引超7万次，他还有一个遗憾 | 专访

新智元

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【裴健当选SIGKDD主席】研究被引超7万次，他还有一个遗憾 | 专访

新智元

热门文章

最新文章

相关电子书