【裴健当选SIGKDD主席】研究被引超7万次,他还有一个遗憾 | 专访

简介:

根据新智元获得的最新消息,ACM SIGKDD日前公布了新一任主席的名单,加拿大西蒙弗雷泽大学教授裴健当选,任期为 2017.07.01——2019.06.30。




裴健是加拿大西蒙弗雷泽大学计算科学学院教授,统计学与精算系及健康科学学院兼职教授,加拿大一级研究讲席教授(Canada Research Chair, Tier 1)。他专注于数据挖掘、大数据、数据科学和数据库的研究及其在健康信息学、金融、企业业务系统等的应用。他发表了200多篇学术论文、一本教科书和两本学术专著,被引用7万多次。此外,他还是 ACM 和 IEEE 的 Fellow。


新上任主席的三把火


根据裴健教授对新智元的介绍,SIGKDD的主席选举过程包括:现任执委会任期到期前,由一个提名委员会提名下一届的候选人,其中必须有两名主席候选人和两名秘书长兼司库候选人,执委候选人必须多于6人。然后全体SIGKDD会员通过不记名投票选出主席、秘书长兼司库和6名执委。候选人通常是在SIGKDD中活跃的成员,之前有SIGKDD服务经验,在技术、应用和战略方面有一定经验。


裴健说,当选SIGKDD主席后,在未来两三年,SIGKDD重点要做好几件事情:


· 首先,SIGKDD作为数据科学的全球领先的专业人士组织,需要得到学术界和产业界持续支持。SIGKDD会继续为学术界和产业界提供全面的支持,推动学术界和产业界的互动;


· 第二,SIGKDD的核心领域是数据科学,我们要团结相关的专业人士和社区,如机器学习、人工智能、统计学、数据库、认知科学等。我们要通过各种活动推动数据科学的创新和应用;


· 第三,SIGKDD要进一步推动这个组织的多样性,如鼓励更多的女性进入KDD这个行业,在各个地区和应用领域建立发展SIGKDD的分支机构。最重要的是SIGKDD要大力推动数据科学的教育普及,为培养下一代数据科学家铺路搭桥。



2017年8月,SIGKDD将在加拿大新斯科舍哈利法斯举行,裴教授对新智元说,这几年KDD大会在如何使数据科学和人工智能在数据密集应用中落地,如何做出开创性的新颖应用等方面都很出彩,欢迎大家关注大会。


SIGKDD在中国


根据裴健教授的介绍,在数据挖掘领域,有一批优秀的华人学者非常活跃,做出了杰出的贡献,如前辈 Jiawei Han 教授和陆宏钧教授,以及现在很活跃的周志华教授、刘兵教授和熊辉教授等,在产业界特别是国内企业,有很多年轻的专家做出了突出的成绩,如百度的沈抖博士、滴滴的叶杰平教授、领英的Shipeng Yu博士等。


作为美国计算机学会 ACM 旗下数据挖掘和知识发现的专业组织,SIGKDD 每年都会主办 KDD 大会,是数据挖掘领域的最高学术会议,每年都吸引2000 多与会者,大部分来自产业界,学术论文的接收比例不超过 20%。


资料显示,2016年的KDD大会共吸引了1115 篇投稿,其中研究专题投稿论文784篇,最终有142篇录用;应用数据科学专题投稿论文331篇,录用66篇。



SIGKDD 2016年1月在中国设置了分会(SIGKDD China) 目前,SIGKDD China 的执行委员会主席为香港科技大学杨强教授,副主席为南京大学的周志华教授,以及百度公司副总裁沈抖。微软研究院郑宇担任秘书长,西南交通大学的李天瑞为财务主管。


数据挖掘是屠龙之术? 很多号称AI公司的企业其实都在干数据挖掘的事情


在查阅背景资料,我们看到网上有这样一种说法:数据挖掘目前在中国的尚未流行开,犹如屠龙之技,现实情况是这样吗?裴健教授说,就他了解的情况,其实数据挖掘在中国到处开花结果。实际上很多号称AI公司的企业都在干数据挖掘和数据科学的事情。大家越来越认识到 AI 应用数据为王。


针对现在数据挖掘行业存在概念混乱的现象,许多局限在报表的展示和简单的统计分析,却也号称是数据挖掘。裴健教授认为,报表是数据挖掘结果的重要展现形式之一,另一个重要展现形式是可视化分析。数据挖掘可以从报表和简单的统计分析出发,关键是逐步挖掘业务需求和潜能,推进数据挖掘的深入应用,在业务中发挥作用,产生越来越大的价值。数据挖掘的关键是能利用越来越多的数据产生越来越大的业务价值。


关于数据挖掘,有人说“沟通能力和兴趣爱好是个人的数据挖掘的核心竞争力”,对于这一观点,裴健在接受新智元的采访时表示:“数据挖掘的核心是对数据和业务的理解能力和对算法的构建能力。沟通能力很重要,是对数据和业务的理解能力的关键,但同时算法的构建能力也很重要。”


研究被引用数量超过7万次,裴健还有一个遗憾


在谷歌学术上,我们查到,裴健教授的研究总共被引用数量超过了7万次,2012年至今的5年间,被引用次数超过3万5千次。在数据挖掘领域可谓有着强大的影响力。


 

在采访中,我们希望裴健教授向我们推荐一篇他认为最满意的论文。谦虚的裴健老师表示,“与其选自己最满意的论文,还不如说自己最常有的遗憾。 ”


他说:“每篇论文发表之后就会留下遗憾,因为总有可以改进的地方。回头看,对自己的每篇论文我都能说出自己的遗憾。与其选自己最满意的论文,还不如说自己最常有的遗憾。 我经常遗憾对一个问题的本质认识不足,忽略了更简洁的算法,对别的领域不够了解,未能借用别的领域已有的技术和方法。”


数据挖掘其实是一个非常跨学科的领域,与众多学科相互促进,共同发展。以人工智能和机器学习为例,可以结合的点非常多。对于这种跨界的合作,裴健教授对新智元介绍说:“我和机器学习的专家合作很多,自己也可以滥竽充数地说懂一点机器学习。我在数据库、数据挖掘、机器学习和信息检索多个领域都做一点,和不同的学者合作,从他们身上学到不同的东西,如不同的思维方式和领域知识,收益非浅。多跟不同的人合作是很有帮助的。”


KDD最新趋势: 深度学习最近的发展很Disruptive


KDD领域近年来向机器学习靠拢的趋势很明显。从大会评选出的最佳论文,以及组织举办的Workshop就能够看出,话题与实际应用结合非常紧密,keynote 演讲里还有专门请投资人从VC视角讲解机器学习。


那么,这算是一个大趋势吗?


裴健教授在接受新智元的专访时表示,机器学习本身就是数据挖掘的一个重要工具,20年前数据挖掘创始的时候的三大主要内容就包括机器学习。机器学习与数据密不可分,数据挖掘是打通从数据到业务的端到端流程。


再具体到深度学习,裴健说:“深度学习最近的发展很 Disruptive。在数据挖掘领域,很多工作用深度学习作为工具。KDD上有很多文章提出了很有趣的问题,然后用深度学习作为工具巧妙地解决了问题。建议感兴趣的读者去浏览一下今年来的KDD论文集。”


聊一聊数据:这样才能获得高效的、优质的“燃料”,确保火箭不会出事?


人工智能的发展很大程度上依赖于数据的获取,有人曾说,如果人工智能是火箭,数据就是燃料,从你在数据挖掘多年的经历来看,怎样才能获得高效的、优质的“燃料”,确保火箭不会出事?现在深度学习领域出现了各种各样的数据集,数据的量非常大,在图像领域就出现了比著名的Imagenet要大很多的数据库,那么,是不是数据永远是越大越好?对于研究者来说,怎样才算是适合的数据?


在“数据”上有着多年研究经验的裴健对新智元介绍说:“一般来说,数据是越多越好。深度学习需要大量的数据来产生可以generalize的模型。在实际应用中,数据往往是有成本的。有很多应用场景不容易获取大量的高质量数据。所以说我们需要针对具体问题,获取合适的数据。在这方面,统计学对数据的采集评价有一系列的方法和原则,值得深入学习。另一个方面,要很好利用大量的数据,通常需要比较复杂的模型,对计算的要求也相应地比较高,所以我们要根据数据量和应用来选择合适的模型。”


提到大数据和好数据,人工智能发展的另一个前沿方向就是能减少数据依赖,实现无监督学习。裴健认为,无监督学习的一个难点在于其没有绝对的评价标准。例如病人可以按病因、症状、并发症、风险等很多方面进行分群。因此,无监督学习的一个难点就是如何形成合适的类别,特别是结合问题的上下文,如常识,去形成合理有意义的类别。


采访的最后,新智元提到,最近“程序员自动化”的讨论比较多,那么在数据发现和挖掘领域,是不是也可以实现“自动化”,由机器来完成数据的挖掘工作?裴健表示,数据挖掘就是致力于数据的挖掘工作自动化。这是我们数据挖掘领域专家正在努力做的。


文章转自新智元公众号,原文链接

相关文章
|
4月前
|
Windows
一枚弃子打破80年黎曼猜想纪录!菲尔兹奖得主MIT大拿联手
【8月更文挑战第2天】菲尔兹奖得主詹姆斯·梅纳德与MIT数学家合作,在arXiv发布关于黎曼猜想的新论文。该猜想关联质数分布,自19世纪起挑战数学界。研究聚焦狄利克雷多项式的特性,证明其值可达N的3/4次方,推进了对黎曼ζ函数的理解。此外,论文提出了零点密度的新估计及质数短区间分布的渐近公式,为密码学等领域带来潜在影响。值得注意的是,这些成果仍待同行评审确认,并非黎曼猜想的最终解答。
81 7
|
7月前
|
人工智能 监控 测试技术
参加《2022 中国开发者影响力盛典》我的 4 重收获!
参加《2022 中国开发者影响力盛典》我的 4 重收获!
|
云栖大会
为什么说不能错过这届云栖大会?我们先给出10个理由
为什么说不能错过这届云栖大会?我们先给出10个理由
|
新能源 Shell
首个室温常压超导掀全球热度,数万人正在围观这个中国团队的复现进度
首个室温常压超导掀全球热度,数万人正在围观这个中国团队的复现进度
|
机器学习/深度学习 人工智能
Science年度十大科学研究公布:韦伯望远镜当选,AIGC陪跑!
Science年度十大科学研究公布:韦伯望远镜当选,AIGC陪跑!
117 0
|
存储 人工智能 分布式计算
想当程序员吗?这11所大学计算机专业堪称国内顶级,高考考生千万不要错过
为大家盘点一下目前国内计算机专业比较好的大学。
320 1
|
人工智能 搜索推荐 物联网
与时间竞赛,OPPO巴展又放大招,跑赢5G大考有几分胜算? 科技风口
专注和智慧,能创造出多大奇迹? 电影世界中,地球流浪了2500年后终于遇见太阳,现实中,科技进化的速度不断刷新,从4G迈向5G时代只用了5年。 日前,2019世界移动大会正在巴塞罗那进行,各种创新和技术碰撞之下,谁会是5G元年最受用户期待的产品?
220 0
与时间竞赛,OPPO巴展又放大招,跑赢5G大考有几分胜算? 科技风口
|
人工智能 大数据 数据库
下周见 | 重量级演讲阵容首曝光 DTCC 2020阿里云议题抢鲜看
12月21日-12月23日,阿里云数据库在DTCC 2020等你~
1195 0
下周见 | 重量级演讲阵容首曝光 DTCC 2020阿里云议题抢鲜看
|
人工智能 安全 物联网
1月15日云栖精选夜读:燃!阿里技术又破世界纪录:机器阅读理解力首次超过人类!
2018年伊始,人工智能取得重大突破!1月11日,由斯坦福大学发起的机器阅读理解领域顶级赛事SQuAD刷新排名,令业界振奋的是人工智能的阅读能力历史上首次超越人类。阿里巴巴凭借82.440的精准率打破了世界纪录,并且超越了人类82.304的成绩。
3226 0
1月15日云栖精选夜读:燃!阿里技术又破世界纪录:机器阅读理解力首次超过人类!
|
新零售 新能源 新金融
【云栖大会】马云:“五新”影响未来所有人,机器比你聪明时不要沮丧
2016杭州·云栖大会于10月13日开幕,大会持续4日,10场峰会,90余场产业与技术论坛。在今天会上,阿里巴巴集团董事局主席马云发表演讲,为大家描绘了对于未来人类社会的愿景和畅想。马云认为,未来有5个“新”的趋势值得关注:新零售、新制造、新金融、新技术、新能源,这五个“新”将会方方面面改变人类。
4479 0