Data Science in China论坛:大牛云集,掀起产学结合新高潮 | KDD 2017

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

北京时间8月16日(美国当地时间8月15日),在加拿大哈利法克斯举行的第23届国际数据挖掘大会(KDD 2017)进入主会议程。KDD China在大会第一天的主会议程中组织“Data Science in China at KDD 2017”的分论坛,集中展现中国在数据挖掘领域的进展和华人在该领域的研究成果,雷锋网作为特约媒体参加论坛并进行了独家报道。

半壁江山,数据挖掘最强华人力量

前一天开幕式上显示的数据表示,在KDD 2017大会上,来自中国的参会者仅次于美国。在开幕式上的颁奖仪式中,不仅裴健教授、杨强教授分获KDD创新奖和KDD杰出服务奖两项分量最重的大奖,中国队伍还几乎包揽了KDD CUP两个竞赛题目的前十名。此外大会的“与大咖面对面”的现场交流活动中,五位嘉宾有三位是华人,大会的开场Keynote也由UC Berkeley的Bing Yu教授演讲,雷锋网再次感受到了数据挖掘领域崛起的华人力量。

在大会颁发的资料中,雷锋网还发现了这样一个有趣的统计:Microsoft Research对近5年KDD高影响力作者进行了一个评估,如下图所示,其中泡泡大小代表发表文章的数量,纵轴反映了论文作者在KDD发表的每篇文章引用数排名(代表文章的质量),横轴是把不同作者论文的引用关系连城一个异构网络,再用类似pagerank的方法计算每个作者的影响力,越靠近右上角排名越高。从图中我们可以看到多位华人学者名字,占到了图中高影响力作者的半壁江山。

Data Science in China论坛:大牛云集,掀起产学结合新高潮 | KDD 2017

(来源:大会资料 & Microsoft Research)

大牛云集:八位演讲嘉宾,37万引用

“Data Science in China at KDD 2017”论坛由China Chapter of ACM SIGKDD(KDD China)承办。KDD China秘书长郑宇表示,这是KDD大会上连续第三年举办中国主题的分论坛。论坛邀请了八位来自数据挖掘领域杰出的华人教授、科学家以及工业界精英进行了精彩的报告,ACM数据挖掘领域的三位Fellow韩家炜教授(2003)、刘兵教授(2015)、裴健教授(2015)也来到现场,其中刘兵教授主持了第一个议程,裴健教授进行了报告。

在微软亚洲研究院主任研究员、KDD China 秘书长郑宇博士的主持下,分论坛在下午1:30开始。杨强教授致开幕词并回顾了KDD在中国的发展历史。他说,AI在中国和数据库在中国都是热门领域,但KDD相对来说知道的人却没有那么多。回想1989年 KDD第一次在中国开workshop到现在,有很多先行者为KDD在中国的发展做出了贡献。现在KDD China已拥有800名会员,在KDD上也展示了自己的力量,与包括郑宇、周志华等在内的KDD China管理团队努力分不开。杨强教授同样对两位SIGKDD华人主席刘兵、裴健以及KDD 2017大会主席俞诗鹏对KDD China工作以及本次分论坛召开的支持表示了感谢。

随后的论坛分两个议程进行。第一个议程由刘兵教授主持,杨强教授首先做了《Feature Engineering and Transfer Learning》(特征工程与迁移学习)的报告。杨强教授介绍,特征工程就是一个把原始数据转变成特征的过程,在典型的数据挖掘过程中,特征工程是选择数据之后的第二步,处于承上启下的重要位置。杨强教授指出,特征比模型更为重要,因为特征对于模型来说是中性的,这也是迁移学习的基础。杨强教授还详细介绍了将迁移学习与机器学习结合的应用,如将用户微信小额交易数据挖掘用于购车等大额消费的例子,在演讲最后的“Big Data is useless unless it can deliver big feature space”的总结也得到了随后多位演讲者的赞同。

Data Science in China论坛:大牛云集,掀起产学结合新高潮 | KDD 2017

(香港科技大学杨强教授)

随后来自罗格斯-新泽西州立大学的熊辉教授带来了题目为“Talent Analytics:Prospects and Opptunities”的报告,介绍了数据挖掘在在人力资源及企业管理的应用,包括:利用数据对人才进行评价和意愿分析,以辅助升职考核、招聘等流程。熊辉教授称,企业人力资源的数据挖掘有三个层次,包括人、企业与文化层面,目前的主要研究工作集中在人的层面,下一阶段会继续对企业及文化层面进行研究。


Data Science in China论坛:大牛云集,掀起产学结合新高潮 | KDD 2017

(罗格斯-新泽西州立大学熊辉教授)

来自微软亚洲研究院主任研究员郑宇博士的报告题目为《Urban Computing——Urban Big Data Platfrom》。在报告中郑宇博士介绍了城市计算机城市大数据平台在市政规划工程中的应用,由于城市大数据存在大规模和变化性的特征,需要基于云的城市大数据平台进行处理,通过不断获取、整合和分析城市中多种异构大数据来解决城市所面临的挑战,通过人工智能来帮助改善公共交通。在报告中,郑教授还通过如流量预测、与贵阳市政府的合作、与基于共享自行车的自行车道规划及车辆管理等实际工作进行了详细介绍。

Data Science in China论坛:大牛云集,掀起产学结合新高潮 | KDD 2017

(微软亚洲研究院主任研究员郑宇博士)

论坛议程二由UCLA的王薇教授主持。今日头条科学家李磊博士介绍了今日头条的新闻机器人、写稿机器人等实际应用及在深度综合、语言生成、语言建模、深度学习QA系统CFO、面部识别方面的研究工作。

Data Science in China论坛:大牛云集,掀起产学结合新高潮 | KDD 2017

(今日头条科学家李磊博士)

滴滴研究院副院长叶杰平的演讲题目为《Intelligent Dispatch System》。叶杰平称,滴滴的核心是一个交易平台,匹配是滴滴业务中的关键问题,并介绍了滴滴在用户与司机的匹配从群发信息、定向推送、精确匹配的三个阶段,利用机器学习提高ETA准确率和预测目的地、推荐上车点等两个创新,以及大数据预测司机服务分值、提升用户体验等实践。

Data Science in China论坛:大牛云集,掀起产学结合新高潮 | KDD 2017

(滴滴研究院副院长叶杰平)

随后西蒙弗雷泽大学裴健教授带来了《Data Science & AI in China industry:some personal experience》的报告。报告从人工智能产业化以及将人工智能应用到传统行业出发,探讨如何解决供应链、制造业等等传统行业数据无法自动收集、复杂和非标准化的应用场景、技术问题难以转化成典型的AI问题等挑战,并结合了裴健教授与华为的合作为例进行详细介绍,包括基于华为内部供应链端到端优化,实现智慧化模型、风险控制、热线客服等,希望用AI改变整个生产流程等实践,并分享了作为学术研究者在最近一年来与华为合作的收获。另外,裴健教授也是本届KDD大会创新奖(2017 ACM SIGKDD Innovation Award)的获得者。

Data Science in China论坛:大牛云集,掀起产学结合新高潮 | KDD 2017

(西蒙弗雷泽大学裴健教授)

清华大学的唐杰博士介绍了AI和深度学习在慕课(MOOCs)教育中的应用。值得一提的是,KDD Cup 2015的竞赛题目“用大数据预测MOOCer是否会‘翘课’”就出自唐杰博士之手,这一报告也是其后续的相关研究,并展示了通过小木机器人做慕课助教与学员进行智能交互改善学习,以及利用LadFG提升预测准确率,提升慕课教育效果的实践。

Data Science in China论坛:大牛云集,掀起产学结合新高潮 | KDD 2017

(清华大学唐杰博士)

同样来自清华大学的崔鹏博士则带来了社会动力学中的建模问题的分享。由于人的行为机理的复杂性以及动态性,而传统机器学习方式类似黑盒,难以将社会动力学研究特征化,也难以做持续的预测,通过物理学模型及数据驱动相结合,已经可以构建一个关键统计指标和真实社交网络基本一致的社交网络,可以对社交网络信息传播进行准确的预测。

Data Science in China论坛:大牛云集,掀起产学结合新高潮 | KDD 2017

(清华大学崔鹏博士)

在第一个议程结束后,会议组织者与报告嘉宾合影留念。这张合影可谓珍贵:组织者和嘉宾中包含两位SIGKDD主席(刘兵@2013,裴健@2017)、两位KDD大会主席(杨强@2012,俞诗鹏@2017),六位KDD大会PC Chair(韩家炜@1996,刘兵@2008,杨强@2010,裴健@2012,王薇@2014,熊伟@2018),两位KDD创新奖获得者(韩家炜@2004,裴健@2017),三位KDD杰出服务奖获得者(裴健@2015,王薇@2016,杨强@2017) ,论文引用总数超过37万,可谓汇聚了华人数据挖掘领域的中坚力量。

Data Science in China论坛:大牛云集,掀起产学结合新高潮 | KDD 2017

照片后排左起: 清华大学副教授崔鹏、微软亚洲研究院主任研究员、KDD China秘书长郑宇、美国罗格斯-新泽西州立大学教授熊辉、美国亚利桑那州立大学教授刘欢、滴滴研究院副院长叶杰平、KDD 2017大会主席俞诗鹏、今日头条实验室科学家李磊、清华大学副教授唐杰;

前排左起:美国伊利诺伊大学芝加哥分校教授、SIGKDD前主席刘兵、美国伊利诺伊大学香槟分校教授韩家炜、香港科技大学教授、KDD China主席杨强、加拿大西蒙弗雷泽大学教授、SIGKDD现任主席裴健。

(雷锋网(公众号:雷锋网)注:本次分论坛议程二的主持人,UCLA教授、本次KDD大会创新奖与KDD杰出服务奖提名主席、KDD 2016杰出服务奖得主王薇,因为在大会还有其他事务,在拍照后才赶到,因而不在本照片中)

大数据需要更多产学合作

随着大数据的不断积累以及计算能力的快速发展,与其相关的人工智能研究也得到了快速的发展。如同杨强教授在本次论坛上所言,数据挖掘的核心在于“挖掘”而非“数据”,在数据量暴增的同时,与之对应的数据选择、算法、特征工程也更重要,掌握学术前言趋势的学术界与掌握大量数据的产业界需要更紧密合作,推动数据挖掘与人工智能的发展。

雷锋网了解到,在诸多学术会议中,KDD属于学术与产业相结合较为紧密的会议之一。在本次分论坛上,多位嘉宾的报告内容均与产业紧密结合,让我们得以了解了学术界与产业界就大数据与人工智能话题技术的交流动向,以及大数据和人工智能的最新先锋应用。祝愿通过本次论坛的召开能够扩大华人在国际数据挖掘领域的影响力,推动国内数据挖掘领域的研究和在工业界的应用和发展。

本文作者:岑大师

本文转自雷锋网禁止二次转载,原文链接

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
安全 物联网 大数据
北京云栖 TECH INSIGHT 邀您赴一场技术盛宴!
Tech Insight 是专门针对开发者、架构师,以及产品技术管理人员的“实战”技术之旅。5场分论坛,2场Workshop,1场MVP Demo Show。 您将与现场上百位技术从业者进行深度交流,更可以进行现场实践。
3086 0
|
存储 人工智能 运维
浪潮受邀参加 OpenInfra Days China 2022 并发表演讲
浪潮受邀参加 OpenInfra Days China 2022 并发表演讲
332 0
|
机器学习/深度学习 人工智能 算法
|
边缘计算 运维 Cloud Native
华为受邀参加 OpenInfra Days China 2022 并发表演讲
华为受邀参加 OpenInfra Days China 2022 并发表演讲
286 0
|
算法 大数据 Python
2016中国高校计算机大赛——大数据挑战赛极客奖:data_coders团队
2016中国高校计算机大赛大数据挑战赛上,data_coders团队对阿里音乐流行趋势预测进行了自己的阐述理解。首先对赛题进行了分析,确定解题思路,重点对算法进行了说明,包括类别分析、特征提取和算法模型,最后做了简要的总结。一起来欣赏下。
3820 0
|
机器学习/深度学习 编解码 网络协议
创历届最好成绩 阿里云6篇论文入选全球网络顶会SIGCOMM2022
8月29日消息,国际权威网络顶会SIGCOMM2022近日在荷兰举行,55篇顶级学术成果出炉,阿里云共计有6篇高质量论文被主会收录,占总数10%以上,创下了国内历届参会企业的最好成绩,同时力压谷歌、微软等巨头,成为本届入选论文最多的科技公司。入选的论文包括阿里云自研的下一代高性能RDMA网络协议Solar、端网融合可预期数据中心网络架构、可编程网络稳定性保障系统等。
335 0

热门文章

最新文章