我是如何收获了数据挖掘的人生?

简介:   [大数据日100分] 主讲人:熊辉 主持人:赵国栋 承办:中关村大数据产业联盟 [主讲嘉宾介绍] 熊辉 美国罗格斯—新泽西州立大学罗格斯商学院管理科学与信息系统系副系主任,终身教授。主要研究领域包括:数据挖掘、大数据、商务智能、移动计算,和信息安全。
0.jpg


 

[大数据日100分]

主讲人:熊辉

主持人:赵国栋

承办:中关村大数据产业联盟

[主讲嘉宾介绍]

熊辉

美国罗格斯—新泽西州立大学罗格斯商学院管理科学与信息系统系副系主任,终身教授。主要研究领域包括:数据挖掘、大数据、商务智能、移动计算,和信息安全。获得2009罗格斯大学最高学术奖。还应邀连续参与组织国际顶级会议(如KDD, ICDM,ICML,ICDE和SDM),并担任国际会议组织委员会委员/主席。他目前还担任IEEE Transactions on Knowledge and Data Engineering (TKDE)和Knowledge and Information Systems(KAIS)副编辑,中国计算机学会通讯专栏编委,和中国计算机学会大数据专委。

 

以下为分享实录全文:

我的背景比较特殊,我是计算机系的博士,也是在美国第一个从计算机系博士毕业直接拿到商学院教职的中国人。因为大数据应用的成败依赖于技术和领域两方面的能力,我有机会处在一个比较独特的位置就计算机技术和商业应用的结合,谈一点我个人对大数据粗浅的认识。

 

1995年,我本科毕业的时候,正逢深圳下海创业大潮, 就去了深圳。工作半年后,第一次感觉到人生的苦闷彷徨。于是大量阅读中国历史,哲学,兵书。开始重新思考人生的发展方向。当时给自己定的未来职业必须满足三个要求:

1)是自己真正感兴趣的职业; 2)个人价值会随着年龄而增长; 3) 不论国家经济的兴衰,职业都必须有很高的安全保障。

 

当时正好数据挖掘概念出来,并幸运的了解到这个概念。马上有种说不出来的亲切的感觉,数据挖掘就应该是自己的终身职业。数据挖掘这个职业就满足自己定的三个要求。

 

首先,我对历史,兵书,算命感兴趣。数据挖掘做的事情就是从历史预测未来,从不确定性中寻求确定性,从复杂多变的事物中寻找规律。这些都是自己平常兴趣所在。

 

其次,个人体会,从事数据挖掘实践多了,人会变得更聪明,判断会更准确。经验积累多了,个人价值自然会随着年龄的增长而提升。比如,我现在的咨询费就比2005年高了许多,因为更有经验,做事更高效。(编者注:熊老师本科学的自动化专业)

 

最后,因为整个人类社会的发展越来越依赖信息技术,对数据挖掘专业人才的需求只会越来越大。同时,数据挖掘这个专业对人才的全面性要求很高,数据挖掘人才需要有很强的领域知识和技术知识。中国教育的学科划分,客观导致培养出来的人才很难跨界。换句话说,要想做好这个行业,门槛是很高的。所以,优秀的数据挖掘人才职业保障性是很高的。其实在古代就有很多数据挖掘的高手,像刘伯温,赵列文等。

 

数据挖掘这个概念地提出就是要解决海量数据的分析问题。那么,现在为什么提出新的大数据概念?其根本原因是数据驱动性应用的井喷式发展并产生很多新的应用要求。现在很多的应用,比如高频数据交易和网络社交媒体,产生的数据不但量大,而且处于不断动态变化过程中。打个比方,以前我们是在清晰的小溪中捕鱼,现在我们是在湍急浑浊的长江中捕鱼。解决这些新型大数据应用需要我们有及时观察,及时分析,和及时解决问题的能力。

 

数据挖掘这个职业特别象医生。来自不同领域的具有不同特性的数据就象医生所面对具有不同病症的病人。和医生一样,数据挖掘人才必须要从实践中成长。实际上,我的科研总是和实践紧密结合,我的很多科研问题都是从实践中产生的。谈几点体会:

1) 最难的是问题提炼,换句话说,怎么从一个实际应用场景发现一个有价值的问题。这需要很强的领域知识,要能够深入到商业流程中去发现商业的痛点,并有能力把实际的商业痛点抽取成一个数学问题。举个例子,我们给一个美国500强大企业做B2B市场分析,其目的就是要发现有价值新客户,挖掘现有客户,并缩短签合同的时间。这些是真正的商业需求,但如何转化成数据挖掘问题?因为现在全新的,微观化的数据收集手段,我们有机会对人,整个商业流程进行细节化的观察,并加以分解,可以找到不efficient环节,把不efficient变efficient了,整个商业流程更高效。

 

2) 对于多数数据挖掘项目, 最花时间和精力的是Feature Engineering。很多预测项目的成败不在乎模型,在乎提取合适的特征。在很多情况下,特征提取要求对领域充分了解。像医生看病一样,有很多经验的东西在这里。我通常做项目有70-80%的时间在了解数据,进行数据预处理

 

3)Instance Selection在很多情况下至关重要,数据不是越多越好,是合适的数据越多越好。很多数据本身不是噪声,但和我们要分析的问题不是很相关,在这种情况下需要做合理的数据裁剪。其实,说到大数据的“大”字有不少误解。大是个相对的概念,有很多应用,只是单位时间内要处理的数据量超过了现有的计算能力。比如说,高频交易,我们可能需要在一毫秒处理1M的数据。1M并不大,但问题是时间要求realtime。

 

4)在建模之前还需要了解数据的特性,比如噪声度,稀疏度,和数据的分布。这就象医生在选取治疗手段之前必须要了解病人的病症。

 

最后,我想说的是,人生就是个数据挖掘过程。人整个的一生由几个关键点组成,在每个关键点,我们都需要根据自己掌握的信息进行决策。

 

互动内容:

Q1:数据去伪存真,在数据挖掘中是不是工作占比很高?经验是不是分析能力的决定因素?

A:这个问题好。我们现在各行各业都在拼命收集数据,很多的是垃圾数据,现在数据的单位价值密度在不断下降。数据挖掘就象医生给病人看病,SAS的病人和普通感冒的病人有很多共同病症,我们的任务是要找出可以帮助我们区分的特征。

关于未来,我提出一个概念叫做信息阶级论。因为大数据意识和数据挖掘技术的普及,会造成人类社会更大的信息不对称。未来阶层(贫富差距)很大一部分因素是因为对信息资源掌握的不同造成的。在很多领域,对信息资源的掌握可以造成高维打低维的局面。就好象有武器代差的二战,勇敢的波兰骑兵对德国坦克集群,会是简单的屠杀。

 

Q2:怎么鉴别什么数据是真数据什么数据是伪数据呢? By 刘东华

A:和具体应用相关,比如,做具体的市场预测问题,你可能有很多数据,来源不同,质量不同,我的经验是,当数据量充分的时候,质量不高的数据宁可舍弃不用。

 

Q3:在中国,传统制造企业占比很高,也是重要经济支柱,数据挖掘对传统制造业会有什么大的价值牵引?熊老师有什么好的建议? By 邢艳凯:

A:人类整个的历史发展都在追求标准化,标准化可以提高生产效率,对传统制造业供应链管理是数据挖掘可以大力帮助的领域。题外化,人类在追求标准化,任何被标准化的行业都被夕阳化,工作机会就会减少

@邢艳凯:认同熊老师的观点,中国制造业最缺乏的就是标准!

@柚子:还有经济预测领域

A:经济预测是个好例子,表面看很多数据都可以用来预测经济,但对中国的数据,可能只有发电量,钢产量,铁路运输等少量指标是质量可靠的数据,所以用克强指数看经济更靠谱。

大数据的发展还带来了人类解决问题方式的重心转移。东方长期以归纳法为见长,也就是一种BOTTOM-UP的解决问题方式,西方长期以演绎推理见长,是一种TOP-DOWN的方式。在近代至现代,演绎推理占了上风,所以西方文明高度发展。但是数据驱动解决问题方式的产生,让归纳法思维又有机会走在前面。

 

Q4: 国内哪些组织在数据挖掘方面比较强? By赵国栋

A:数据挖掘充满dynamics,目前中国的暴富机会还是比美国多不少,随着以后制度越来越完善,中国的暴富机会越来越少。很多的暴富都是因为信息不对称造成的。中国现阶段存在很多制度性信息不对称,每一次制度的制定或变化,都催生出一批暴富的点子和机会。美国更多是技术性信息不对称,就是通过数据挖掘的手段形成信息不对称,从而在竞争中产生势能差,可以形成以绝对优势打击绝对劣势的局面。当然,中国在朝技术性信息不对称大步前进。

因为信息平台和信息意识的城乡差别,农村的孩子在信息化这块被甩开大了,在竞争中的劣势越来越大,最可怕的是农村的信息意识完全没跟上。所以未来的阶层客观上会是由于对信息资源的掌握不同而造成的。所以,在教育层面应该努力缩小城乡的信息鸿沟。

未来社会的发展趋势在加快,财富轮转速度在加快,从富到贫,从贫到富,从弱到强,从强到弱都比以前更快速转化。会是一种螺旋式上升,后面新城代谢越来越加速,hold不住的都会被甩出去。富过三代的一定要培养好的家族信息制度。

评论:现在是企业信息重置的时代,挖掘运营数据水平的高低将拉开企业的差距,而且一旦有了大哥,可能就会变成独生子!By 邢艳凯:

 

Q5:请问美国用大数据进行投资分析领域都有哪些模式?如果是您,您会重点在哪些领域进行数据挖掘?By 雨醉天堂

A: 因为未来是无线网的时代,所以看好基于无线网的应用,比如,室内导航,V2V车联网,智能家居

 

Q6: 哪些公司或者组织在数据挖掘领域走的比较靠前?中国的.  By 赵国栋

A:按照美国的规律,拥有数据的,又有经济实力的公司会孕育大批数据挖掘人才. 美国是FLAGM+咨询公司+金融公司有大批数据挖掘人才. 不过美国很多新的startup都是数据驱动的。

 

Q7: 对中关村数据产业联盟的建议 By 赵国栋

A:联盟建成四大库:智库,案例库,问题库,数据库,并形成共享,利益共享的机制,就可以长治久安

 

Q8: 谁能做好中国食品安全领域的,预测工作,如何做? By:林春雨

A:要依靠大众力量。食品安全领域,随着手机终端智能化,未来可以靠老百姓收集水的质量,食品的质量,所以制造相应传感器,和简单测试方法,并形成群众化收集手段是关键


原文发布时间为:2014-03-29


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
机器学习/深度学习 算法 数据可视化
数据挖掘(1)--基础知识学习
数据挖掘(Data Mining,DM)是知识发现(KDD)最核心的部分。 数据挖掘数学理论基础的发展,与统计学的发展密不可分。
58 0
|
10月前
|
存储 数据挖掘 Python
关于数据挖掘的问题之经典案例
关于数据挖掘的问题之经典案例
118 0
|
机器学习/深度学习 SQL 自然语言处理
自学机器学习、数据挖掘的几点建议
自学机器学习、数据挖掘的几点建议
106 0
|
机器学习/深度学习 存储 数据采集
7 种常用的数据挖掘技术分享
7 种常用的数据挖掘技术分享
228 0
7 种常用的数据挖掘技术分享
|
机器学习/深度学习 SQL 数据采集
数据分析理论与实践 | 青训营笔记
埋点:埋点数据是指上报的记录着触发原因和状态信息的日志数据。按照上报方来看,可以划分为"服务端埋点”和"客户端埋点”,按照上报形式,可以划分为"代码埋点”、“可视化全埋点” 。
142 0
数据分析理论与实践 | 青训营笔记
|
人工智能 算法 数据挖掘
数据分析思维课
这是一个数据分析入门的课程,这是一门有趣的课程,这是一个培养你数据思维的课程。
408 0
数据分析思维课
|
大数据 数据挖掘 前端开发
【经验】零基础该如何入门数据挖掘?
在天池创立之初,我们的使命就是:让无法触及大数据的人能够触及到真正企业级的大数据。秉承着这样的理念,我们在天池平台上培养和锻炼了一批又一批的大数据人才。
1773 0