【经验】零基础该如何入门数据挖掘?-阿里云开发者社区

开发者社区> 天池大数据科研平台> 正文

【经验】零基础该如何入门数据挖掘?

简介: 在天池创立之初,我们的使命就是:让无法触及大数据的人能够触及到真正企业级的大数据。秉承着这样的理念,我们在天池平台上培养和锻炼了一批又一批的大数据人才。

小天说

在天池创立之初,我们的使命就是:让无法触及大数据的人能够触及到真正企业级的大数据。秉承着这样的理念,我们在天池平台上培养和锻炼了一批又一批的大数据人才。现在,除了高校学子,越来越多的创业者和数据爱好者也加入了我们的队伍,本文的作者鲁军(队名:啊速度快了几分)就是这样的例子,在创业公司任职前端工程师的他,由天池开始走上了大数据之路。


//初识//

我是一名在Web前端工程师(程序猿),一直在html, css, javascript的世界中探索。因为公司一直在使用阿里云的产品,所以每天都会去阿里云网站处理业务,某天在阿里云的官网上看到天池的比赛,第一感觉太Cool了,太神奇了,原来大数据还可以这样玩儿,复杂的业务场景被抽象成所有人可以看得懂的题目,通过简单的规则可以拿到结果,大数据看起来高大上,实则是人人可以参与的,每个人都能为其贡献智慧,这才是属于我们的大数据啊。不要被《黑客帝国》给搞蒙圈了,大数据才不是蓝色屏幕加黑色文字不断跑马灯。

//开始上路//

对于零基础的我来说,新手上路可不那么好玩儿,当我把数据下载导入到电脑中执行一个count命令的时候,彻底蒙圈了。纳尼2300W条数据,执行一个简单的查询,电脑都快罢工了。这一定是我的打开方式不对,赶紧找“谷哥“ 问“度娘“,看天池论坛的新手入门贴。毫无疑问我就是这样干的,而且确实有效,特别是天池论坛为零基础的同学准备的视频,图文教程让我受益匪浅,在我还没有被海量数据蹂躏得体无完肤的时候,就可以拿到一点点成绩,获得不小的成就感。

//初次提交结果//

第一次计算并没有高大上的算法和公式,简单计算出了2W多条记录作为提交的结果,但当我拿到成绩时,马上就兴奋了,就像是当年用javascript在浏览器中第一次打印出"hell world"的感觉,被这个世界认可了,并且给我了不全是0的成绩(准确率0.004%,不要笑我太差)作为反馈。当天晚上兴奋得一直写代码到2点才睡觉,第二天又早早的起床准备计算提交新的计算结果。在后面的几天几乎疯狂了,每天一下班就马上会投入到数据计算中,不断的寻找突破点,感觉时间过得飞快。 这样在每天在固定的工作时间之外,又多了一件让我兴奋的事情。

让我兴奋的不仅是成绩的上升,更主要的是在不断探索的时候发现的新奇事物。慢慢的了解一个未知的领域,知道大数据是未来的趋势,现在又迈出了第一步,必然会让我在未来的工作中更具备竞争力。

//成绩无法提高?//

最容易给你造成挫折的地方就是成绩一直上不去(当然我不是顶尖选手,所遭遇难度远小于那些冠军先手),对于所有人来说成绩上不去都再正常不过,提高这是一个渐进的过程。论坛中那些前辈们的帖子早有指点,在正式比赛中大神们都经常被蹂躏,1周、2周都毫无进展。所以放宽心态才重要,大神亦是如此,我等凡人何必揪心,而且我坚信只要再多尝试一次,多花一些精力总能提高我的成绩。有一颗无坚不摧的内心才够强大。我们可以设定一个要拿第一名的目标,也需要忘记目标脚踏实地的努力,我是这样安慰自己的。而且对于零基础的同学来说,一边参与新人赛,一边学习数据挖掘的入门知识才能更我们走得更远。

//收获//

真正参与到数据挖掘中来的时候,那些平时看起来死板的数据,也会变得友好。比如计算用户浏览次数对第二天的购买率就会发现存在一定规律,同理“收藏“,“加入购物车“等行为同样对购买率也有影响,当把这些数据全部展开做成一个图表的时候,普通的业务数据马上让我茅塞顿开,用户的微观行为被宏观的表达了,只有对数据的深入分析,才能获得这样确切的结果。这样的数字对业务、产品决策一定有帮助,估计这就是工程师关心业务的最有效方法,有了这样的实践,指不定什么时候这些方法就会被引入到我们的工作流当中来,帮助自己的业务发展。

最后感谢天池,给了所有数据爱好者一个提升自己的机会,让大数据小菜鸟能够在此振翅翱翔!

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
天池大数据科研平台
使用钉钉扫一扫加入圈子
+ 订阅

于阿里云的开放数据处理服务ODPS

官方博客
官网链接