【经验】零基础该如何入门数据挖掘?

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 在天池创立之初,我们的使命就是:让无法触及大数据的人能够触及到真正企业级的大数据。秉承着这样的理念,我们在天池平台上培养和锻炼了一批又一批的大数据人才。

小天说

在天池创立之初,我们的使命就是:让无法触及大数据的人能够触及到真正企业级的大数据。秉承着这样的理念,我们在天池平台上培养和锻炼了一批又一批的大数据人才。现在,除了高校学子,越来越多的创业者和数据爱好者也加入了我们的队伍,本文的作者鲁军(队名:啊速度快了几分)就是这样的例子,在创业公司任职前端工程师的他,由天池开始走上了大数据之路。


//初识//

我是一名在Web前端工程师(程序猿),一直在html, css, javascript的世界中探索。因为公司一直在使用阿里云的产品,所以每天都会去阿里云网站处理业务,某天在阿里云的官网上看到天池的比赛,第一感觉太Cool了,太神奇了,原来大数据还可以这样玩儿,复杂的业务场景被抽象成所有人可以看得懂的题目,通过简单的规则可以拿到结果,大数据看起来高大上,实则是人人可以参与的,每个人都能为其贡献智慧,这才是属于我们的大数据啊。不要被《黑客帝国》给搞蒙圈了,大数据才不是蓝色屏幕加黑色文字不断跑马灯。

//开始上路//

对于零基础的我来说,新手上路可不那么好玩儿,当我把数据下载导入到电脑中执行一个count命令的时候,彻底蒙圈了。纳尼2300W条数据,执行一个简单的查询,电脑都快罢工了。这一定是我的打开方式不对,赶紧找“谷哥“ 问“度娘“,看天池论坛的新手入门贴。毫无疑问我就是这样干的,而且确实有效,特别是天池论坛为零基础的同学准备的视频,图文教程让我受益匪浅,在我还没有被海量数据蹂躏得体无完肤的时候,就可以拿到一点点成绩,获得不小的成就感。

//初次提交结果//

第一次计算并没有高大上的算法和公式,简单计算出了2W多条记录作为提交的结果,但当我拿到成绩时,马上就兴奋了,就像是当年用javascript在浏览器中第一次打印出"hell world"的感觉,被这个世界认可了,并且给我了不全是0的成绩(准确率0.004%,不要笑我太差)作为反馈。当天晚上兴奋得一直写代码到2点才睡觉,第二天又早早的起床准备计算提交新的计算结果。在后面的几天几乎疯狂了,每天一下班就马上会投入到数据计算中,不断的寻找突破点,感觉时间过得飞快。 这样在每天在固定的工作时间之外,又多了一件让我兴奋的事情。

让我兴奋的不仅是成绩的上升,更主要的是在不断探索的时候发现的新奇事物。慢慢的了解一个未知的领域,知道大数据是未来的趋势,现在又迈出了第一步,必然会让我在未来的工作中更具备竞争力。

//成绩无法提高?//

最容易给你造成挫折的地方就是成绩一直上不去(当然我不是顶尖选手,所遭遇难度远小于那些冠军先手),对于所有人来说成绩上不去都再正常不过,提高这是一个渐进的过程。论坛中那些前辈们的帖子早有指点,在正式比赛中大神们都经常被蹂躏,1周、2周都毫无进展。所以放宽心态才重要,大神亦是如此,我等凡人何必揪心,而且我坚信只要再多尝试一次,多花一些精力总能提高我的成绩。有一颗无坚不摧的内心才够强大。我们可以设定一个要拿第一名的目标,也需要忘记目标脚踏实地的努力,我是这样安慰自己的。而且对于零基础的同学来说,一边参与新人赛,一边学习数据挖掘的入门知识才能更我们走得更远。

//收获//

真正参与到数据挖掘中来的时候,那些平时看起来死板的数据,也会变得友好。比如计算用户浏览次数对第二天的购买率就会发现存在一定规律,同理“收藏“,“加入购物车“等行为同样对购买率也有影响,当把这些数据全部展开做成一个图表的时候,普通的业务数据马上让我茅塞顿开,用户的微观行为被宏观的表达了,只有对数据的深入分析,才能获得这样确切的结果。这样的数字对业务、产品决策一定有帮助,估计这就是工程师关心业务的最有效方法,有了这样的实践,指不定什么时候这些方法就会被引入到我们的工作流当中来,帮助自己的业务发展。

最后感谢天池,给了所有数据爱好者一个提升自己的机会,让大数据小菜鸟能够在此振翅翱翔!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
机器学习/深度学习 存储 传感器
【机器学习入门与实践】合集入门必看系列,含数据挖掘项目实战
【机器学习入门与实践】合集入门必看系列,含数据挖掘项目实战
|
机器学习/深度学习 数据可视化 算法
【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等)
【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等)
|
机器学习/深度学习 数据挖掘 TensorFlow
数据挖掘从入门到放弃(七):TensorFlow 和 keras 实现线性回归 LinearRegression
数据挖掘从入门到放弃(七):TensorFlow 和 keras 实现线性回归 LinearRegression
211 0
|
机器学习/深度学习 算法 数据挖掘
数据挖掘从入门到放弃(六):K-means 聚类
数据挖掘从入门到放弃(六):K-means 聚类
132 0
|
机器学习/深度学习 数据可视化 数据挖掘
数据挖掘从入门到放弃(五)seaborn 的数据可视化
数据挖掘从入门到放弃(五)seaborn 的数据可视化
248 0
|
存储 算法 数据挖掘
数据挖掘从入门到放弃(四):手撕(绘)关联规则挖掘算法
数据挖掘从入门到放弃(四):手撕(绘)关联规则挖掘算法
179 0
|
机器学习/深度学习 算法 数据挖掘
数据挖掘从入门到放弃(三):朴素贝叶斯
数据挖掘从入门到放弃(三):朴素贝叶斯
205 0
|
机器学习/深度学习 算法 数据挖掘
数据挖掘从入门到放弃(二):决策树
数据挖掘从入门到放弃(二):决策树
157 0
|
机器学习/深度学习 自然语言处理 算法
数据挖掘从入门到放弃(一):线性回归和逻辑回归
数据挖掘从入门到放弃(一):线性回归和逻辑回归
196 0

热门文章

最新文章

下一篇
开通oss服务