【经验】零基础该如何入门数据挖掘?

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 在天池创立之初,我们的使命就是:让无法触及大数据的人能够触及到真正企业级的大数据。秉承着这样的理念,我们在天池平台上培养和锻炼了一批又一批的大数据人才。
+关注继续查看

小天说

在天池创立之初,我们的使命就是:让无法触及大数据的人能够触及到真正企业级的大数据。秉承着这样的理念,我们在天池平台上培养和锻炼了一批又一批的大数据人才。现在,除了高校学子,越来越多的创业者和数据爱好者也加入了我们的队伍,本文的作者鲁军(队名:啊速度快了几分)就是这样的例子,在创业公司任职前端工程师的他,由天池开始走上了大数据之路。


//初识//

我是一名在Web前端工程师(程序猿),一直在html, css, javascript的世界中探索。因为公司一直在使用阿里云的产品,所以每天都会去阿里云网站处理业务,某天在阿里云的官网上看到天池的比赛,第一感觉太Cool了,太神奇了,原来大数据还可以这样玩儿,复杂的业务场景被抽象成所有人可以看得懂的题目,通过简单的规则可以拿到结果,大数据看起来高大上,实则是人人可以参与的,每个人都能为其贡献智慧,这才是属于我们的大数据啊。不要被《黑客帝国》给搞蒙圈了,大数据才不是蓝色屏幕加黑色文字不断跑马灯。

//开始上路//

对于零基础的我来说,新手上路可不那么好玩儿,当我把数据下载导入到电脑中执行一个count命令的时候,彻底蒙圈了。纳尼2300W条数据,执行一个简单的查询,电脑都快罢工了。这一定是我的打开方式不对,赶紧找“谷哥“ 问“度娘“,看天池论坛的新手入门贴。毫无疑问我就是这样干的,而且确实有效,特别是天池论坛为零基础的同学准备的视频,图文教程让我受益匪浅,在我还没有被海量数据蹂躏得体无完肤的时候,就可以拿到一点点成绩,获得不小的成就感。

//初次提交结果//

第一次计算并没有高大上的算法和公式,简单计算出了2W多条记录作为提交的结果,但当我拿到成绩时,马上就兴奋了,就像是当年用javascript在浏览器中第一次打印出"hell world"的感觉,被这个世界认可了,并且给我了不全是0的成绩(准确率0.004%,不要笑我太差)作为反馈。当天晚上兴奋得一直写代码到2点才睡觉,第二天又早早的起床准备计算提交新的计算结果。在后面的几天几乎疯狂了,每天一下班就马上会投入到数据计算中,不断的寻找突破点,感觉时间过得飞快。 这样在每天在固定的工作时间之外,又多了一件让我兴奋的事情。

让我兴奋的不仅是成绩的上升,更主要的是在不断探索的时候发现的新奇事物。慢慢的了解一个未知的领域,知道大数据是未来的趋势,现在又迈出了第一步,必然会让我在未来的工作中更具备竞争力。

//成绩无法提高?//

最容易给你造成挫折的地方就是成绩一直上不去(当然我不是顶尖选手,所遭遇难度远小于那些冠军先手),对于所有人来说成绩上不去都再正常不过,提高这是一个渐进的过程。论坛中那些前辈们的帖子早有指点,在正式比赛中大神们都经常被蹂躏,1周、2周都毫无进展。所以放宽心态才重要,大神亦是如此,我等凡人何必揪心,而且我坚信只要再多尝试一次,多花一些精力总能提高我的成绩。有一颗无坚不摧的内心才够强大。我们可以设定一个要拿第一名的目标,也需要忘记目标脚踏实地的努力,我是这样安慰自己的。而且对于零基础的同学来说,一边参与新人赛,一边学习数据挖掘的入门知识才能更我们走得更远。

//收获//

真正参与到数据挖掘中来的时候,那些平时看起来死板的数据,也会变得友好。比如计算用户浏览次数对第二天的购买率就会发现存在一定规律,同理“收藏“,“加入购物车“等行为同样对购买率也有影响,当把这些数据全部展开做成一个图表的时候,普通的业务数据马上让我茅塞顿开,用户的微观行为被宏观的表达了,只有对数据的深入分析,才能获得这样确切的结果。这样的数字对业务、产品决策一定有帮助,估计这就是工程师关心业务的最有效方法,有了这样的实践,指不定什么时候这些方法就会被引入到我们的工作流当中来,帮助自己的业务发展。

最后感谢天池,给了所有数据爱好者一个提升自己的机会,让大数据小菜鸟能够在此振翅翱翔!

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
8月前
|
机器学习/深度学习 存储 传感器
【机器学习入门与实践】合集入门必看系列,含数据挖掘项目实战
【机器学习入门与实践】合集入门必看系列,含数据挖掘项目实战
|
8月前
|
机器学习/深度学习 数据可视化 算法
【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等)
【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等)
|
消息中间件 分布式计算 大数据
Hadoop大数据挖掘从入门到进阶实战
1.概述   大数据时代,数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮,笔者愿意分享自己多年的开发经验,带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。
1879 0
|
存储 数据采集 算法
数据挖掘敲门砖--Python爬虫入门
Python爬虫.jpg WHAT 数据挖掘是一门综合的技术,随着Ai的兴起,在国内的需求日渐增大。 数据挖掘的职业方向通常有三个,顺便概要地提一下所需的技能(不仅于此) 数据分析方向:需要数理知识支撑,比如概率论,统计学等 数据挖掘方向:需要懂得主流算法的原理及应用,数据库的原理和操作 科学研究方向:通常是科学家们在深入研究数据挖掘的相关基础理论和算法 但是看完简介,好像和爬虫没什么关系? 接着往下看。
2444 0
|
机器学习/深度学习 算法 数据挖掘
一名数据挖掘工程师给新人整理的入门资料
一名数据挖掘工程师给新人整理的入门资料 四年前我一次听说数据挖掘这个词,三年前我学习了数据挖掘理论知识,两年前我做了几个与数据挖掘有关的项目,一年前我成为一名数据挖掘工程师,今天我把数据挖掘入门资料整理了一下,希望能够对新人有帮助。
2209 0
|
机器学习/深度学习 数据采集 算法
|
存储 自然语言处理 大数据
|
JSON 分布式计算 Hadoop
|
存储 自然语言处理 数据挖掘
【问底】严澜:数据挖掘入门——分词
谷歌4亿英镑收购人工智能公司DeepMind,百度目前正推进“百度大脑”项目,腾讯、阿里等各大巨头也在积极布局深度学习。随着社会化数据大量产生,硬件速度上升、成本降低,大数据技术的落地实现,让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术,不过买来的数据挖掘书籍一打开全是大量的数学公式,而课本知识早已还给老师了,着实难以下手、非常头大! 我们不妨先跳过数学公
743 0
推荐文章
更多