资源总结——七步学习数据挖掘与数据科学-阿里云开发者社区

开发者社区> 【方向】> 正文

资源总结——七步学习数据挖掘与数据科学

简介: 本文概述了学习数据挖掘与数据科学的七个步骤,每一步都给出了详细的学习资源,便于初学者按照指南开展数据挖掘与数据科学的学习。
+关注继续查看

想知道如何学习数据挖掘和数据科学吗?本文概述了七个步骤,指的资源能让你成为一名数据科学家。

作者为Gregory Piatetsky,是一名数据挖掘与数据科学方面的专家。

208d17688bcff0df08dbd8d6fab25db9d0cf32bf

以下为7个步骤用于学习数据挖掘和数据科学。虽然有编号顺序,你可以并行或以不同的顺序学习:

1 语音:学习RPython以及SQL语音

2 工具:了解如何使用数据挖掘和可视化工具

3 教材:阅读介绍性教科书了解基础知识

4 教育:观看网络研讨会,参加课程,考虑获得数据科学中的证书或学位

5 数据:检查可用的数据资源并在那里找到东西

6 竞赛:参加数据挖掘竞赛

7 通过社交网络,团体和会议与其他数据科学家交流

另外,不要忘记订阅KDnuggets新闻邮件,并跟随@kdnuggets了解关于分析、大数据、数据挖掘和数据科学最新消息。

交互使用数据挖掘与数据科学——见我的分析行业概览报告,报告中有关于相关术语演变和普及比如统计、知识发现、数据挖掘、预测分析、数据科学以及大数据。

 1 学习语言

民意调查表明,数据挖掘最流行的语言RPythonSQL

这里有很多的资源,比如:

免费电子书资源关于R语音的数据科学

Python数据科学入门

Python数据分析:现实世界数据的灵活工具

不可或缺的Python:数据源到数据科学

W3学校学习SQL

2 工具:数据挖掘,数据科学和可视化软件

许多的数据挖掘工具用于不同的任务,但最好是使用支持数据分析的整个过程的数据挖掘套件。

你可以使用开源(免费)的工具,如启动KNIMERapidMinerWeka

然而,对于许多分析工作需要知道SAS,它是全球领先的商业工具并得到广泛应用。

其他受欢迎的分析和数据挖掘软件包括MATLABStatSoft推出STATISTICAMicrosoft SQL ServerIBM SPSS Modeler以及Rattle

可视化是任何数据分析的重要组成部分——学习如何使用Microsoft ExcelR graphics,以及Tableau 。其好的可视化工具包括TIBCO SpotfireMiner3D

3教材

网络上有很多的数据挖掘和数据科学教材,但你可以参考以下这些:

数据挖掘与分析:基本概念与算法

数据挖掘:机器学习工具实践与方法

统计学习、数据挖掘以及预测的要素

LION书籍:学习与智能优化

大数据集挖掘

StatSoft推出的电子统计教材

4 教育:网络研讨会、课程、证书以及学位

可以通过观看一些许多免费的关于数据分析、大数据,数据挖掘和数据科学的网络研讨会和网络直播开始学习。

也有许多短期和长期的在线课程,其中许多是免费的-KDnuggets在线教育目录

特别参考以下课程:

 机器学习

 从数据中学习

 开放式在线学习应用数据科学

 使用Weka进行数据挖掘

 本文作者的数据挖掘课程

最后,考虑获得关于数据挖掘和数据科学的证书或高级学位,如MS-KDnuggets关于分析、数据挖掘和数据科学教育的目录

5 数据

你需要数据进行分析-KDnuggets关于数据挖掘的目录,包含:

 政府、联邦、州、城市、本地和公共数据站点和门户

 数据API、集线器、商场、平台、门户和搜索引擎

 免费公共数据集

6 竞争

再一次强调,最好是边学边做,所以在学习的同时也可以参加Kaggle竞赛 -从初学者竞赛开始,比如使用机器学习预测泰坦尼克号生存

7 交流:会议、团体和社交网络

你可以加入许多同团体-关于分析、大数据,数据挖掘以及数据科学前30LinkedIn组织

AnalyticBridge是一个分析和数据科学活跃的社区。

你也可以参加一些关于分析、大数据、数据挖掘、数据科学与知识发现的会议和研讨会

此外,考虑加入ACM SIGKDD,它会举办一年一度的KDD大会——该领域领先的研究会议。

……

还可以参考其它的回答:

如何开始学习数据科学

关于数据科学的使用简介

通过Metromap课程成为一名数据科学家

获取免费数据科学教育


数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《7 Steps for Learning Data Mining and Data Science》,作者:Gregory Piatetsky,译者:海棠

文章为简译,更为详细的内容,请查看原文


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
节省AI开发90%的时间,彭博让你获得直接可用的数据
与大多数人的想象不同,在机器学习领域里,处理数据所耗费的精力占据着最多比例。通常情况下,每购买 1 美元的数据,我们需要花费 5-7 美元来清理,才能让它用于机器学习模型的训练与推理。在这个过程中,数据科学家要耗费整个开发流程 80-90% 的时间。
5 0
Mybaits结果集之集合,Javabean中嵌套List的解决方案
Mybaits结果集之集合,Javabean中嵌套List的解决方案
5 0
零基础ML建模,自动机器学习平台R2 Learn开放免费试用
在数据的世界中,机器学习已经成为不可或缺的工具。机器学习可以帮助发现隐藏在大量数据中的特定知识。很多时候,这些知识都不是人类能轻易分析得出的,它展示了大量事实之间的内部联系。但是如果我们需要这些隐藏知识辅助做决策,机器学习建模就成为了一个非常有效的手段。
4 0
mysql索引总结
mysql主要有两大索引:B-tree索引和hash索引,注意一个误区,这个不叫B减树,B树就是B树,B+树就是B+树,没有所谓的B减树,那个 - 是连接符号
4 0
OpenAI 2:0击败Dota2 TI8冠军OG(鱼腩队?),「菜鸡」小编上手体验
在 OpenAI Dota2 项目最终的决战中,OpenAI Five 2:0 战胜 Dota2 职业战队、TI 8 冠军 OG。此外,OpenAI还将在4月18-21日期间把OpenAI Five开放给玩家,注册就能体验。炫耀一下,小编现场体验了一把。
6 0
使用Jsoup过滤HTML标签,获取纯文本
使用Jsoup过滤HTML标签,获取纯文本
3 0
关于 python 的缩进
python 对缩进是敏感的,而大多教程对缩进规则,往往就几句话带过,对于没有其他语言基础的初学者,十分不友好,本文就把python常见的缩进问题做了一些整理。
9 0
SysML 2019提前看:神经网络安全性
自从对抗攻击(Adversarial Attack)在图像识别网络上被发现之后,神经网络的应用安全成了一个热议的话题。这里介绍 SysML 2019大会两篇有关神经网络安全性的论文。第一篇讨论对抗攻击在离散输入的泛化定义,并将其应用于文档处理的网络上,第二篇讨论对抗攻击和常用的网络压缩的关系。
4 0
mysql innodb引擎下的行锁由于意外没有被释放,导致后面的请求无法继续,怎么办?
mysql innodb引擎下的行锁由于意外没有被释放,导致后面的请求无法继续,怎么办?
4 0
什么是回表查询
这种查询就必须先在索引文件中找到name为小张的索引节点,很明显这个节点里面只有id,因为这张表只有主键索引,再根据id去数据文件查找具体数据
5 0
+关注
【方向】
欢迎各位对内容方向及质量提需求,我们尽量满足,将国外优质的内容呈现给大家!
696
文章
5
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载