大数据学习资料下载,新手攻略,数据分析工具、软件使用教程

简介: 作为 IT 类职业中的“大熊猫”,大数据工程师的收入待遇可以说达到了同类的顶级。国内 IT、通讯、行业招聘中,有 10% 都是和大数据相关的,且比例还在上升。“大数据时代的到来很突然,在国内发展势头激进,而人才却非常有限,现在完全是供不应求的状况。

大数据被认为是“未来的新石油”,在社会生产、流通、分配、消费活动以及经济运行机制等方面发挥着重要的作用。

作为 IT 类职业中的“大熊猫”,大数据工程师的收入待遇可以说达到了同类的顶级。国内 IT、通讯、行业招聘中,有 10% 都是和大数据相关的,且比例还在上升。“大数据时代的到来很突然,在国内发展势头激进,而人才却非常有限,现在完全是供不应求的状况。

所有从底层数据工作者往上发展的基本路径:

  1. 第一阶段(一般岗位叫数据专员)

基本学会excel(VBA最好学会;会做透视表;熟练用筛选、排序、公式),做好PPT。这样很多传统公司的数据专员已经可以做了

  1. 第二阶段(数据专员~数据分析师)

这一阶段要会SQL,懂业务,加上第一阶段的那些东西。大多数传统公司和互联网小运营、产品团队够用了。

  1. 第三阶段(数据分析师)

统计学熟练(回归、假设检验、时间序列、简单蒙特卡罗),可视化,PPT和excel一定要溜。这些技术就够了,能应付大多数传统公司业务和互联网业务。

  1. 第四阶段(分裂)

数据分析师(数据科学家)、BI等:这部分一般是精进统计学,熟悉业务,机器学习会使用(调参+选模型+优化),取数、ETL、可视化啥的都是基本姿态。

可视化工程师:这部分国内比较少,其实偏重前端,会high charts,d3.js, echarts.js。技术发展路线可以独立,不在这四阶段,可能前端转行更好。

ETL工程师:顾名思义,做ETL的。

大数据工程师:熟悉大数据技术,hadoop系二代。

数据工程师(一部分和数据挖掘工程师重合):机器学习精通级别(往往是几种,大数据交流分享扣qun 74零零加【4yi381】不用担心不是全部,和数据分析师侧重点不同,更需要了解组合模型,理论基础),会组合模型形成数据产品;计算机基本知识(包括linux知识、软件工程等);各类数据库(RDBMS、NoSQL(4大类))

数据挖掘:和上基本相同。

爬虫工程师:顾名思义,最好http协议、tcp/ip协议熟悉。技术发展路线可以独立,不在这四阶段。

往数据发展的基本学习路径可以概括为以下内容:

  1. EXCEL、PPT(必须精通)

数据工作者的基本姿态,话说本人技术并不是很好,但是起码会操作;要会大胆秀自己,和业务部门交流需求,展示分析结果。技术上回VBA和数据透视就到顶了。

  1. 数据库类(必须学)

初级只要会RDBMS就行了,看公司用哪个,用哪个学哪个。没进公司就学MySQL吧。

NoSQL可以在之后和统计学啥的一起学。基本的NoSQL血MongoDB和Redis(缓存,严格意义上不算数据库),然后(选学)可以了解各类NoSQL,基于图的数据库Neo4j,基于Column的数据库BigTable,基于key-value的数据库redis/cassendra,基于collection的数据库MongoDB。

  1. 统计学(必须学)

如果要学统计学,重要概念是会描述性统计、假设检验、贝叶斯、极大似然法、回归(特别是广义线性回归)、主成分分析。这些个用的比较多。也有学时间序列、bootstrap、非参之类的,这个看自己的意愿。

其他数学知识:线性代数常用(是很多后面的基础),微积分不常用,动力系统、傅里叶分析看自己想进的行业了。

  1. 机器学习(数据分析师要求会选、用、调)

常用的是几个线性分类器、聚类、回归、随机森林、贝叶斯;不常用的也稍微了解一下;深度学习视情况学习。

  1. 大数据(选学,有公司要求的话会用即可,不要求会搭环境)

hadoop基础,包括hdfs、map-reduce、hive之类;后面接触spark和storm再说了。

  1. 文本类(选学,有公司要求的话会用即可)

这部分不熟,基本要知道次感化、分词、情感分析啥的。

  1. 工具类

语言:非大数据类R、Python最多(比较geek的也有用julia的,不差钱和某些公司要求的用SAS、Matlab);大数据可能还会用到scala和java。

可视化(选学):tableau、http://plot.ly、d3.js、echarts.js,R里面的ggplot、ggvis,Python里的bokeh、matplotlib、seaborn都不错

数据库语言:看你自己用啥学啥

其他框架、类库(选学):爬虫(requests、beautifulsoup、scrapy),日志分析(常见elk)

​​image

​​
大数据相关技术和书籍

数据分析工具、软件使用教程
image

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
SQL 分布式计算 数据挖掘
从Excel到高级工具:数据分析进阶指南
从Excel到高级工具:数据分析进阶指南
532 54
|
11月前
|
数据采集 人工智能 算法
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
347 1
|
7月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
7月前
|
机器学习/深度学习 搜索推荐 数据挖掘
数据分析真能让音乐产业更好听吗?——聊聊大数据在音乐里的那些事
数据分析真能让音乐产业更好听吗?——聊聊大数据在音乐里的那些事
312 9
|
8月前
|
数据可视化 数据挖掘 大数据
基于python大数据的水文数据分析可视化系统
本研究针对水文数据分析中的整合难、分析单一和可视化不足等问题,提出构建基于Python的水文数据分析可视化系统。通过整合多源数据,结合大数据、云计算与人工智能技术,实现水文数据的高效处理、深度挖掘与直观展示,为水资源管理、防洪减灾和生态保护提供科学决策支持,具有重要的应用价值和社会意义。
|
9月前
|
存储 数据挖掘 大数据
基于python大数据的用户行为数据分析系统
本系统基于Python大数据技术,深入研究用户行为数据分析,结合Pandas、NumPy等工具提升数据处理效率,利用B/S架构与MySQL数据库实现高效存储与访问。研究涵盖技术背景、学术与商业意义、国内外研究现状及PyCharm、Python语言等关键技术,助力企业精准营销与产品优化,具有广泛的应用前景与社会价值。
|
分布式计算 大数据 数据处理
从Excel到大数据:别让工具限制你的思维!
从Excel到大数据:别让工具限制你的思维!
594 85
|
10月前
|
SQL 人工智能 分布式计算
拥抱数据洪流:ODPS,从工具到智能基石的认知跃迁
ODPS正从计算工具进化为智能基石,重塑数据价值链条。它不仅是效率引擎,更是决策资产、信任桥梁与预见系统。其创新架构支持存算分离、AI融合计算与隐私保护,助力企业迎接AI革命。未来,ODPS将推动绿色智能,成为组织数字化转型的核心支撑平台。
294 3
|
存储 关系型数据库 MySQL
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂
本文详细介绍了在 MySQL 中创建数据库和表的方法。包括安装 MySQL、用命令行和图形化工具创建数据库、选择数据库、创建表(含数据类型介绍与选择建议、案例分析、最佳实践与注意事项)以及查看数据库和表的内容。文章专业、严谨且具可操作性,对数据管理有实际帮助。
大数据新视界 --面向数据分析师的大数据大厂之 MySQL 基础秘籍:轻松创建数据库与表,踏入大数据殿堂
|
11月前
|
数据采集 搜索推荐 算法
Java 大视界 -- Java 大数据在智能教育学习社区用户互动分析与社区活跃度提升中的应用(274)
本文系统阐述 Java 大数据技术在智能教育学习社区中的深度应用,涵盖数据采集架构、核心分析算法、活跃度提升策略及前沿技术探索,为教育数字化转型提供完整技术解决方案。