本系列文章针对:从未接触过数据分析的小白,准备毕业后做数据分析的大学生,或者接触过数据分析却没有经验的你。关注我,帮助你系统性学习如何成为一名数据分析师。
想要成为一名数据分析师,我们可以从数据分析的面试要求开始寻找自己需要的技能点,每个公司对数据分析师的定位不同,这里我们取他们的并集:尽量概括当前就业市场数据分析师所需要具备的技能点。
首先,我们来看一下数据分析师的全流程:
数据分析师拿到需求后,首先通过 SQL 从数据库中将需要分析的目标和相关数据取出来,再通过 Python 等方式对原始数据进行清洗,并建立模型进行分析(有时不需要建模)。最后验证模型,进行迭代优化使自己的模型接近真实业务情况,最后输出结论:数据可视化仪表板,或 ppt 等形式向领导汇报。
编辑切换为居中
从过往的面试经验来看,数据分析师的面试提问主要分为三个部分:
一、理论基础——统计学(部分公司会提问机器学习)
二、数据处理工具——Excel,SQL,Python
三、数据可视化经历——仪表板案例
一、理论基础
1)统计概率
作为一名数据分析师,统计概率相关知识点是数据分析必备技能,不然很多指标看不懂,统计方法也不了解。 需要掌握的核心技能有:
- 描述性统计
- 概率
- 概率分布
- 统计推断
2)机器学习
机器学习在数据分析这个岗位上不是必备技能,但掌握这个技能一定会让你在面试中更有优势。这里提到的算法只是提问最多的种类,实际工作过程可以面向百度编程。 需要掌握的算法有:
- 分类算法:逻辑回归,贝叶斯,决策树,随机森林
- 回归算法:线性回归
- 聚类算法:k-means
需要掌握的核心技能有:
- 特征工程
- 模型评价
- 交叉检验
学习时间充裕的话,可以通过kaggle进行机器学习的项目训练。
二、数据处理工具
1)Excel
Excel听起来很简单,即使没接触过数据分析的同学可能也在读书和工作过程中用到过,对于Excel的学习可以不用太深入。大多数工作不通过Excel进行,如果需要用Excel进行某些简单数据处理时。需要掌握的常见的核心技能有:
- 数据透视操作
- Vlookup
- 常见函数使用:if , avg , sum 等
- 基础图表制作
2)SQL
目前公司等数据都储存在数据库/数据仓库中,作为数据分析师不需要了解底层的数据库/数据仓库的结构,但需要通过 SQL 编写语句从数据库中抽取数据。需要掌握的核心技能有:
- 会利用 SQL 操作开源数据库 Mysql 进行增删改查
- 存储过程
- 数据库的分组,聚合,排序等
开源数据库:这里提到了开源数据库的概念,开源就是开放源代码,但开源同样有版权,受到法律保护并且需要用户遵照开源协议。大部分的开源软件可以认为是免费使用的,本系列教程所提到的工具和产品均为开源产品。
3)编程语言 Python
数据分析师对 Python 的要求并不高,也不会在代码上考察的特别细,主要使用场景和考察范围有:
- 通过 pandas 进行数据清洗
- 对 Python 数据分析包的了解:numpy,pandas,matplotlib
三、仪表板案例
当你的分析过程结束,你最终需要将你分析的结果呈现成一个仪表板:数据可视化大屏。在实际工作场景中,分析过程可能会省略,例如业务只需要你从数据库中将数据取出来做成一张好看的仪表板方便他们实时查看即可,不需要你对这些数据进行分析。因此,仪表板的学习是区分学校和工作场景的一个分水岭。
当前市面上的数据可视化工具可以分为开源产品(免费使用)和非开源产品(企业付费使用),目前市场占有额最高的 Tableau,帆软和 Quick BI 都是非开源产品。本系列教程将使用开源产品:DataEase 进行教学演示。 这里从 DataEase 的官网上截取了一张案例图片,最终你需要向业务部门呈现的也是这样的结果。
编辑切换为居中
需要掌握的核心技能有:
- 数据集连接
- 仪表板设计
- 图表功能设计
- 联动跳转下钻设计
以上准备,是成为数据分析师的必备技能,掌握了这些技能,可以称为入门。在此基础上我们再谈论:数据分析思维,商业模型,数据亮点等等。
如果你正在学习如何成为一名数据分析师,可以从这三个方面入手去准备。 最后祝你面试成功,拿到理想的 offer。
下期预告:如何成为一名数据分析师(二)——理论基础