如何成为一名数据分析师(二)——统计学之描述性统计

简介: 本系列文章针对:从未接触过数据分析的小白,准备毕业后做数据分析的大学生,或者接触过数据分析却没有经验的你。本文会继续为你介绍数据分析的理论基础,主要围绕统计学之描述性统计相关内容。

本系列文章针对:从未接触过数据分析的小白,准备毕业后做数据分析的大学生,或者接触过数据分析却没有经验的你。本文会继续为你介绍数据分析的理论基础,主要围绕统计学之描述性统计相关内容。


介绍理论知识前,我们先简单聊一下人工智能与数据分析。从《流浪地球》的 MOSS 引发的争议,再到 ChatGPT 的爆火引发的全民热潮,两者都在向我们展示人工智能技术正在飞速发展。在外媒盘点最可能被 ChatGPT 取代 10 大高危职位中,技术工种(程序员、软件工程师、数据分析师)排在第一位,这不禁让准备从事或者转行数据分析的小伙伴们感到颤抖。


对于人工智能,有人伸出双手准备拥抱它的到来,有人担心人工智能会带来新一波的失业狂潮。想要从事数据分析的小伙伴其实不必过分担心,就像 ChatGPT 的回答,人工智能确实会对数据分析的工作产生一定的影响,但是这个影响是积极的。ChatGPT 或许能取代一些处理复杂数据和机械式操作的数据专员,但是对于更加精细的逻辑分析与问题的判断,依然需要数据分析师。利用数据分析思维、逻辑思维能力在繁杂的数据之中发现问题和价值的能力才是数据分析师的真正价值所在,这才是数据分析师的核心竞争力,是程序与人类最大的区别,也是人工智能始终挂着“人工”的原因。


数据分析师需要掌握理论基础与数据分析思维,才能抵御 ChatGPT 的威胁。而想要具备数据分析师的核心竞争力——数据分析思维和逻辑思维,具备扎实的理论基础的重要性不可忽视,理论基础是数据分析师的基石,打牢基础后面才能稳步发展。如果缺乏基础原理,那么在数据分析的过程中,很容易出现分析方向偏离或结果错误。


简单回顾一下数据分析的理论基础,主要分为统计概率和机器学习两部分。统计概率由统计学和概率论组成,研究随机事件规律性的方法和工具,探究数据和信息的不确定性,包括随机事件的发生概率、事件之间的关联和相关性等。机器学习通过学习数据中的模式和规律,进行分类、聚类、回归等任务,预测未来的趋势和行为。机器学习对于大规模数据和复杂数据的分析具有很大的优势,而且可以帮助挖掘数据中更深层次的信息,从而实现更精准的决策和预测。


在进行数据分析之前,需要对数据的特征和规律有一定的了解,描述性统计是数据分析的基础理论和基础方法之一,用于概括和总结数据集的基本特征和规律,以便更好地理解和分析数据集,从而开展后续的数据分析工作。下面将介绍统计学论基础之描述性统计,以及描述性统计在数据分析工作中使用场景。描述性统计主要包括以下内容:

描述性统计 对收集到的数据进行总结和描述,通过整合、归纳和展示数据,来研究数据的分布、中心趋势和数据分布等特征。

中心趋势:中心趋势是指数据集中的数据集中趋势,通常用平均数、中位数和众数等指标来表示。平均数是所有数据的总和除以数据的个数,中位数是数据集中间的值,众数是出现次数最多的值。

实际应用:计算每日销售额的平均数,可以帮助我们了解销售额的平均水平。如果我们发现某一天的销售额明显高于平均水平,我们可以进一步分析这一天的销售情况,以确定具体的原因。


离散程度:离散程度是指数据集中数据分散的程度,通常用方差、标准差和四分位数等指标来表示。方差是数据与平均数之间差的平方和的平均值,标准差是方差的正平方根,四分位数是将一组数据按照大小排列后,分成四等份的方法。

实际应用:对订单情况进行分析时,可以通过计算订单数量的四分位数并绘制箱线图来了解订单数量的波动情况。通过箱线图,可以看出不同时间段或者不同产品的订单数量的中位数、上下四分位数范围内的数据点、最大值和最小值情况。如果发现订单数量有明显波动或者异常,就需要进一步探索原因并采取相应的措施。


数据分布:数据分布是指数据集中数据分布的规律,通常用峰度和偏度等指标来表示。峰度是指数据分布的峰度,偏度是数据分布的偏离程度。


实际应用:使用直方图可以将销售额分成若干个区间,每个区间内的销售额数量可以用柱状图来表示。如果我们发现销售额呈现正态分布,说明销售业绩的变化较为平稳;如果我们发现销售额呈现长尾分布,说明一些产品的销售额较高,而大部分产品的销售额较低,这可以帮助我们了解产品销售情况,以便更好地制定销售策略。




相关性:相关系数、协方差等,描述两个变量之间的线性关系强度和方向。

实际应用:计算用户浏览时长和购买金额之间的相关系数,可以帮助我们了解用户的购买决策是否与浏览时间有关。如果我们发现这两个变量之间的相关系数较高,说明用户的购买决策与浏览时间密切相关。


频次统计:频数、百分比、累积频数等,对数据进行分类汇总,展现数据在每一类别中的出现次数或比例。

实际应用:统计用户购买次数最多的产品类型,可以帮助我们了解用户对哪些类型的产品更感兴趣,以便更好地推荐相关产品。


在数据分析工作中,除了以上提到的实际应用,描述性统计方法还常常用于以下场景:

  • 数据清洗:在数据清洗过程中,我们需要了解数据集中的基本特征,例如平均值、标准差、中位数等,以便对数据进行清洗和预处理前的质量检查,识别异常值、缺失值等问题。
  • 数据探索性分析:在进行数据可视化之前,对数据进行整体性描述和归纳总结,帮助决策者更好地理解数据集的分布、异常情况和变化趋势,以便确定数据集的关键特征和分析方向。
  • 数据可视化:描述性统计指标可以用于生成图表或可视化工具,例如直方图、箱线图和散点图等,以帮助我们更好地理解数据集。
  • 建模和预测:描述性统计指标可以用于评估模型的质量和精度,并帮助我们选择最优模型和调整参数。
  • 业务分析:在业务分析中,描述性统计指标可以用于了解业务的关键特征和趋势,例如销售量、市场份额和用户行为等,以便制定更有效的市场营销策略。


具体业务场景分析案例:假设某在线购物平台的数据分析师想要分析某一周的用户访问情况,根据描述性统计可以这样进行分析:

  • 首先,可以计算这一周每天的平均访问量、中位数和众数。这些指标可以给出这一周访问量的中心趋势。
  • 接着,可以计算这一周访问量的标准差和方差。这些指标可以给出这一周访问量的离散程度。如果访问量波动较大,则说明需进一步探究波动的原因。
  • 可以将这一周的访问量与上一周或去年同期进行比较。比较可以计算两周或同期间访问量的百分比增长率或变化量,从而了解总体趋势。
  • 通过查看这一周之内的具体访问情况,如热门商品、流量来源、搜索关键字等,为访问量增长或下降提供更详细的解释或原因。
  • 最后,根据对访问情况的分析和原因的探索,可以采取相应的改进措施来提高整体访问量水平。例如,优化网站或 APP 的用户体验、加大推广力度、增加广告投放量等。


如果发现某一天的访问量明显高于平均水平,数据分析师可以通过计算该天的访问量与平均值之间的差异来描述这一现象。如果这种差异显著,就可以对该天的访问情况进行更细致的分析,查看该天是否有特别的促销活动、广告投放情况和热门商品等,并探究它们是如何影响访问量的。根据分析的结果,可以采取相应的改进措施,例如,加强网站或 APP 的推广、优化用户体验、增加流量来源等,从而提高整体访问量水平。


另外,我们还整理几道描述性统计方法相关的常见面试及回答参考:

  • 什么是均值、中位数和众数?如何选择一个最具有代表性的测量值?

均值是所有数据的总和除以数据个数。中位数是将数据按大小排序后处于中间位置的值。众数是数据集中出现次数最多的值。在选择一个测量值时,需要考虑数据的分布情况。如果数据集的分布比较对称,最好使用均值作为代表值;如果数据集的分布偏斜比较严重,最好使用中位数作为代表值;如果数据集的分布有明显的峰值或者模式,最好使用众数作为代表值。


  • 什么是四分位数?如何使用四分位数识别异常值?

四分位数是将数据集划分为四等份的方法,包括第一四分位数、第二四分位数、第三四分位数和第四四分位数。其中,第二四分位数即为中位数。通过计算第一四分位数和第三四分位数,可以得到数据集的上下四分位范围。任何落在这个范围之外的值都可以被认为是异常值。


  • 什么是直方图和密度图?它们有什么区别和联系?

直方图是一种用来表示数据分布情况的图表,将数据集按照一定的区间进行分组,并将每组的频数或频率用条形图表示出来。直方图可以展示数据集的中心性、离散程度和峰态等特征。密度图与直方图类似,但是密度图使用连续曲线表示数据分布的概率密度函数,更加平滑和精细。密度图可以展示数据的分布形态和概率密度,对于非常规或者复杂的数据分布情况有更好的表现效果。


希望下次当我们谈论描述性统计时,大家想到的不再是枯燥无味的数学公式和统计指标,而是众多实际业务应用场景。掌握基础理论与统计描述,是入门数据分析的必备技能,掌握描述性统计可以满足许多基础业务的数据分析需求,帮助大家更好地理解数据,开始数据分析工作。


如果有兴趣的小伙伴除了上面介绍的描述性统计,还可以阅读《统计学导论》和《计量经济学》这两本书籍,加强自己的数据分析基础理论。

  • 《统计学导论》主要介绍了统计学的基本概念、原理和方法,包括描述统计学、概率分布、假设检验、回归分析等内容。此外,它还涉及到一些常用的统计软件(例如 SPSS、SAS 和 STATA )的基本应用。
  • 《计量经济学》更加专注于实证研究的方法和技巧。它介绍了一系列计量经济学模型,如线性回归、面板数据模型、时间序列模型等,以及这些模型的推断和诊断方法。
相关文章
|
数据挖掘 计算机视觉 Python
Python数据分析中图像处理的实用技术点:图像加载与保存、图像转换与增强、特征提取与描述
Python数据分析中图像处理的实用技术点:图像加载与保存、图像转换与增强、特征提取与描述
98 1
Python数据分析中图像处理的实用技术点:图像加载与保存、图像转换与增强、特征提取与描述
|
机器学习/深度学习 数据采集 数据可视化
R语言 一种功能强大的数据分析、统计建模 可视化 免费、开源且跨平台 的编程语言
R语言 一种功能强大的数据分析、统计建模 可视化 免费、开源且跨平台 的编程语言
429 1
|
6月前
|
文字识别 算法 数据挖掘
视觉智能开放平台产品使用合集之对于统计研究和数据分析,有哪些比较好的工具推荐
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
7月前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
6月前
|
机器学习/深度学习 数据可视化 算法
探索MATLAB世界:掌握基础知识与实用技能(1. MATLAB环境与基本操作 2. 数据类型与变量 3. 条件与循环,1. 数据分析与统计 2. 图像处理与计算机视觉 3. 信号处理与控制系统)
探索MATLAB世界:掌握基础知识与实用技能(1. MATLAB环境与基本操作 2. 数据类型与变量 3. 条件与循环,1. 数据分析与统计 2. 图像处理与计算机视觉 3. 信号处理与控制系统)
63 0
|
7月前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
817 1
|
7月前
|
前端开发 数据可视化 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(下)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
7月前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
396 1
|
7月前
|
数据采集 数据可视化 数据挖掘
python数据分析——业务数据描述
业务数据描述将从统计学角度来分析这指标。利用统计方法,数据分析人员可以通过相应统计模型开展数据分析。数据分析过程包括数据收集,数据处理,数据探索,模型方法应用,分析结果数据展现及形成分析报告。 业务报表是指对业务内容和数据的统计分析图表。统计图表代表了一张图像化的数据,形象地呈现数据。我们常常提到的可视化分析图表一般包括比较类图表,占比类图表,相关类图表和趋势类图表。
125 1
|
7月前
|
机器学习/深度学习 算法 数据挖掘
python数据分析——数据分析的统计推断
数据分析的统计推断是科学研究中的重要环节,它通过对样本数据的分析,对总体参数进行估计,并对假设进行检验。这一过程旨在从数据中提取有意义的信息,为决策提供科学依据。 在统计推断中,我们通常会遇到两类问题:参数估计和假设检验。参数估计是通过样本数据对总体参数进行点估计或区间估计。点估计是对总体参数的具体数值进行预测,而区间估计则是给出一个包含总体参数的置信区间。这两种估计方法都基于大数定律和中心极限定理,保证了估计的准确性和可靠性。
93 0