开发者学堂课程【场景实践-通过阿里云数据分析工具实现共享单车骑行分析:数据分析方法介绍】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/527/detail/7095
数据分析方法介绍
内容介绍:
一、概念
二、要求
三、分类
四、作用
一、概念
数据分析它是一个过程,它是采用统计分析的方法从大量的数据中提取信息并且形成结论,对数据加以概括和总结。
数据分析的目的在于挖掘潜藏的价值和规律,验证猜想,进行预测,以便提供决策指导。比如常见的有收入预测、出行人流量预测、店铺选址推荐等等。
在一个完整的业务流程中,首先需要明确需求。明确研究的目的是什么,然后提取有用的数据,这数据进行预处理,并用各种技术的手段做数据分析。最后得出分析结论,对业务优化提供指导意见。
举一个比较熟悉的经典营销案例,啤酒与尿布。
美国沃尔玛超市的管理人员分析销售数据的时候,发现了一个比较有趣的现象。
啤酒和尿布两个看似毫无关系的商品经常出现在同一个购物篮中。然后在卖场尝试将啤酒与尿布摆放在相同的区域。这一举措使得了啤酒和尿布的销量双双增加了。后来经过大量的实际调查和分析,揭示了美国人的一种行为模式。
美国太太们会经常叮嘱丈夫下班后为小孩买尿布,而丈夫在买尿布后,往往会顺手带回自己喜欢的啤酒。单从案例本身来说,这是典型的应用的商品关联关系的分析方法。
二、要求
1.必备条件
一个数据分析师的必备条件首先需要懂业务,任何分析结果一旦脱离了行业认知和应用背景,都没有太大的使用价值。可能你觉得比较完美,但是客户不采纳,这是硬伤。
其次,需要懂分析。掌握数据分析的基本原理和有效的数据分析方法,并且灵活运用到实践中,让数据变得有价值。
需要懂工具,方法都是理论,而理论的实践需要利用强大好用的数据分析工具。最后还需要懂的设计,能够借助图表直观的有效的表达数据分析的结论。
2.技能要求
需要学习的技能首先是与统计分析相关的知识,比如说抽样检测、方差等等。还有会一些可视化的辅助工具,最常用的有 excel 、思维导图。还有专业制图软件等等。需要了解数据库,比如说关系型的数据库 oracle 和 mysql ,以及基于内存的日志型数据库 RDS。还有适合非结构化数据存储的分布式数据库等等。
需要了解一些数据仓库,bi商业智能的知识。至少学过一门编程语言,常用的有 python,java, shell 等等。然后呢要了解大数据的处理框架,比如分布式的系统基础架构 hadoop , 还有快速通用的大数据计算引擎 spark,分布式的发布订阅消息系统,用于流处理的分布式实时计算系统 storm 等等
再往深一点研究数据挖掘、机器学习、深度学习、人工智能等等知识。
三、分类
常用的统计分析方法比如对比、分组、平均、结构分析、因素分析、动态分析、弹性分析、综合评价体系等等。
而常用的数据挖掘算法,也有相关、回归、聚类、关联规则、神经网络。直接训练、决策树主成分分析。
1.统计分析算法(1)首先是对比分析实际上两个或两个以上的数据进行一个比较,分析他们的差异。比如实际完成值与目标值进行对比。与去年同期,对比及同比,与上个月完成情况,对比及环比。
(2)分组分析法按照某种规则将数据划分为若干不同的组。分组的目的是为了便于对比,把不同性质最小区分开,相同性质的对象放在一起,以便进一步分析内在关系。因此分组分析法与对比分析法是结合运用的。
(3)平均分析法就是计算平均数,反映事物在某条件下的一般水平。利用平均指标,对比事物在不同历史时期的变化,更能说明其发展规律和趋势。
(4)结构分析法是事物的各个组成部分,与整体进行一个对比,也就是各部分占总体的比例属于相对指标。一般某部分的比率越大,说明它的重要程度越高,对总体的影响也就越大。比如说小黄车在后小单车市场的占有率。
(5)因素分析法,影响各种因素的影响程度比如说社保的征缴总额就是参保人数平均缴费、工资费率、和征缴率等影响。
(6)动态分析他是根据事物显现的一个数据特征,判断是否符合正常的发展趋势。动态分析法一个重要的特点是考虑时间因素的影响,并且将经济现象的变化当做一个连续的过程来看。如商品销售额在时间上的变化,商品价格变化、市场供求情况变化等等。
(7)弹性分析法用弹性系数考察某一自变量的变动,引起因变量变动的程度。弹性分析在经济学中有着广泛的应用。通过弹性分析掌握商品价格的变动,对需求量和总收入变动的影响程度,从而制定正确的营销策略,以提高经济效益。
(8)综合评价分析法是对多个指标同时进行比较和评价。它的基本思想是将多个指标转化为一个能够反映综合情况的指标来进行评价。如不同国家的经济实力,不同地区的社会发展水平、企业的经济效益评价等等,都可以用这个方法。
举例。北京某舱室今日的人流量有800人次,可以用对比分析法。看看客流量和周边其他超市的比较如何。也可以用分组分析在产生消费的人群中,各个年龄层的消费情况。还可以用动态分析今天的营业额上升还是下降,是否符合一个正常发展的趋势。也可以用因素分析。今天客流量波动是否受促销活动,节假日或者是天界的影响
2.常用算法下面具体介绍几种常用的算法。
(1)相关分析是研究随机变量之间是否存在某种依存关系,并且讨论其相关的方向以及相关的承诺。
例如,在一段时期内,出生率随着经济水平上升而上升,说明两个指标之间是正相关。而在另一时期,随着经济水平进一步的发展,出现了出生率下降的情况,就是负相关。
(2)回归分析是通过自变量和应变量来确定变量之间的变动关系,常用来根据自变量进行连续值的预测,如日常房价、未来的经济情况,股票的价格等等。
相关分析和回归分析在实际应用中有着密切的关系。相关分析一般不区别自变量或者因变量,而回归分析只要确定其因果关系,比如说从相关分析中可以得知质量和用户满意度是密切相关的。但是这两个变量之间到底影响程度如何,需要通过回归分析方法来确定。
(3)聚类分析将数据划分为相似的组,同一组中数据彼此相识,不同组数据相异。聚类分析是一种探索性的分析,样本本身是没有标记的,划分的类也是未知的,属于无监督的学习。聚类分析能够从样本数据出发自动进行分类。比如根据人脸来管理照片。
聚类分析区别于分类分析。
分类标记数据要划分的类是有指导有监督的学习。比如邮件识别。看到这封邮件是否是垃圾邮件。又比如信用卡交易是欺诈还是非欺诈。
(4)关联规则用于表示数据类隐藏的关联性,例如购买尿布的人往往会购买啤酒。一般使用三个指标来度量一个关联规则,分别是支持度、置信度和提升度。
支持度表示同时包含A和B的事物在所有事物的比例。
置信度表示同时包含A和B的事物,在包含A事务的比例。april re算法是关联规则中具有代表性的算法,比较经典的应用有购物篮分析、电影推荐等等。
(5)神经网络是一种类似于大脑神经突触连接的结构进行信息处理的数据模型,是模式识别中常用的方法,被广泛运用到文字、语音、指纹、图像和人脸识别等等方面。比如在医疗诊断应用中患者的体征指标可以作为向量的输入值,而不同的输出值就可以表示不同的疾病存在与否。
(6)主成分分析是一种降维的统计分析方法,将原有的多个指标转化为少数几个相互独立的综合指标,而且新指标能够反映原指标的信息。其目的是简化素质结构。拆分法在系统综合比价方面得到了广泛的应用。
决策树就是运用树状图表示各决策的期望值。通过计算选出最优的决策方法。决策树常用于对新样本的分类。通过决策树对新样本属性指的测试,判定新样本的类别。
决策树方法是数据挖掘中非常有效的分类方法,常用的决策树算法有C4.5算法。分类和回归树算法CART还有id3算法。
时间序列是指同一统计指标的数值按其发生的时间先后顺序排列而成的序列。时间序列分析的主要目的是根据过去的变化趋势预测未来的发展。前提是假定事物的过去延续到未来。
3.场景应用
前面介绍了多种算法及其特点。下面来简单测试对算法的理解。
第一个应用场景,购物篮分析。通过发现商品副本之间的某种联系来定制不同的商品组合,向用户进行推荐,从挖掘用户更大的潜力和价值。比较典型的是啤酒与尿布的应用,属于关联规则算法。
第二个应用市场细分。按照消费者的需求特征、消费特点等等,将市场整体划分为若干个消费者群。个性化的定制符合细分市场的营销策略。市场会划分成多少类事先未知,属于聚类分析的算法。
第三个应用气温预测,输入意识实现的气温记录输出未来一天或者多天的气温。这是预测一个连续值,属于回归算法。
四、作用
以上是针对具体的应用场景。那么从企业层面上面来,数据分析的作用如下。首先。通过数据融合、信息共享,打破和系统间的信息孤岛。对数据进行交叉分析,多维分析等等。
能实现规避风险,侦查竞争,洞察趋势。
还能实现用户洞察。针对用户行为偏好鉴定用户画像,利用技术手段优化用户体验。
实现精细化的营销。数据挖掘、自助分析、活动监控、精准营销等等。
还能实现品牌传播,让数据可视化,让服务产品化,达到强有力的品牌和用户口碑。也能实现经营分析。比如KPI指标分析、专题分析、战略决策、投资回报等等。