数据分析概论 | 学习笔记

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习 数据分析概论

开发者学堂课程【深入理解数据分析数据分析概论学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/561/detail/7680


数据分析概论


内容简介

一、数据分析的定义

二、数据分析的目的

三、数据分析的应用场景

四、数据分析的作用

五、数据分析流程

六、数据分析误区

七、本章小结


一、数据分析的定义

数据分析介绍:数据分析是指适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可以帮助人们作出判断,以便采取适当行动。


二、数据分析的目的

在企业应用实践中,数据发挥价值的场景可分为四类:

1.以效果预测为目的的数据分析

主要是对一个业务或者一个项目的最终结果要做出一个预测。

2.以数据探究为目的的数据分析

从字面的理解,主要是对未来有一定目的的事,不是特别清楚,希望通过收集到的信息和数据来做一些分析,从分析过程中,挖掘出有用的信息来明白这个业务或者项目是如何做的,怎么做才好,怎么做才比较优化。

3.以结论定义为目的的数据分析

主要目的是为了对业务的成功与否做出一个明确的定义。

4.以业务执行为目的的数据分析

主要是为了一个在业务流程当中的一个过程当中如何去提升这个过程的效率或者是优化这个过程的最终效果来做出的数据分析。不仅仅是包括分析,可能也会包括一些数据在日常运营当中的一些用途。

image.png

三、数据分析的应用场景

借助于大数据平台可以收集不同病例和治疗方案,以及病人的基本特征,可以简历针对疾病特点的数据库。未来需要这些数据统一收集起来,纳入统一的大数据平台,为人类健康造福。政府和医疗行业是推动这一趋势的重要动力。


四、数据分析的作用

1.以效果预测为目的的数据分析

1)举例:Express Scripts 是北美的药房福利管理公司。目前它正在通过一些复杂模型来检测虚假药品,这些模型还能及时提醒人们何时应该停止用药。能够解决该问题的原因在于每年管理着1.4亿处方,覆盖了一亿美国人和65000家药店。

2)讲解:拥有这些数据,该公司不光是能够来识别一些医疗的信息,同时也能够帮助制药企业来提升药效,某种药的效果现在如何,针对某些病有没有效果,那么这种预测分析,显然就是以效果分析为目的的数据分析。

2.以结论定义为目的的数据分析

1)举例:智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。

2)讲解:在案例中,主要是推断在未来的2~3个月的时间中,整个电网大概需要多少电,根据用户的用电习惯,以某种结论来作为目的进行分析,它的主要结论就是想要知道我的电网大概需要多少电,有了这个结论之后,整个智能电网就可以向发电企业或者是供电企业来配对,购买一定数量的电。

3.以数据探究为目的的数据分析

1)举例:专业篮球队会通过收集大量数据来分析赛事状况,然而他们还在为这些数据的整理和实际意义而发愁。通过分析这些数据,可否找到两三个制胜法宝,或者至少能保证球队获得高分?Krossover 公司正致力于此。

2)讲解:在早期没有大数据出现的时候,体育运动队会根据视频、录像来观看对手篮球队的一些打球方式或者战术,通过有针对性的研究分析,能够帮自己的球队找到一个制胜的法宝;出现大数据后,例如 Krossover 公司就是来对体育运动场上的技术数据进行收集,然后用来帮助专业运动队制定一个探究性的恰到好处的战术。

4.以业务执行为目的的数据分析

1)举例:零售企业也监控客户的店内走动情况以及商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见。在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。

2)讲解:零售企业中,有很多的数据收集的传感器或者一些手段,在门店货架的摆放上,通过顾客在店里的走动,包括他有没有从货架上去看这个产品,有没有拿这个产品,在某个货架旁停留了多长时间,通过这样的数据来分析。他可以适当的了解顾客的需求,向顾客推荐合适他们的产品。在这个领域中,它是属于要执行一种为了提升零售店的销售状况的业务为目的的数据分析流程。


五、数据分析流程

1.数据分析流程

在企业中,数据分析的标准流程。

(1)从一个项目的制定到业务部门的优先级的筛选,它的责任范围,业务部门负责项目优先级的制定,包括项目的制定。

(2)项目确定后,对项目的范围和目标进行确定,这个是必须要确定的。

(3)项目会开一些通气会,会对项目的范围和目标、交付的时间、交付的形式做出一些规定。

(4)数据分析师或者是工程师根据这个项目的要求理解的基础上来设计设个项目的分析手法,通常在项目设计当中需要Peer Review 找一些同事或专家来看一下整体的方案设计是否有问题。

(5)一旦项目的 Peer Review 结束后,我们对项目的时间节点,包括里程碑都要做出很明确的方案,主要目的是因为数据项目分析本身不是一个独立的项目,通常是在整个业务项目当中的一部分,数据分析只是提供了一个参考;通过了解业务的经营状况,各种数据的收集来向业务提出一个优化的或是为了一个目的做出的分析。

(6)在项目执行的开始,有一个完成的阶段和交付的阶段,交付阶段通常因为数据分析不是被很多人,尤其是业务部门所能理解的。所以在交付过程当中,需要有一个沟通和帮助业务部门理解的过程,所以有的时候数据分析师或工程师还必须要帮助业务部门来实施项目,同时需要监控项目的执行。

(7)项目结束之后,数据分析师同时也要承担的责任,对项目的效果进行结论性的分析,在此过程当中主要起到两个作用,第一个是对业务本身的绩效考评,第二个目的是分析师必须要从业绩的考评分析当中来了解业务整个设计有无问题,有没有提高的空间,在下一次设计这样的业务当中能够积累经验,设计得更好,所以有一个总结和提高的过程。

image.png

2.案例分析

(1)项目背景调查

①了解项目的背景有助于帮助理解项目的具体要求

②以前已经做过的项目可以有效利用起来

③提高项目的起点

项目背景调查重要的原因:因为分析师的本质是一个设计师,在设计一个项目的时候,对项目的背景是要有所了解的。比如,这个项目以前是否做过,怎么做好,怎么做不好;了解这些背景知识有助于在分析过程中能做出良好的判断最终让这个分析项目变得更完善。

(2)项目的目标

①项目成功的目标是衡量工作的唯—标准

②项目过程中的各种决策以符合有利于目标为准

项目的目标的重要性是毋庸置疑的,所有的分析都针对一个目标,目标不明确,分析方向一定会出现偏差,最后导致项目的失败,所以项目的某一种目标是必须要知道的。项目的目标有很多种有些是为了像零售企业会为了追求销售额、在政府为了提高居民的满意度;这些项目的目标必须要非常明确,通常一个项目的目标不会把它变得很多,因为有多个目标的时候,分析项目是很难找到平衡,把它做得完善,所以目标不能太多,通常情况下3~5个目标,可量化的目标是比较常见的。

(3)项目的范围

①项目涉及的数据和分析必须在范围规定的范围内

②精益原则

③时间\地点\人和物

项目的范围主要是遵循精益原则,不是范围越广泛越好,数据分析虽然有很多的数据,但是也希望分析的过程是比较精益的,不希望分析无限的扩大化,也不希望分析没有涵盖到足够大的范围,以免分析项目出现偏差;范围主要会涵盖时间、地点、人和物。

(4)方案设计

①数据获取

②数据分析设计

③工作量预估(Deadline )

④递交的形式:PPT,Excel

方案设计中会涉及一些数据获取,到哪里拿到数据,有些数据可能是拿不到的,有些数据可能要到外面去买,数据的来源必须要清楚,数据的质量情况如何,在这样的质量情况下能不能把分析项目做好,这些在方案设计当中都要有所考虑,有些数据拿不到或者非常昂贵,质量很差的时候,在这个分析过程当中,分析师是有责任告诉业务部门,某些分析内容由于数据的问题是无法进行、执行的,同时对数据的获取,数据本身的情况的了解,也有助于我们对数据分析的技术上面的选择,做出一个判断,有些算法或者分析的手法对脏数据不敏感,数据比较脏、比较多的情况下,我们可能会偏向使用某种分析手法,而在数据质量比较好的情况下,我们可能偏向另一种分析方法,数据分析师是有责任进行选择的。在方案设计中,也要对工作量做出预估,对交付的形式要非常清楚。

3.案例讲解

为了帮助学生了解分析方案制定的流程会用一个案例来讲解如何做背景调查、如何做目标制定、如何理解分析目标、如何执行方案,范围的确定等等。用的这个案例是一个热水器生成厂家,所以我们的背景调查是产品,不光是产品,整个中国热水器市场的了解,除此之外,它的背景,我们还想知道热水器厂的产品广告策略,因为这个项目涉及到的可能是一个广告策略的优化,分析项目就要对广告策略和过往的策略进行了解,有助于我们知道在做广告的时候,哪些方面是可以提高的,有些地方做得不太好,通过数据分析的方式来证明这些结论,来提出建议,所以我对这些进行分析。那么跟广告、业绩、销售额有关的情况我们也要知道,比如销售的网点、网上商城、线下的,是一个什么样的状况;了解这些渠道的情况,有助于我们做分析的时候,得出结论的时候,避免提出一些建议是业务部门无法执行的。

(1)案例:

①方案设计流程—项目的目标(1)

该项目的主要问题:我们的广告投入每年2-3个亿,今年2016年销售额下降很多,我们想知道如何做才能节约广告的成本?

问题分解:根据背景调研,该企业主要担心的是销售,并非广告的费用,因此更关心广告对销售的促进作用。

image.png

②方案设计流程—项目的目标(2)

广告投入到底是如何对销售业绩其作用的?

背景调查帮助了解情况(有许多其他因素影响销售)

image.png

③方案设计流程—项目的目标(3)

该项目的主要问题: 我们的广告投入每年2-3个亿,今年2016年销售额下降很多,我们想知道如何做才能节约广告的成本?

显然,项目成功的标准是帮助该企业了解广告投入对销售是如何其作用的,有哪些地方可以优化

因此,根据项目结束后必须有行动的原则( action on findings ) :分析主体必须满足两个条件︰

必须是直接或间接驱动销售的业务(causality );分析主体是可以被管理掌控和调整的,例如经销商策略。加入对经销商无控制力,则无需分析。

image.png

(2)讲解:

①在这个 PPT 中,主要是讲分析方案的范围,包括了时间、地点、人或物,这是作为分析主体必须要确定的范围。

②在数据分析的方案设计中,主要使用了“倒推法”,就只从项目的目的开始往后倒推来设计整体数据分析的流程。数据分析师,也就是设计师,和设计师工作的作业流程非常像。首先要知道业务部门要做什么,一旦知道要做什么后,就知道需要交付什么形式的报表或者是PPT,或者是一个可视化的软件呈现,为了递交这样的东西,需要把数据最后的状态做成什么样才能递交,那么知道数据最后的状态通常是一个表格,里面涉及到的一些信息、维度都要涵盖到,就需要在数据库中找到表格中相关的数据,知道如何去找的时候,就知道如何去编程。所以数据分析师的方法主要是“倒推法”;在方案设计过程中也要遵循“Sutton’ s Law,原则就是能用简单的方法解决问题绝不用复杂的方法,不是只有像机器学习,数据挖掘,统计建模这些才是数据分析,通常这些复杂的数据分析手段对数据的要求相当高,敏感度非常高,所以在设计这些复杂的模型时,只有在非常了解要做什么事的情况下才去做,或者是没有办法通过普通的数据分析解决的,可能只有用统计或数据挖掘的方法来做的才去选择。所以“Sutton’ sLaw”是数据分析领域中人人都要遵循的方法论。


六、 数据分析误区

1.对数据分析理解的错误

(1)分析数据的不明确,为分析而分析

案例:一家全球领先的汽车制造商决定开展一个情感分析项目,为期6个月,耗资1千万美元。项目结束之后,该厂商将结果分享给经销商并试图改变销售模式。然后,所得出的结果最终被证明是错误的。

数据分析中有这样一句话:“项目团队没有花足够的时间去了解经销商所面临的问题或业务建议,从而导致相关的分析毫无价值。

讲解:一个汽车制造商,开展一个情感分析项目,做完之后,结果被证明是错误的,是无法使用的,没有改变其销售模式,在没有了解业务部门的目的时,做了一个一千万美金的项目,做完后,业务部门无法接受这样的模式,所以必须了解目的。

(2)缺乏业务知识,分析结果偏离实际

案例:一家零售公司的首席执行官不认同亚马逊规模化、扁平化的服务模式,因此让 CIO 构建一个客户推荐引擎。项目最初的规划是半年为期,但是团队很快认识到诸如协同过滤(collaborative filtering)之类的概念无法实现。为此,一个团队成员提出做一个假的推荐引擎,把床单作为唯一的推荐产品。尽管可笑,这个主意其实并不坏,默认的推荐也能给企业带来销售上的提升。但是,由于大数据相关技能的缺失,真正意义上的引擎未能实现。

讲解:如果不懂网上的业务流程,不知道什么地方能让网上零售产生价值的,比如学了亚马逊,去做了一个协同过滤的推荐引擎,做完之后,给到业务部门使用的过程当中,由于与业务的整个体系不符合,虽然知道目的,但是设计过程中不了解业务流程,那么这个引擎做出来之后,可能没有帮到业务部门起到很好的作用。

(3)为了方法而方法、为了工具而工具

案例:有一所银行近年来客户在不断的流失,银行寻求流失的原因无果。一位在银行工作的博士研究了其他行业的大数据成功应用。最终,他的目光落在了电信行业的客户流失预测模型上。那些客户的确即将流失,但并不是因为对银行的服务不满意。他们之所以转移财产(有时是悄无声息的),是因为感情问题—正在为离婚做准备。了解模型的适用性、数据抽象的级别以及模型中隐含的细微差别,这些都是非常具有挑战性的,这是大数据分析的关键之—。

讲解:在做数据分析的时候,讲一些很复杂的算法、模型,典型的是为了方法而方法、为了工具而工具;这个明显是不对的,我们在做分析的时候是为了目的而工作,而不是为了方法。

(4)主观地解读数据的意义

案例:二战时英国空军希望增加飞机的装甲厚度,但如果全部装甲加厚则会降低灵活性,所以最终决定只增加受攻击最多部位的装甲。后来工作人员经过对中弹飞机的统计,发现大部分飞机的机翼弹孔较多,所以决定增加机翼的装甲厚度。后来一个专家说:“可是机头中弹的那些飞机就没有飞回来。用某一类型数据代替全部数据会误导我们做出错误的判断,在统计时需要注意。这一方面需要意识,在统计、分析数据时要时刻想着是否有其他的情况,是否有没有想到的数据类型,这些数据是不是能代表全部类型,尝试站在更高的角度去解读这些数据,而不是拿到数据后立刻就盲目分析。

讲解:他们主要是要了解一些飞机在飞行当中,在飞机的机体上如何加厚钢板,能够让飞机的存活率提高,目的非常清楚,在数据收集过程中对中弹飞机的统计,发现飞机的机翼弹孔比较多,所以数据分析师会说机翼中弹率大,机翼应该增加装甲的厚度。但真正的数据专家会说数据收集是有问题的,因为我们在查看数据的时候很多机头、发动机中弹的飞机根本没回来,全部已经损失没有回来,部分数据没有收集到,所以在做数据分析的时候是有偏差的,那么我们在解读数据的时候,不能凭借自己的主观来看待,应该客观看待。

2.客观性错误

3.技术性错误


七、本章小结

本章向读者介绍了数据发挥价值的四个阶段,重点是数据预测和数据业务执行阶段。正确的数据工具、模型和算法选择观,会让读者的数据工作更有效率且更有价值。在所有的数据分析和挖掘方法中,工具、算法和模型是固定的,但业务场景是灵活多变的,同一种数据分析可以应用到不同的场景下,关键看数据从业者的数据理解和业务结合能力。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
机器学习/深度学习 自然语言处理 算法
Python预测 数据分析与算法 学习笔记(特征工程、时间序列)2
Python预测 数据分析与算法 学习笔记(特征工程、时间序列)
180 0
|
机器学习/深度学习 算法 数据可视化
Python预测 数据分析与算法 学习笔记(特征工程、时间序列)1
Python预测 数据分析与算法 学习笔记(特征工程、时间序列)
122 0
|
存储 数据采集 机器学习/深度学习
物联网数据分析 | 学习笔记
快速学习物联网数据分析
物联网数据分析 | 学习笔记
|
数据挖掘
java202302java学习笔记第十五天-打乱数据分析
java202302java学习笔记第十五天-打乱数据分析
85 0
java202302java学习笔记第十五天-打乱数据分析
|
存储 SQL DataWorks
阿里云数据分析常用工具介绍 | 学习笔记
快速学习阿里云数据分析常用工具介绍。
阿里云数据分析常用工具介绍 | 学习笔记
|
Prometheus 监控 Cloud Native
监控数据分析(二)| 学习笔记
快速学习监控数据分析。
监控数据分析(二)| 学习笔记
|
机器学习/深度学习 数据采集 Ubuntu
Python数据分析与挖掘实战学习笔记
Python本身的数据分析功能不强,需要安装一些第三方扩展库来增强它的能力。
204 0
Python数据分析与挖掘实战学习笔记
|
数据采集 SQL 数据挖掘
数据预处理-数据解析-总结及预定数据分析|学习笔记
快速学习数据预处理-数据解析-总结及预定数据分析
163 0
数据预处理-数据解析-总结及预定数据分析|学习笔记
|
机器学习/深度学习 分布式计算 算法
数据分析方法介绍 | 学习笔记
快速学习数据分析方法介绍。
数据分析方法介绍 | 学习笔记
|
Prometheus 监控 Cloud Native
课时4:监控数据分析 | 学习笔记
快速学习课时4:监控数据分析,介绍了课时4:监控数据分析系统机制, 以及在实际应用过程中如何使用。
课时4:监控数据分析 | 学习笔记