聊聊数据分析

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 聊聊数据分析

某天你去买西瓜,你问老板多少钱一个,老板称了一个大的说20元。 你说要一半,老板从中间切开,称后说15元。 你拿起另一半,丢下5块钱……

一、什么是数据分析

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

当我们在日常生活中做任何决定时,我们都会根据以往已经发生的事情和现在所处的环境进行思考,然后做出决定。期间,我们可能还收集过去的一些记忆或未来的预判,这其实就是生活中的数据分析。如果把这种思路用在商业上,就是现在大部分数据分析师做的工作。

二、为什么我们需要数据分析

文章开头的那个例子,听起来很好笑,但这其中就是生活中的数据分析,反向思维的使用。

某天,老板喊你到办公室,问咱们的产品销售额怎么一直在下滑,怎么回事?这时候,你对历史销售产品的数量、分类、定价等一些列数据分析了查看,发现某一类产品的定价比竞品稍微高了一些,经过调整该销售价格,后来的一个月销售量增加了很多,也带动了整体的销售额。

可见,在生活中和在工作中,都需要分析来帮助我们实现利益最大化,可以说有商业利益的地方就会有数据分析。

三、数据分析工具

数据分析工具可以帮助我们更容易地处理和操作数据,分析数据集之间的关系。

SQL:这是数据处理中我最喜欢的工具,为什么呢?你可以看到,现在大数据计算引擎,都已经支持了SQL语法,在工作中,我们可以无缝的使用各个计算引擎处理数据,SQL还有一个好处是,不用编译啊,即查即显示,随时可以调整处理的方式。

Python:这也是我喜欢的工具,为什么呢?Python现在已经有各种机器学习的包供你选择,回归算法,聚类算法,预测算法,相关性算法,你几乎不需要在手写这些算法,了解算法原理后,直接站在巨人肩膀上摘苹果就好了。另外一块就是可视化,Python各种可视化包完美满足你的需求。

目前这两种是我用的最多的分析工具。

四、数据分析类型

数据分析问题一般分为以下几类:

统计分析

诊断分析

预测分析

文本分析

统计分析

统计分析以仪表板的形式使用过去的数据来展示“发生了什么”。统计分析包括数据的收集、建模、分析、展示。和我们实际工作中BI的工作很是类似,对历史数据各个维度的统计,我们得出一个结论。

比如,我们对历史一个月电动车的充电时间分布得出,电动车更倾向于白天充电,这可能意味着车主倾向于更积极地利用公共充电设施。

诊断分析

诊断分析通过从统计分析中找到原因,也就是找到“为什么会发生”。这种分析有助于识别数据的行为模式,如果新的问题出现在您的业务流程中,那么可以查看此分析,以找到该问题的类似模式,这样也就找到了新问题的处置方式了。

比如,故障树分析,通过对历史数据的分析,我们清楚的知道每个故障都的根因,然后下次再来一个类似的故障,我们就可以根据故障树套进去,快速进行解决。

再举个容易理解的例子,临床医生看病,其实就是诊断性分析,每个人的症状不可能完全一样,医生根据血压,心电图等,能够快速诊断出你的病因。

预测分析

预测分析通过使用历史数据来显示“可能会发生什么”。最简单的例子是,买房。买房子对于很多人来说都是一件大事,会考虑很对因素,其中一条很重要的就是,未来我的房子会增值多少!你会看周边的环境,学校分布,公共交通,政府规划等等各种因素,然后你会看前几年哪个地方的房价涨的最快,是因为那些因素涨的快,这些因素将帮助你选择房子。当然,预测的准确性决定你能得到的因素有多详细。所以预测准确是非常难的一件事。(投资房产有风险,需谨慎)

文本分析

文本数据数据量大的特点,使得人工信息处理变得效率低下,必须借助计算机来完成相关工作,但是文本数据蕴含着复杂的语义关系和情感倾向,计算机无法直接识别、处理,所以需要将文本数据进行相应的转化处理。首要目标就是利用自然语言处理和分析方法将“文本”转换为“数据”,具体会涉及到词频分布研究、模式识别、关联分析、信息提取、可视化和预测分析等等,通过文本数据分析,可以初步推断文本的主要含义和文本提供者的意图。

比如之前介绍的频繁项挖掘,其实也是文本分析的一种。另外一个文本分析常见用途就是在互联网安全上的使用,比如QQ群里有人发布了一条带有敏感字段的信息连接,可能会打不开或者博客上你写的有敏感信息也不能发布。另外,垃圾邮件的识别过滤等都使用文本分析。

五、总结

上面是来自某网站数据分析师的平均薪资,前几天大数据架构,大数据运维非常火,薪资很高。随着各个公司大数据平台都已经完成了搭建,公司需要利用该平台来实现商业价值,而数据分析正式实现商业价值所需要的人才,所以你会看到现在大数据分析很火了。

很多人会说,没有接触过算法,算法太难了,其实并没有那么难,机器学习算法可以了解我们之前的算法介绍系列。前辈们也已经实现了很多例子,我们可以参考,最重要的是分析思路、方法,比如开头说的的逆向思维等,找到你自己行业的分析思路。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
数据采集 存储 数据挖掘
数据分析
【6月更文挑战第16天】数据分析。
27 6
|
4月前
|
数据采集 机器学习/深度学习 人工智能
数据分析与理解
数据分析与理解
60 3
|
搜索推荐 数据挖掘
数据分析场景
数据分析场景
|
数据挖掘 Windows
数据分析的前世今生
数据分析的前世今生
85 0
|
数据采集 SQL 算法
【数据分析】:什么是数据分析?
【数据分析】:什么是数据分析?
【数据分析】:什么是数据分析?
|
数据采集 XML 存储
C++数据分析的应用
C++是一种功能强大的编程语言,提供高性能、高效性和灵活性,适用于各种应用程序。其中,数据分析是C++的一个重要领域,涉及大量数据的收集、处理和解释。C++可以有效处理使用HTTP、FTP、JSON、XML等各种协议和格式的网络通信和数据采集任务。
251 0
|
存储 数据可视化 算法
数据分析案例-气象数据分析
数据分析案例-气象数据分析
297 0
数据分析案例-气象数据分析
|
数据采集 分布式计算 数据可视化
数据分析学习
个人学习
197 0
数据分析学习
|
数据采集 机器学习/深度学习 人工智能
数据分析--数据分析是什么?
数据分析--数据分析是什么?
216 0
HH
|
SQL 数据挖掘 物联网
数据分析小结(1)
针对数据分析的小部分整理,物联网数据分析,又称Link Analytics,是阿里云为物联网开发者提供的设备智能分析服务,全链路覆盖了设备数据生成、管理(存储)、清洗、分析及可视化等环节。有效降低数据分析门槛,助力物联网开发工作。
HH
327 0
下一篇
DDNS