最后三节课无关代码,所以也没有什么可以实践的。就直接用老师的课堂笔记了。
数据分析流程
问题定义是整个数据分析实施的前提,它甚至关系到了项目的成败,一个优秀的问题定义对于整个项目来说等于成功了一半。所以怎么去制定一个优秀的数据分析问题变成了至关重要的环节。
数据分析思维
确定数据分析的问题
一个优秀的数据分析问题需要满足重要性,可行性,新颖性,挑战性四个性质
- 重要性:该问题得到解决后,可以产生效益
- 可行性:该问题可以得到解决,或者说问题可以量化且有数据支持
- 新颖性:该问题涉及的区域没有人涉及过
- 挑战性:对于该问题其他人无法得出有效结论
重要性和可行性保证了结果的可用性,新颖性和挑战性进一步增加了结果的价值。
确定问题的可行性
- 领域知识:个人积累,询问专家,现学现卖
站在领域角度去考虑问题可行性的高低。 - 数据支持:内部数据,合作数据,公开数据
思考最重要的数据是否可以得到,数据是否支持得到最后的结果。
问题分解
在日常工作中,总会遇到各种“大”“笼统”“难入手”的问题,那么把复杂的、笼统的问题拆解成一个个小的、可执行开展的问题就是问题拆解能力,只有正确拆解了问题,才能得到合理的结果。
问题分解的两个要点:
- 每个子问题有明确的输出;
- 子问题之间尽量解除耦合。
案例分析:城市电动汽车充电桩部署推荐
① 确定数据分析的问题
重要性:充电桩部署是推广新能源汽车至关重要的环节。
② 确定问题的可行性
-
数据支持
- 合作数据:电动汽车行驶轨迹;
- 公开数据:充电桩部署地址及实时使用率 。
-
领域知识
- 询问专家:从相关汽车行业从业人员了解->现有工业界方案:对汽车停车事件进行聚类;
- 现学现卖:查看现有研究文献->多为利用汽车行车轨迹将充电桩部转变为优化问题。
从此获得的领域知识:
- 部署充电桩涉及多个子问题:地址,充电桩规模,类型(快慢冲);
- 汽车停车事件是反映充电需求的一个重要因素;
- 将地理区域离散化(划分成很多小格子)是广泛采用的一种建模策略。
③ 问题分解
充电桩部署这个大问题分为以下问题:
- 找到整个城市最需要部署充电桩的区域;
- 有了区域的具体位置,找到区域内停车场的位置;
- 部署n个充电桩后,使用率会是如何?->问题转化:部署2/4/6/8个充电桩,预测使用率。
④ 解决问题
- 通过停车事件数量/充电桩部署数量得到地图热力图(探索性数据分析:可视化)
- 抓取区域内停车场具体位置及其实时使用量,将未安装充电桩的停车场作为候选区域
-
部署n个充电桩后,使用率会是如何?->回归问题:
- X: 停车场规模,不同时间停车数量,区域类型,预计部署充电桩数量、类型等
- y: 充电桩使用率
数据分析流程详解:
- 问题定义:明确数据分析目标是数据分析的出发点。明确数据分析目标就是要明确本次数据分析要研究的主要问题和预期的分析目标等。
- 数据获取:收集数据是指从分析目标出发,排除干扰因素,正确收集服务于既定分析目标的数据。正确的数据对于实现数据分析目的将起到关键性的作用,一般数据来源于三种方式内部数据,合作数据,公开数据
- 清理与储存:数据的加工整理通常包括数据缺失值处理、数据的分组、基本描述统计量的计算、基本统计图形的绘制、数据取值的转换、数据的正态化处理等,它能够帮助人们掌握数据的分布特征,是进一步深入分析和建模的基础
- 分析与建模:数据分析与建模是用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。
- 系统:通过图表或者软件,有理有据形象且专业的表达出来相关结果。
- 报告:一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。
扩展阅读