《数据分析实战：基于EXCEL和SPSS系列工具的实践》——第3章数据采集与整理 3.1 数据采集的几条重要原则-阿里云开发者社区

《数据分析实战：基于EXCEL和SPSS系列工具的实践》——第3章数据采集与整理 3.1 数据采集的几条重要原则

2017-07-03 2239

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章计算机《数据分析实战：基于EXCEL和SPSS系列工具的实践》一书中的第3章，第3.1节，作者纪贺元，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第3章

数据采集与整理

巧妇难为无米之炊，对于数据分析而言，数据收集是极其重要的一步。我曾经听到有人说过，只要有数据，分析嘛，总归做得出来的，我个人基本同意这个观点。

但大多数情况下，我们面临的都不是现成的数据，需要有一个企业外或企业内的数据收集过程，例如宏观经济数据的收集、市场调查数据的采集等，下面就来看看数据采集需要注意的几条重要原则。

3.1　数据采集的几条重要原则

3.1.1　要足够“复杂”

先说一个跟客户接触的例子。一个国企学员课间休息时来问我：“老师，我们领导经常批评我，说我们写的工作报告（数据报告）太简单了，你能看看我们写的报告吗？”我到他电脑前面看了一下，报告确实挺简单的，感觉就是几百个字吧，再看看数据，大概只有6列的样子，难怪领导不满意。

可见，在采集数据的时候，必须要注意数据的复杂性，如同1.1节所说，要综合考虑数据量、复杂度、颗粒度等因素。

都说通过实例说明体会更深，下面再来看另一个例子。数年前，我参与了一家建筑涂料公司发展规划的制作，该公司希望通过对各种信息数据进行分析，从而对未来5年中国的产品发展市场份额有一个整体规划和了解。

让我们看看他们收集了哪些数据，如图3-1所示。

可以看到，要收集的数据不少，但事实上，想要搞清楚企业在未来数年中可能出现的市场态势，即使这些数据都能够顺利找到，可能仍然是不够的。

3.1.2　要足够“细”

“细”实际上就是颗粒度的意思，稍微有点数据收集经验的人大概都知道，要收集年度的数据其实相对比较容易，如果粒度为季度，可能就会有点问题了，到月则很难了，至于每周的数据，那就更不要想了。

不过，也不是每个公司都如此，曾有证券公司做定量分析的人说过，证券数据分析虽然不好做，但是有一点好，起码不用为数据发愁，因为证券系统可以提供最细到1分钟的数据，自然，任何周期的数据和指标都可以自己计算得出。

3.1.3　要有“跨度”

这里讲的“跨度”涉及两个方面，一是数据的时间跨度；二是数据的属性跨度。

中国有句老话就是“路遥知马力，日久见人心”，在数据方面也是如此。数据的时间跨度有时候也称为“数据年龄”，对于同样的数据指标而言，若“数据年龄”分别为5年和1年，差距其实是挺大的。数据年龄越长，往往越能说明问题。

属性跨度稍微难理解一点，实际上就是尽量要找不同的数据，如图3-1，我们找了宏观经济的数据，例如GDP、经济发展增速；也找了全国人口变迁、流动的数据，还找了竞争对手市场占有率的数据等。总之，所找的数据越“杂”，数据跨度就越大，往往也就越能说明问题。

3.1.4　要有可行性

数据收集的一个重要思考维度就是可行性，做过数据采集的人都知道，有时候数据采集的难度之大，会让你觉得这个事情都做不下去了。

我供职过的企业曾经给中国移动的几个省分公司做过供应商，有一次A省分公司让我们了解移动客户的情况，并且给出了一个“客户画像”（这在当时是一个流行的术语，直到现在还有客户提及），那个时候不像现在，手机号码是实名制的，当时中国移动的各个省分公司的全球通手机号比例一般都在20%以下，大部分的手机用户都是神州行和动感地带的，我们根本不知道用户特征，甚至不知道客户的性别。这种情况下，要进行数据收集是很困难的。

还有一个是营销活动数据的收集案例，我们曾经为中国移动的某省分公司收集过营销活动的数据，目的是想知道移动做了营销活动之后，客户的反应情况。当时移动做业务营销的主要方式是短信群发，判断客户对营销活动有反应的终极标准是客户订制了该业务，当然也有一些客户是到移动营业厅或拨打移动客服号1860（当初的客服号，现在改成10086）咨询了该业务。可以想象，在当时的条件下收集这样的数据是何其困难。

《数据分析实战：基于EXCEL和SPSS系列工具的实践》——第3章数据采集与整理 3.1 数据采集的几条重要原则

第3章

数据采集与整理

3.1　数据采集的几条重要原则

3.1.1　要足够“复杂”

3.1.2　要足够“细”

3.1.3　要有“跨度”

3.1.4　要有可行性

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

《数据分析实战：基于EXCEL和SPSS系列工具的实践》——第3章 数据采集与整理 3.1 数据采集的几条重要原则

第3章

数据采集与整理

3.1 数据采集的几条重要原则

3.1.1 要足够“复杂”

3.1.2 要足够“细”

3.1.3 要有“跨度”

3.1.4 要有可行性

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《数据分析实战：基于EXCEL和SPSS系列工具的实践》——第3章数据采集与整理 3.1 数据采集的几条重要原则

3.1　数据采集的几条重要原则

3.1.1　要足够“复杂”

3.1.2　要足够“细”

3.1.3　要有“跨度”

3.1.4　要有可行性