《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.1 数据采集的几条重要原则

简介: 本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章 ,第3.1节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.1 数据采集的几条重要原则 3.1.1 要足够“复杂” 先说一个跟客户接触的例子。

本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章 ,第3.1节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.1 数据采集的几条重要原则

3.1.1 要足够“复杂”
先说一个跟客户接触的例子。一个国企学员课间休息时来问我:“老师,我们领导经常批评我,说我们写的工作报告(数据报告)太简单了,你能看看我们写的报告吗?”我到他电脑前面看了一下,报告确实挺简单的,感觉就是几百个字吧,再看看数据,大概只有6列的样子,难怪领导不满意。
可见,在采集数据的时候,必须要注意数据的复杂性,如同1.1节所说,要综合考虑数据量、复杂度、颗粒度等因素。
都说通过实例说明体会更深,下面再来看另一个例子。数年前,我参与了一家建筑涂料公司发展规划的制作,该公司希望通过对各种信息数据进行分析,从而对未来5年中国的产品发展市场份额有一个整体规划和了解。
让我们看看他们收集了哪些数据,如图3-1所示。


image


可以看到,要收集的数据不少,但事实上,想要搞清楚企业在未来数年中可能出现的市场态势,即使这些数据都能够顺利找到,可能仍然是不够的。

3.1.2 要足够“细”

“细”实际上就是颗粒度的意思,稍微有点数据收集经验的人大概都知道,要收集年度的数据其实相对比较容易,如果粒度为季度,可能就会有点问题了,到月则很难了,至于每周的数据,那就更不要想了。
不过,也不是每个公司都如此,曾有证券公司做定量分析的人说过,证券数据分析虽然不好做,但是有一点好,起码不用为数据发愁,因为证券系统可以提供最细到1分钟的数据,自然,任何周期的数据和指标都可以自己计算得出。

3.1.3 要有“跨度”

这里讲的“跨度”涉及两个方面,一是数据的时间跨度;二是数据的属性跨度。
中国有句老话就是“路遥知马力,日久见人心”,在数据方面也是如此。数据的时间跨度有时候也称为“数据年龄”,对于同样的数据指标而言,若“数据年龄”分别为5年和1年,差距其实是挺大的。数据年龄越长,往往越能说明问题。
属性跨度稍微难理解一点,实际上就是尽量要找不同的数据,如图3-1,我们找了宏观经济的数据,例如GDP、经济发展增速;也找了全国人口变迁、流动的数据,还找了竞争对手市场占有率的数据等。总之,所找的数据越“杂”,数据跨度就越大,往往也就越能说明问题。

3.1.4 要有可行性

数据收集的一个重要思考维度就是可行性,做过数据采集的人都知道,有时候数据采集的难度之大,会让你觉得这个事情都做不下去了。
我供职过的企业曾经给中国移动的几个省分公司做过供应商,有一次A省分公司让我们了解移动客户的情况,并且给出了一个“客户画像”(这在当时是一个流行的术语,直到现在还有客户提及),那个时候不像现在,手机号码是实名制的,当时中国移动的各个省分公司的全球通手机号比例一般都在20%以下,大部分的手机用户都是神州行和动感地带的,我们根本不知道用户特征,甚至不知道客户的性别。这种情况下,要进行数据收集是很困难的。
还有一个是营销活动数据的收集案例,我们曾经为中国移动的某省分公司收集过营销活动的数据,目的是想知道移动做了营销活动之后,客户的反应情况。当时移动做业务营销的主要方式是短信群发,判断客户对营销活动有反应的终极标准是客户订制了该业务,当然也有一些客户是到移动营业厅或拨打移动客服号1860(当初的客服号,现在改成10086)咨询了该业务。可以想象,在当时的条件下收集这样的数据是何其困难。

相关文章
|
25天前
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
67 5
|
1月前
|
人工智能 Python
读取excel工具:openpyxl | AI应用开发
`openpyxl` 是一个 Python 库,专门用于读写 Excel 2010 xlsx/xlsm/xltx/xltm 文件。它是处理 Excel 文件的强大工具,可以让你在不需要安装 Excel 软件的情况下,对 Excel 文件进行创建、修改、读取和写入操作【10月更文挑战第3天】
71 0
|
1月前
|
数据采集 数据可视化 数据挖掘
基于Python的数据分析与可视化实战
本文将引导读者通过Python进行数据分析和可视化,从基础的数据操作到高级的数据可视化技巧。我们将使用Pandas库处理数据,并利用Matplotlib和Seaborn库创建直观的图表。文章不仅提供代码示例,还将解释每个步骤的重要性和目的,帮助读者理解背后的逻辑。无论你是初学者还是有一定基础的开发者,这篇文章都将为你提供有价值的见解和技能。
117 0
|
1月前
|
SQL 数据采集 数据可视化
深入 Python 数据分析:高级技术与实战应用
本文系统地介绍了Python在高级数据分析中的应用,涵盖数据读取、预处理、探索及可视化等关键环节,并详细展示了聚类分析、PCA、时间序列分析等高级技术。通过实际案例,帮助读者掌握解决复杂问题的方法,提升数据分析技能。使用pandas、matplotlib、seaborn及sklearn等库,提供了丰富的代码示例,便于实践操作。
162 64
|
14天前
|
SQL 数据可视化 数据挖掘
想让Excel表格设计更美观?试试这几款好用工具!
Excel表格设计在项目管理和数据分析中至关重要。本文推荐四款辅助工具:板栗看板、Excel自动图表助手、Think-Cell Chart 和 Power BI,分别在任务管理、图表生成、数据可视化等方面表现突出,帮助你设计出更专业、美观的表格。
31 2
|
26天前
|
数据处理
在Excel中,通配符是一种强大的工具
【10月更文挑战第23天】在Excel中,通配符是一种强大的工具
21 4
|
28天前
|
机器学习/深度学习 并行计算 数据挖掘
R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域
【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。
43 2
|
28天前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
29 2
|
13天前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
1月前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析:从入门到实践
使用Python进行数据分析:从入门到实践
51 2
下一篇
无影云桌面