《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.1 数据采集的几条重要原则

简介: 本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章 ,第3.1节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.1 数据采集的几条重要原则 3.1.1 要足够“复杂” 先说一个跟客户接触的例子。

本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章 ,第3.1节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.1 数据采集的几条重要原则

3.1.1 要足够“复杂”
先说一个跟客户接触的例子。一个国企学员课间休息时来问我:“老师,我们领导经常批评我,说我们写的工作报告(数据报告)太简单了,你能看看我们写的报告吗?”我到他电脑前面看了一下,报告确实挺简单的,感觉就是几百个字吧,再看看数据,大概只有6列的样子,难怪领导不满意。
可见,在采集数据的时候,必须要注意数据的复杂性,如同1.1节所说,要综合考虑数据量、复杂度、颗粒度等因素。
都说通过实例说明体会更深,下面再来看另一个例子。数年前,我参与了一家建筑涂料公司发展规划的制作,该公司希望通过对各种信息数据进行分析,从而对未来5年中国的产品发展市场份额有一个整体规划和了解。
让我们看看他们收集了哪些数据,如图3-1所示。


image


可以看到,要收集的数据不少,但事实上,想要搞清楚企业在未来数年中可能出现的市场态势,即使这些数据都能够顺利找到,可能仍然是不够的。

3.1.2 要足够“细”

“细”实际上就是颗粒度的意思,稍微有点数据收集经验的人大概都知道,要收集年度的数据其实相对比较容易,如果粒度为季度,可能就会有点问题了,到月则很难了,至于每周的数据,那就更不要想了。
不过,也不是每个公司都如此,曾有证券公司做定量分析的人说过,证券数据分析虽然不好做,但是有一点好,起码不用为数据发愁,因为证券系统可以提供最细到1分钟的数据,自然,任何周期的数据和指标都可以自己计算得出。

3.1.3 要有“跨度”

这里讲的“跨度”涉及两个方面,一是数据的时间跨度;二是数据的属性跨度。
中国有句老话就是“路遥知马力,日久见人心”,在数据方面也是如此。数据的时间跨度有时候也称为“数据年龄”,对于同样的数据指标而言,若“数据年龄”分别为5年和1年,差距其实是挺大的。数据年龄越长,往往越能说明问题。
属性跨度稍微难理解一点,实际上就是尽量要找不同的数据,如图3-1,我们找了宏观经济的数据,例如GDP、经济发展增速;也找了全国人口变迁、流动的数据,还找了竞争对手市场占有率的数据等。总之,所找的数据越“杂”,数据跨度就越大,往往也就越能说明问题。

3.1.4 要有可行性

数据收集的一个重要思考维度就是可行性,做过数据采集的人都知道,有时候数据采集的难度之大,会让你觉得这个事情都做不下去了。
我供职过的企业曾经给中国移动的几个省分公司做过供应商,有一次A省分公司让我们了解移动客户的情况,并且给出了一个“客户画像”(这在当时是一个流行的术语,直到现在还有客户提及),那个时候不像现在,手机号码是实名制的,当时中国移动的各个省分公司的全球通手机号比例一般都在20%以下,大部分的手机用户都是神州行和动感地带的,我们根本不知道用户特征,甚至不知道客户的性别。这种情况下,要进行数据收集是很困难的。
还有一个是营销活动数据的收集案例,我们曾经为中国移动的某省分公司收集过营销活动的数据,目的是想知道移动做了营销活动之后,客户的反应情况。当时移动做业务营销的主要方式是短信群发,判断客户对营销活动有反应的终极标准是客户订制了该业务,当然也有一些客户是到移动营业厅或拨打移动客服号1860(当初的客服号,现在改成10086)咨询了该业务。可以想象,在当时的条件下收集这样的数据是何其困难。

相关文章
|
3月前
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
141 5
|
5月前
|
数据可视化 数据挖掘 Linux
震撼发布!Python数据分析师必学,Matplotlib与Seaborn数据可视化实战全攻略!
在数据科学领域,数据可视化是连接数据与洞察的桥梁,能让复杂的关系变得直观。本文通过实战案例,介绍Python数据分析师必备的Matplotlib与Seaborn两大可视化工具。首先,通过Matplotlib绘制基本折线图;接着,使用Seaborn绘制统计分布图;最后,结合两者在同一图表中展示数据分布与趋势,帮助你提升数据可视化技能,更好地讲述数据故事。
93 1
|
4月前
|
数据采集 数据可视化 数据挖掘
基于Python的数据分析与可视化实战
本文将引导读者通过Python进行数据分析和可视化,从基础的数据操作到高级的数据可视化技巧。我们将使用Pandas库处理数据,并利用Matplotlib和Seaborn库创建直观的图表。文章不仅提供代码示例,还将解释每个步骤的重要性和目的,帮助读者理解背后的逻辑。无论你是初学者还是有一定基础的开发者,这篇文章都将为你提供有价值的见解和技能。
292 0
|
3月前
|
数据挖掘 关系型数据库 Serverless
利用数据分析工具评估特定业务场景下扩缩容操作对性能的影响
通过以上数据分析工具的运用,可以深入挖掘数据背后的信息,准确评估特定业务场景下扩缩容操作对 PolarDB Serverless 性能的影响。同时,这些分析结果还可以为后续的优化和决策提供有力的支持,确保业务系统在不断变化的环境中保持良好的性能表现。
99 48
|
2月前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
2月前
|
监控 数据可视化 数据挖掘
数据看板制作工具评测:这6款工具能如何提升企业的数据分析效率?
本文介绍了6款数据看板制作工具,包括板栗看板、Tableau、Power BI、Qlik Sense、Google Data Studio和Looker,从功能、适用场景等方面进行了详细对比,旨在帮助企业选择最合适的工具以实现高效的数据可视化和管理决策。
|
4月前
|
SQL 数据采集 数据可视化
深入 Python 数据分析:高级技术与实战应用
本文系统地介绍了Python在高级数据分析中的应用,涵盖数据读取、预处理、探索及可视化等关键环节,并详细展示了聚类分析、PCA、时间序列分析等高级技术。通过实际案例,帮助读者掌握解决复杂问题的方法,提升数据分析技能。使用pandas、matplotlib、seaborn及sklearn等库,提供了丰富的代码示例,便于实践操作。
194 64
|
3月前
|
运维 数据挖掘 网络安全
场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析
基于Flink和Hologres构建的实时数仓方案在数据开发运维体验、成本与收益等方面均表现出色。同时,该产品还具有与其他产品联动组合的可能性,能够为企业提供更全面、更智能的数据处理和分析解决方案。
|
4月前
|
机器学习/深度学习 并行计算 数据挖掘
R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域
【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。
95 2
|
4月前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
111 2