摘要
数据分析与可视化
大多数可视化故事是围绕问题或话题展开的:数据探索或收集的起源。这问题包含了整个故事的起因,构成整个故事。这样的数据征程以一个问题开始,比如,2014年,报道的伊波拉病毒死亡人数是多少?回答这个问题需要一个彼此协作的团队完成。数据传播者的作用应该是创造一种转变观众看法的经历。
故事的关键在于有意义的可视化过程。这些可视化的内容回答了下面几个问题:
数据充足吗?
有这个数据存在的时间窗吗?
全球哪些相关的事件会影响数据?
需要重申的是,在理解数据的基础上识别出我们试图回答的问题非常重要。有时,在确定最终的问题前,可以先开始挖掘数据。在这种情况下,提炼对数据的理解可能会得到一个改进后更清晰的问题。
在有现成的获取、分析和收集所需信息方法的前提下,这个过程就从输入数据开始。还有一些情况,最好能够通过可视化收集来的信息来消除噪音,而在另外一些情况下,可以在可视化之前先进行数据过滤和数据分析。本章我们将学习不同的数据探索方法,为可视化做准备。下面是我们需要回顾的一些有趣的故事和相关的概念:
获取、解析和过滤数据、探测离群点和异常值、数据挖掘和提炼、可视化呈现以及交互
用数据讲述有趣的故事
感知、演示方法和可视化的最佳实践
交互式可视化—探索事件的听众和布局
2.1 为什么可视化需要规划
可视化的整个过程需要具有不同技能和专业领域知识的人。数据工人努力收集数据并完成分析。数学家和统计学家理解可视化设计原则,并用这些原则完成数据交流。设计师或艺术家在一些情况下,称为开发先驱者具备可视化所需的技能,而业务分析员在寻找顾客行为模式、离群点或突发趋势等。然而,这往往从获取或收集数据开始,步骤如下:
获得或收集数据 这些数据来自外部资源、网站或磁盘上的文件
解析和过滤数据 用编程方法进行解析、清洗和减少数据
分析和提炼数据 删除噪音和一些不必要的维度,发现模式
呈现和交互 用更容易得到和理解的方法展示数据
处理过程中需要做的工作因不同问题而异。在一些情况下,分析比过滤数据要做更多工作。上一章已讨论过,一些案例需要进行反复分析和可视化。换句话说,这些步骤的分布不总是可预测的和一致的。