有时抛弃一些数据会使可视化效果更美丽。
在寻找设备方面,第一,如果要为数据可视化寻找设备,那么要找遍每个地方。有很多令人兴奋的传感技术被开发出来但却从来未被使用过。如果你准备启动一个可视化项目,首先在贸易展览上或你所在地的大学做一些在线调研。确认是否有新的、你未曾考虑过的方式可以捕捉数据。不同的设备可能会给你的工作增加新的主题或显示出你之前没有看到的数据。总之,尽力去寻找可以给人震撼的可视化技术。
第二,是一个警告。如果你只使用一种设备,那么你的工作看起来可能仅仅是该设备的演示。单一个工具是无法定义该作品的,反而是被该工具贴上一个标签。混合使用两种数据捕获系统使得该视频后面的故事变得更有趣。
可视化中数据质量的低下和频繁错误,也使得获取数据看起来很困难,这种似是而非的困难增强了故事性。一张清晰的图片无法表达我们想要表达的意思。
感悟:
- 通过新的方式看普通的东西会使它变得很特别;
- 讲一个故事;该故事会对你的工作很有帮助;但是尽可能根据你的数据将故事。给这些数据增加一些含义要比仅仅展示数据更加生动;
- 使用多种可视化技术比单一技术会更有趣;
- 想想数据,而不是真实世界。数据即是产品,当你看一些你想可视化的东西时,想想你可以从中获取的数据。
5.不需要使用全部数据:通过大范围抽样,生成更有趣的数据点;
6.把数据开源:通过让其他人也拥有这些数据,让每个人也可以创建自己认为美丽的作品。如果你见到他们的作品,你会感到高兴且满足。
7.与能帮组你研究的对象一起工作。和比你更具智慧的人合作,你的项目会受益良多。
数据之“美”取决于这些数据如何为人所用。数据蕴涵着帮助人们改进对事物的理解,并做出更优决策的潜能,因此数据是“美丽”的。要让数据实现其价值,需要做到收集并保护正确的数据,让合适的用户访问并理解使用它们。
选择收集什么数据以及如何设计数据存储的基础设施、模式、访问机制决定了在避免数据给人们带来伤害额同时,激发数据给人们带来信息和启发的潜能。但是攀越美丽巅峰的“最后一里”是人类—信息相互交互的问题,即为了支持对数据的分析和通信,人们应该如何展示和探索数据。
我们的涉及哲学需要理清哪一种数据集合可能是最大的兴趣点,而哪一种可视化设计和交互技术可以最佳支持对这些维度的积极探索。
根据每个职业的社会经济指数分值来改变其对应的颜色饱和度。平均收入越高的序列曲线,其颜色越深。不要为显示 增加误导或无意义的视觉特征。
何时数据无法驱动?
我们知道数据可以被故意混淆,本文的重点是它如何会被无意混淆。特别在如下情况下:
● 我们使用数据的方式不够准确;
● 我们采用已知的偏见方式处理数据;
数据并非越多越好
统计是一门表示和近似的科学。捕获或者观察一个系统越多,就越能真实地表示它。一篇入门性文章往往会强调:随着你增加样本大小,置信区间就减少,而没有丧失任何置信度。换句话说,更多的数据可以帮助你控制误差边际。
虽然无论有多少个与假设一致的结果都无法证明该假设是正确的,但是只要存在一个反面结果,就可以推翻该假设。更多的数据只是增加了必然性边际,而一个实例就可以推翻一个世纪的信仰。
如果数据不是正态分布,更多的数据将不会减少你期望的误差边际。
无法检测到威胁生命的疾病的误差所付出的成本可能比错误的诊断更高。在这种情况下,通过提高诊断正确性(减少“漏报率”)的数据比通过大量数据来减少“误报率”更有用。
数据并不一定需要大规模。信息时代一个陈腐的“箴言”是:处理10TB的数据和处理10比特的数据一样简单,而制作100亿个向导小工具要比制作10个更昂贵。
“红桃皇后”效应
当模型过拟合时,它就失去了预测能力。此外,如果我们喜欢接受任何最合适已有数据的模型,而不关心其复杂性或灵敏性,那么我们就会犯一些错误。首先,忘记数据的因果关系,对它有损害,过度调试的模型无法说明任何东西。