1.6 相关性的基础
读者可能已经注意到,从列联表检测相关性是很难的。检测模式来源于实践,但许多人更擅长于识别可视化的模式。检测行为模式是机器学习的基本目标之一。虽然高级的监督机器学习技术将在第4章和第5章中讨论,但对变量之间相互依存关系的初步分析可得到正确的数据转换(或最佳的推理技术)。
目前有很多成熟的可视化工具及相关的网站(如http://www.kdnuggets.com)都专注于数据分析、数据研究和可视化软件的排名以及推荐。本书不会去质疑该排名的有效性和准确性,但确实很少有网站会介绍用Scala进行数据可视化的具体方法。其实Scala确实能做可视化,比如用D3.js包。一个好的可视化可将你的发现展示给更多的观众,因为一图胜千言。
本章会使用Grapher进行可视化,Mac OS的笔记本上都有这个软件。打开Grapher,先进入Utilities(在Finder中执行),然后点击Grapher图标(或者按下,然后通过名字进行搜索)。Grapher有许多选项,包括对数-对数(Log-Log)和极坐标(Polar)选项,如图1-7所示。
从根本上讲,可视化信息的数量受限于屏幕像素点的个数,对于目前的大多数计算机而言,屏幕像素个数可达百万级,并且有各种颜色(Judd, Deane B.; Wyszecki, Günter (1975). Color in Business, Science and Industry. Wiley Series in Pure and Applied Optics (3rd ed.). New York)。对于一个TB级别的多维数据集,首先需要对数据汇总并进行处理,以减小尺寸,使其能显示在电脑屏幕上。
下面用Iris数据集来举例说明,该数据集可以在https://archive.ics.uci.edu/ml/datasets/ Iris获取。把数据导入Grapher中,需要输入以下命令(在Mac OS上):
在Grapher中新建一个点集(Point Set) ()。点击编辑点(Edit Points),并按下粘贴数据。该工具具有拟合基本的直线、多项式、指数分布等函数族的能力,并能通过卡方度量按自由参数的数量来评估拟合的优劣:
图1-8 在MacOS上使用Grapher来拟合Iris数据集
下一章会讨论如何评估模型拟合的优劣。