11.75 复杂数据融合与高效学习
在实际应用中,往往存在多种类型的数据,如符号型、数值型、集值型和缺失数据等。粗糙集作为数据建模与规则提取的重要方法之一,已经取得了长足的进步,而其优点在于无需利用先验知识就可以进行知识发现。但是,在面临复杂数据时,往往不能很好地进行数据融合。而且,当复杂数据同时又高维、海量时,与其他建模方法一样,拥有时间消耗过长的缺点,乃至无法处理。为解决此类问题,我们引入了复合关系,提出了复合粗糙集模型[7] 。图 3 给出复合粗糙集模型,可以说,复合关系是多种二元关系的复合,它采用不同的二元关系应对不同的数据类型,如等价关系处理类别型数据、邻域关系处理数值型数据、相容关系处理集值型数据、特性关系处理不完备数据等。进一步地,根据复合二元关系,定义了复合粗糙集中概念近似集的计算方法[7] 。
我们知道,概念近似集与二元关系的计算是基于粗糙集的属性约简和知识发现方法的核心步骤,高效计算近似集有助于此类技术有效应用于大数据。为解决这个问题,首先提出了复合粗糙集下基于矩阵的概念近似集计算方法。为应对高维、海量数据,又进一步提出基于 GPU 和 Multi-GPU 的并行计算概念近似集的算法。图 4 给出了并行概念近似集计算流程图。首先,我们将论域 U B 切分成若干块,每个子块表示为 ,每个子块可以计算得到二元关系子矩阵 ,根据复合粗糙集定义可以计算得到上近似集子矩阵和下近似集子矩阵并汇总,最终得到上近似集矩阵 和上近似集矩阵 。具体实现中,我们可以用单个 GPU 来并行计算关系子矩阵 和近似集矩阵的子矩阵。进一步地,我们采用多个 GPU 来同时处理多个子块的计算。
我们在多个高维数据下进行了实验验证,表明基于 Multi-GPU 的并行算法可以获得百倍以上的性能提升。