本节书摘来自华章出版社《大数据管理概论》一书中的第2章,第2.3节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看
2.3 大数据融合的方法论
由2.2节的分析可知,大数据融合是一个多学科跨领域的研究问题,它的任务是将碎片化的数据相联系,将分散的数据集中,形成表层知识,即知识资源;进而使隐性知识显性化,使表层知识上升为普适机理。从而在数据资源、知识资源与用户之间建立有效的联系,缓解数据的无限性、知识的零散性与用户需求无法满足之间的矛盾,最大限度地提升大数据的价值。下面我们分析一下目前各研究领域对这一任务的处理方法。
2.3.1 数据库视角下的融合
面对大数据,各个领域都开发了各自的融合方法。数据库领域也不例外,提出了大数据集成的概念和实现方法[17,25],我们将数据库领域的这种融合范式记为BDF@DB,具体集成方式如图2-2所示。
这个领域的数据以结构化数据为主,有统一的模式可循,所以可以采用中介模式的方法(GAV、LAV)以自顶向下的方式实现集成。它包括3个主要步骤,即模式对齐、记录链接和冲突解决。模式对齐的难点在于模式语义存在歧义,记录链接的难点在于实例表示存在歧义,而冲突解决主要面对的是数据的不一致。并且他们认为大数据的显著特点可归纳为4V(Volume、Velocity、Variety、Veracity),其中侧重于海量性和高速性的处理[17],
大数据集成所需的关键支撑技术概括如下[17,25]。
(1)模式对齐
由于数据源模式的异构性,所以模式对齐可以提高集成效率。模式对齐解决两个模式元素之间的一致性问题,主要是利用属性名称、类型和值的相似性,以及属性之间的邻接关系寻找源模式与中介模式的对应关系,分为中介模式、属性匹配和模式映射三步完成[17]。目前采用演化模型、概率模型和深度匹配方法[17,25]。演化模型主要是检测模式映射的演化,采用尽力而为、模糊回答的方式,在一定程度上解决了数据多样性和高速性带来的问题;概率模型将中介模式按语义表示成源属性的聚类,由此源模式会出现与其有不同程度对应关系的多个候选中介模式,然后根据查询请求为每个候选中介模式分配一个备选概率来确定最佳映射;深度匹配方法面向概念级,基于潜在的语义匹配,而不仅仅依赖于可见属性。
(2)记录链接
记录链接是从数据集中识别和聚合表示现实世界中同一实体的记录(也称实体表象),即对相似度达到一定阈值的记录做聚类操作(也称共指识别)。在大数据环境下,一般采用增量记录链接方法[17,25],它可以解决大数据的相互关联对实体匹配的局部决策和全局一致性的影响,以及数据更新可以及时弥补聚类过程中的错误聚类。相似性一般根据领域知识设定匹配规则度量,也可用机器学习训练分类器的方法实现,或利用编辑距离或欧氏距离计算[17,25]。由于大数据的海量性,所以在相似性计算之前先根据实体的一个或多个属性值将输入记录划分为多个块,进行块内比较,提高链接效率[17]。目前主要是借助MapReduce并行分块[26]和引入Meta-blocking直接优化分块[27],Meta-blocking技术首先将信息封装在块分配集并构建块图,然后将问题转化为度量图中边的权重和图修剪问题,这样做可以避免重复比较、多余比较和不匹配比较。因此,记录链接可以由分块、相似度计算和聚类三个步骤实现[17]。
(3)冲突解决
冲突是指模式、标识符或数据中存在不一致的现象。模式冲突由数据源的模式异构引起,一般在模式对齐过程中解决,标识冲突主要是指异名同义现象,数据冲突主要是指同一属性具有多个不同值,后两种冲突是这一步骤中关注的重点。冲突解决一般采用识别函数,目前主要分真值发现、真实性评估和演化建模三个步骤[25]。真值发现也称事实(fact)甄别,即从所有冲突的值中甄别正确的值(真值),真值可以不止一个,但多个真值间语义上相同[17]。值的真实性评估一般采用投票的策略,并在此基础上进行独立性衰减,然后根据值的置信度、值的贝叶斯后验概率等推理得到真值结果[17,25]。实体演化主要面向的是随着时间的变化,看似不相似的实体变得像同一实体,或者原本表示同一实体的记录因某些属性的改变而变得不太像同一实体的情况。重点是对演化行为的建模,比如采用时间衰减模型捕获实体属性值在时间跨度范围内改变的可能性来建模演化行为[28],但只捕获了属性值变或不变的概率,为此出现了采用属性值再次出现的概率建模演化行为[29],这种方法考虑了属性值来回变化的情况和实体内/间的演化,但未考虑属性值变化的复杂模式,如语义含义。因此又出现了考虑各种数据源质量和值的多样性因素在内的演化建模方法[30]。
2.3.2 认知计算和人工智能视角下的融合
认知计算和人工智能领域的数据有一大部分是文本型的,要将该领域的数据进行融合,首先需要从文本中识别出实体、实体间的关系;然后再根据各种关联关系进行融合。所以实体链接是核心,我们将这两个领域的融合范式记为BDF@C&A,普遍做法可归纳为如图2-3所示[25]。
这种融合方式所需要的关键支撑技术有本体对齐技术、实体链接技术和知识库(KB)自适应发展技术,具体介绍如下。
(1)本体对齐
本体是针对特定领域中的概念而言的,位于知识图谱的模式层,是一种概念模板,用来弥合词汇异构性和语义歧义的间隙,是知识库中各种主体进行交流的基础。本体对齐主要解决本体不一致问题,需要识别本体演化,大概分为本体演化管理、不一致性预防与处理和对齐模板挖掘[25]。本体演化分为原子变化、混合变化和复杂变化。原子变化反映单个本体的变化,混合变化反映本体之间的影响,复杂变化是前两者的复合体。有时原子变化也叫基本变化,混合变化和复杂变化统称为复杂变化,这些变化通过日志和本体版本差异获得,一般在概念级和实例级检测。其采用图论方法表示本体变化,引入SetPi运算来建模本体演化过程,采用一致性约束跟踪本体的全局演化过程实现可溯源,Pellet推理检测不一致性。但是所有这些方法只量化了本体变化,没有给出不一致性问题的解决方法。此外,为了加快本体对齐的速度和提高对齐质量,通常会根据本体的相似性、使用频率等构建对齐模板,比如为频繁错配的本体建立对齐模板,采用多重相似度度量与本体树结合实现多策略的本体匹配。
(2)实体链接
实体链接的关键是实体识别,主要是从文本中识别相似的实体和消除实体歧义,并将表示同一实体的实体表象聚类到一起。相似指多个命名实体表象可对应到一个真实实体(或称概念),歧义指一个实体表象可对应到多个真实实体。一般借助知识库完成关联,通常可采用维基百科作为参照知识库。这种关联分为可链接和不可链接两种,不可链接是指知识库中不存在对应实体的情况,否则为可链接。可链接关系的核心是在知识库中寻找最优匹配实体,通过产生候选对象并对其排序得到。候选链接的产生可以通过图论的方法或借助语义知识、概率模型,如果是面向社会媒体,则可以利用社交媒体的特殊句法等建模链接关系。候选链接的排序按影响因素可以分为与实体的上下文信息无关和实体的上下文信息有关两种。不可链接采用设定阈值的方法判定,或者采用从已知实体的特征随机抽样得到的未知实体表示的方法识别实体。共指识别则是要将多个指称项关联到同一正确的实体对象。共指识别问题可以看作分类问题,也可以看作聚类问题,一般以句法分析为基础,结合词法分析和语义分析完成。句法分析用于识别出现在同一句话的实体和代词,词法分析可以识别语料中的第三人称代词和反身代词等回指性代词的回指对象,语义分析主要是利用语义的局部连贯性和显著性跟踪实体。
(3)KB自适应发展
为了使知识库的内容与时俱进,需要对知识图谱进行不断迭代更新,更新的内容包括概念、实体、关系和属性值。大多是从半结构化数据或者无结构化数据中抽取得到的,我们称之为直接知识;也有从现存知识库、关系数据库和以半结构化形式存储的历史数据(如XML、JSON、CSV等)直接转化来,我们称之为转化知识。转化知识质量较高,只需要进行冲突检测、消除冗余即可扩充到知识库。直接知识分布零散、质量较低,需要先抽取,再评估。其中,概念由专家评审得到,而实体、关系和属性值一般选择可靠数据源中出现频率高的事实和属性值。
对于直接知识中的实体数据主要是采用命名实体识别技术借助命名实体分类体系和统计机器学习的方法获得。典型的两种分类体系分别是具有150种实体类别的层次结构体系和具有112个实体分类的类Freebase实体分类体系。离散(独立)的实体可利用价值不大,只有捕获到实体之间的关联关系或者实体的属性信息才能发挥更大的作用。关系可以建立起与其他实体的联系,实体的属性信息可以刻画实体的特征,属性可以看作一种名词关系,一般转化为关系并从百科类网站和非结构化的公开数据中抽取。关系抽取大概分为两大类,分别是基于预定义关系类型的抽取方法和面向开放领域的抽取方法。预定义关系类型主要是通过人工构造语法语义规则或者人工标注训练数据集训练关系模式。面向开放领域的抽取方法直接利用语料中的关系词汇自监督学习实体关系,这种方法的准确率和召回率较低。目前只抽取二元关系,不涉及高阶多元关系和隐含语义关系的抽取。
得到了扩充的内容,下一步就是怎么更新的问题,一般采用全面更新和增量更新策略[31]。顾名思义,全面更新需要更新全部数据,而增量更新则只更新新增知识。大多采用增量更新方式,因为它资源消耗小,但是它需要预定义规则等,实施较为困难。
KB自适应发展的最后一个阶段是知识推理,目前主要集中在从已有的实体关系中推断实体间的新关系或者实体的新属性,并且推理结果只是为了应用,不被扩充到知识库。通常采用基于命题的一阶谓词逻辑推理简单关系;采用基于对象的描述逻辑推理复杂关系,尤其适用于本体语言(如OWL)推理;还可以利用规则语言(如Semantic Web Rule Language,SWRL)提高本体语言的表达能力,如辅助描述属性合成和属性值转移。除了基于逻辑的推理,还有基于图的推理,经典的方法如基于神经网络/张量的方法和基于路径排序的方法。其中路径排序方法将实体视为节点、关系或属性视为边,从源节点开始沿着边随机游走到达目标节点,则源节点和目标节点间存在关系。
2.3.3 两种融合方式的对比分析
为了了解不同领域在大数据融合方法上的异同和优劣,我们根据2.3.1节和2.3.2节的分析讨论,对BDF@ DB方式和BDF@ C&A方式进行比较,如图2-4所示。
从图2-4中我们可以看出这两种融合方式有很多相似之处,比如,两者都采用三阶段流水线架构,融合对象都是原始数据,关注点都是融合多源数据并提供集成化知识,都分三步完成。此外,两种融合范式也存在着很强的互补性。
(1)BDF@ DB与BDF@ C&A的对应关系
两种融合范式都采用3阶段流水线架构,其中每个步骤都有对应关系,具体如下。
模式对齐与本体对齐的对应关系:它们都是为了提高融合效率而提出。中介模式与对齐模板作用相当,都是为了寻找数据中共同的特点,借助共同点简化融合的复杂性;属性匹配和模式映射与不一致性预防与处理作用相当,都是为了消除模式的语义歧义。只有本体对齐考虑了演化性,但是演化性是大数据的精髓,并且大数据环境下本体的异构问题和数据源的异构性更加明显[32],所以,在模式级别管理演化是大数据融合的必备技术。
1)记录链接、冲突解决与实体链接的对应关系:它们用于解决实体表示歧义和数据不一致,负责从数据中识别和聚合表示现实世界中同一对象的潜在实体。实体识别的本质是相似度计算,共指识别的本质是聚类;真值发现和真实性评估的目的是消除实体歧义;分块技术是记录链接过程中独有的。但是大数据规模宏大,每次处理都面对全部数据未免不够高效,如果能分块处理,效果可能会更好,如将数据划分为不同维度和粒度为大数据融合提供变粒度数据资源。
2)冲突解决与KB自适应更新的对应关系:这两部分并没有特别紧密的对应关系。虽然知识获取和更新在BDF@DB中也是必不可少的,但是BDF@DB没有认为它们是其中的一部分。而知识推理是BDF@C&A独有的,知识推理是KB补全的必备技术,对于理解复杂数据非常重要;知识获取和KB自适应更新注重KB的扩充和维护。同样,演化建模也是冲突解决中明确指出的处理步骤,用于捕捉实体的演化行为。但是,演化性是大数据的精髓,关系中也存在着演化特质,所以关系推理和关系演化结合使用效果应该会更好。
(2)BDF@ DB与BDF@ C&A的共同缺点
从上述分析来看,各领域的研究有很强的共性,同时各领域的研究技术也有很强的互补性。比如BDF@DB中采用的分块技术和数据级别的演化技术,但是BDF@C&A中却没有;BDF@C&A中关注了KB的发展和维护,并对获取的知识进行了理解。同时,面对大数据融合的需求,现有融合范式还有以下几点不足。
1)缺乏变粒度数据资源的自适应提供:从2.2.1节的例子可知,当下数据规模宏大,融合规模庞大,在分析数据、应用知识时不可能也不需要采用全部数据。所以,从数据使用角度,数据需要分层组织,方便提供变粒度数据资源;从知识应用角度,数据如果能够以不同维度、不同粒度的形式呈现,则可以提高知识理解的效果。目前融合过程缺乏变粒度数据资源的自适应提供。
2)融合步骤之间缺乏感应:现有融合方法采用三阶段单向流水线架构,不感知彼此的相互影响。这有两方面的弊端:前一步骤产生的错误会依次向后续步骤传播,这种错误不可恢复;后续步骤发现的结果不能向前反馈,使融合效果大打折扣。所以,融合步骤之间应该相互反馈,相互启发进行。
3)缺乏理解和揭示数据背后的深层意义:已有的融合方法关注点在于集成多源数据提供统一访问和集成化知识,但是缺乏理解,没有揭示数据背后的深层意义。然而,大数据融合中知识的隐含性,以及知识的理解、分析对融合大有帮助。比如,公共安全领域要想做到预警,就需要对数据进行理解、归纳数据背后的规律。所以,大数据融合需要数据的融合与知识的理解相互启发进行,不断优化数据本身和知识本身的结构与内涵,而非单向流水线作业。
4)缺乏数据溯源机制:大数据具有动态演化性,并且数据融合的过程对用户透明,缺乏可解释性和可操作性,并且大数据的海量性和动态演化加大了错误恢复的难度,现有融合方法没有考虑这一点。因此,需要在大数据融合过程中建立可溯源机制。
2.3.4 大数据融合范式
由2.2节分析可知,大数据融合的任务是将碎片化的数据相联系、将分散的数据相集中,形成表层知识,即知识资源;进而使隐性知识显性化,使表层知识上升为普适机理。从而在数据资源、知识资源与用户之间建立有效的联系,缓解数据的无限性、知识的零散性与用户需求无法满足之间的矛盾,最大限度地提升大数据的价值。所以,大数据融合不应该是单纯的BDF@DB或者BDF@C&A融合过程,而应该是既需要将多源异构的数据集成到一起,还需要对得到的集成化数据进行进一步理解,更重要的是需要将经过理解的知识反馈给融合过程。由此可以认为,大数据融合过程是一个数据融合与知识融合相互协同完成的过程。其中数据融合迫切需要将多源数据动态提取、整合并且转化为知识资源,为知识融合奠定基础。而知识融合需要面向需求和服务,对知识和知识间的关系进行不同维度和粒度的理解,使知识具有可理解性和可领悟性,进而方便解释客观现象。所以我们将大数据融合设计成动态演化的数据融合与多维度多粒度的知识融合双环驱动的融合模式,如图2-5所示。
图2-5这种融合方式的优势在于通过双环协同、相互启发、动态演化地逐步探索大数据融合问题,并且融合过程的每个步骤都是大数据价值的一次提升过程。其中数据融合和知识融合不是孤立存在的。知识融合中获取的知识可以作为数据融合的参考因素,辅助数据融合;而数据融合也不仅是为知识融合提供集成化数据,其中的一些方法同样对知识融合有借鉴作用。这也是双环驱动的独到之处,它体现为3个内部反馈、2个跨环启发和4个全局驱动枢纽。
3个内部反馈是指:①数据融合内部的实体识别与冲突解决;②知识融合内部的关系推演与深度知识发现;③知识融合内部的知识建模与普适机理凝练。这三个反馈中后者的处理结果应该反馈给前者,作为前者的决策因素。
2个跨环启发是指:①冲突解决与关系推演之间的跨环启发,冲突解决方法可以帮助解决关系推演中的冲突问题,推演出的关系可以辅助解决数据融合过程中的冲突问题;②实体识别和深度知识发现,经过识别的实体可以准确地发现深度知识,发现的深度知识可以作为辅助知识帮助识别
实体。
4个全局驱动枢纽是指:①用于精细化融合并提供使用接口的智能晶格;②用于实现跨媒体、跨领域的知识学习和跨学科、跨行业体系的知识复用的迁移学习;③提高可解释性和可操作性的数据溯源;④对于大数据动态演化、海量性和高速性的处理,简称D&2V(Dynamic,Volume,Velocity)处理,它们保证了大数据融合的与时俱进和可理解性。