《大数据管理概论》一2.4 数据融合技术

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介:

本节书摘来自华章出版社《大数据管理概论》一书中的第2章,第2.1节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.4 数据融合技术

数据融合需要用动态的方式统一不同的数据源,将离散的数据转化为统一的知识资源。另外,大数据的关联性使得融合步骤之间相互影响,传统的流水线式融合不再满足现有融合需求。面对新的融合需求,反馈迭代机制显得极为重要。为此,我们给出数据融合的新的实现步骤:①对齐本体、模式,加速融合效率;②识别相同实体、链接关联实体;③甄别真伪、合并冲突数据,并将处理结果反馈给实体识别阶段,提高识别效率;④动态更新知识库、保持知识的与时俱进。

2.4.1 模式/本体对齐

模式/本体对齐是大数据融合的前提,用于提高融合效率,重点解决对齐演化引起的不一致性。大数据的海量性和演化性导致事后补救难度大,所以需要采用“以防为主,防治结合”的策略。此外,还可以变相思维,利用模板[33,34]在捕捉经验方面的优势为频繁错配的本体建立对齐模板以便重复使用。所以,我们认为本体演化对齐应该分三步完成,即本体的演化管理、不一致性的预防和补救、对齐模板的挖掘。本体演化重点需要关注原子本体的变化和描述,而本体演化的形式化方法可以借鉴类型化的图语法(Typed Graph Grammars,TGG)和代数图变换(Algebraic Graph Transformations,AGT)。TGG是一种数学形式体系,用于表达和管理图。
此外,本体依赖于实体和合作方式,当领域表示发生演变频繁或有新的要求必须考虑时,本体也会频繁和连续地变化,并且通常本体较大且构建代价大。因此,本体必须能够适应演化、修改和改进,从而保持本体一致。然而,这个过程是极具挑战性的,因为它往往很难理解本体变化部分所受的影响。所以,需要对本体进行建模,那么也就不可避免地涉及了本体语言,通用的本体语言是Ontology Web Language (OWL),它能有效地捕捉静态语义但不能满足本体实体之间交互变化的一致性检查,因此不足以用于形式化变化。目前文献大多是对本体变化的量化,并没有对不一致性进行充分研究。即便给出了解决不一致性问题的方法,也是不一致发生以后的解决方法,需要执行变化并使用额外的资源监测本体的一致性,因此缺乏预防措施来避免不一致发生。

2.4.2 实体链接

实体链接是数据融合的基础,BDF@DB中实体以记录的形式表示,实体链接也即记录链接,实现步骤包括分块、两两匹配和聚类;BDF@C&A中实体链接的实现步骤包括实体识别、实体消歧和共指识别。由2.3.3节的分析可知实体识别与两两匹配、共指识别与聚类作用相当;而实体消歧包含在BDF@DB中的冲突解决中。所以我们将大数据融合中的实体链接步骤分为分块、实体识别和共指识别。它的不同之处在于如下几方面。
第一,实体的属性特征以及所在的语境信息、冲突实体的解决结果和共指识别结果都可能对实体识别产生影响。但是现有的实体链接基本是实体识别、冲突解决(重点是实体消歧)、共指识别串行化执行,不感知彼此的相互影响。这样做有3方面的弊端:实体识别过程中产生的错误会依次向后续过程传播,这种错误不可恢复;共指识别和冲突解决的结果不能向前反馈;实体识别过程和冲突解决过程可能会产生不一致的输出。但实际中这三者相互影响,前者为后两者提供更多的特征,后两者为前者提供已消歧的链接信息辅助聚类。所以,识别实体应该是实体识别、冲突解决、共指识别三者迭代优化、逐步求精的过程。
第二,实体之间的语义关联性较强,并且存在演化性,这对共指识别提出了挑战,已有方法没有考虑可靠性和更新程度、局部决策对与之关联表象的影响,并且直接面向动态数据,演化模型依赖于训练数据集和演化证据的质量,匹配精度高,但时间代价不是大数据能够承受的。
第三,需要识别新实体和新关系,这是知识库扩充的必要手段。此外,推演出的新知识、发现的深度知识,以及得到的普适机理都有可能对实体识别起到启发作用,所以,反馈结果极为重要,所以,大数据中的实体识别不仅需要与数据融合中的冲突解决、共指识别形成内部反馈迭代优化,还需要与知识融合中的深度知识发现形成跨环启发。
第四,复杂实体关联方法在适用范围、准确率等方面都存在一定的不足,主要挑战性在于:非结构化数据中一般不显式包含属性名,其实体属性也不一定都完全出现在结构化数据中,反之亦然。并且,两类实体之间是需要进行近似匹配还是精确匹配也需要区别;新实体的发现也是目前的一大难点,关键在于相似性判定阈值的确定没有有效的解决办法。
第五,大数据融合向短文本、跨语言、跨领域融合迈进,所以需要相关实体跨语言、跨文档的关联,目前研究成果不多。其中,未知链接的处理对于跨语言、跨文档的链接更加复杂;实体链接中存在隐喻情况,一个实体在多个文档中出现的情况,提及的边界重叠的情况,嵌套提及、嵌套链接的情况,以及实体的相关性,这些情况都没有得到有效的解决,都是目前亟待解决的问题。

2.4.3 冲突解决

冲突解决是大数据融合的必要条件,它的第一要务是消歧。大数据的真实性和演化性是引发冲突的导火索,如数据本身的新鲜度和贡献给特定查询的价值量等,这就引发了新鲜度和价值量不同的多真值问题,需要评估信息质量,合并不确定性信息。此外,知识融合中推演出的关系也可能对其起到启发作用,需要将这种新知识动态地引入冲突解决过程,并保持这种知识的演化。所以,冲突解决应该经历真假甄别、不确定性合并和演化建模三个步骤。此外,所有冲突解决技术都有一个假定前提,即假定模式对齐和实体识别已完成,并且数据也已经对齐。但这个假设在大数据环境下过于理想化,所以冲突解决需要在数据融合内部与实体链接形成
反馈。
目前,冲突解决的侧重点在于知识的真假甄别,并假设假值服从均匀分布,不匹配即为完全不同。但这个假设在现实中过于绝对,以至于已有方法不能很好地处理错误产生的不确定性。此外,消歧方法依赖于实际参照数据的可用性(如数据标注),参照数据一般源于维基百科,缺乏领域性和针对性,这使得实用性变窄。对于其他领域,如新闻,仅有一小部分标注样本可用,所以必须采取超越维基百科的消歧策略。
对于不确定因素,主要难点在于针对新鲜度和价值量不同的多真值问题,如何设计质量评估函数。演化行为也是引起不确定性的一个因素,对于演化建模,虽然现有方法捕获了实体属性值的改变,但未考虑属性值变化的复杂模式,如用属性的再现概率建模实体演化,当一个属性值在后续时间内不再出现,则所有情况下记录表示同一实体的可能性相同,但这个说法与实际相悖。如一个讲师在两年后成为副教授是可能的,但一年后变为助教的可能性是不存在的,明显前一种表示同一实体的可能性远大于后一种,而现有方法则认为这种概率相同。这说明,建模变化需要考虑属性本身的变化模式,如语义相关度等。

2.4.4 知识库自适应发展

知识库是数据融合的结果,也是大数据融合的中转站。随着数据的产生、信息的传播,会有源源不断的知识扩充到知识库。知识库包含三种知识,即从数据源抽取的直接知识,由现存知识库、关系数据库和以半结构化形式存储的历史数据(如XML、JSON、CSV等)直接转化来的转化知识,以及知识融合反馈来的深度知识。知识库的生命周期分为3个阶段:第1阶段是自适应抽取策略抽取直接知识构建基本知识库或扩充知识库;第2阶段用转化知识和深度知识通过自动化增量更新扩展知识库;第3阶段定位事实和溯源知识库。
自适应抽取首先需要设定语法-语义的抽取模式,然后采用自调整和反馈调整调整抽取策略。自调整通常采用模糊本体技术识别并以概率方式检测可能性,反馈调整主要是借助抽取结果信息以及知识融合过程中反馈回来的信息调整抽取模式。对于更新策略,目前大多采用人工干预的增量更新方法,但是随着知识库的不断积累,依靠人工制定更新规则和逐条检测将不能满足需求,所以需要自动化、批量更新(比如子图到子图的更新策略),这样就必须确保自动化更新的有效性。此外知识库的自适应发展需要动态的方式统一不同的数据源,这个过程对用户透明,缺乏可解释性和可操作性,并且大数据的海量性和动态演化加大了错误恢复的难度,所以需要建立知识库的可溯源机制。
对于新获取的3种知识所包含的实体、关系以及实体属性信息中可能包含大量冗余信息和错误信息,所以需要通过实体链接技术和冲突解决技术对实例和关系进行统一化处理以减少数据冗余;并且直接抽取的关系都是扁平化的关系,缺乏层次性和逻辑性,需要对概念表达方式进行统一化处理,并将新本体融入本体库。3种知识中转化知识属于高质量知识,可以使用现成的转换工具直接转换;而直接知识质量较低,还需要对齐以进行验证和评估,以确保知识库内容的一致性和准确性,通常采用的方法是在评估过程中为新加入的知识赋予可信度值,据此进行知识的过滤和融合。

相关文章
|
1月前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
3月前
|
数据采集 传感器 人工智能
大数据关键技术之电商API接口接入数据采集发展趋势
本文从数据采集场景、数据采集系统、数据采集技术方面阐述数据采集的发展趋势。 01 数据采集场景的发展趋势 作为大数据和人工智能工程的源头,数据采集的场景伴随着应用场景的发展而变化,以下是数据采集场景的发展趋势。
|
3月前
|
数据采集 搜索推荐 大数据
大数据技术在电商平台中的应用
电商平台是当今社会最为普及的购物方式之一,而大数据技术则成为了众多企业的强有力竞争力。本文将介绍大数据技术在电商平台中的应用,包括数据采集、预测分析、用户画像等方面,并探讨其对电商平台的价值和意义。
|
3月前
|
机器学习/深度学习 数据采集 算法
大数据分析技术与方法探究
在当今信息化时代,数据量的增长速度远快于人类的处理能力。因此,如何高效地利用大数据,成为了企业和机构关注的焦点。本文将从大数据分析的技术和方法两个方面进行探究,为各行业提供更好的数据应用方向。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
大数据分析的技术和方法:从深度学习到机器学习
大数据时代的到来,让数据分析成为了企业和组织中不可或缺的一环。如何高效地处理庞大的数据集并且从中发现潜在的价值是每个数据分析师都需要掌握的技能。本文将介绍大数据分析的技术和方法,包括深度学习、机器学习、数据挖掘等方面的应用,以及如何通过这些技术和方法来解决实际问题。
53 2
|
14天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
3月前
|
机器学习/深度学习 存储 人工智能
大数据处理与分析技术:未来的基石
在信息化时代,数据已成为企业发展和决策的基础。而随着数据量的不断增长,传统的数据处理方法已经无法满足现代企业的需求。因此,大数据处理与分析技术的出现成为了新时代的必需品。本文将介绍大数据处理与分析技术的概念,意义、应用场景以及未来发展趋势。
50 3
|
23天前
|
NoSQL 大数据 数据挖掘
现代数据库技术与大数据应用
随着信息时代的到来,数据量呈指数级增长,对数据库技术提出了前所未有的挑战。本文将介绍现代数据库技术在处理大数据应用中的重要性,并探讨了一些流行的数据库解决方案及其在实际应用中的优势。
|
28天前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。
|
1月前
|
存储 NoSQL 大数据
新型数据库技术在大数据分析中的应用与优势探究
随着大数据时代的到来,传统数据库技术已经无法满足海量数据处理的需求。本文将探讨新型数据库技术在大数据分析中的应用情况及其所带来的优势,为读者解析数据库领域的最新发展趋势。

热门文章

最新文章