《大数据管理概论》一2.6 大数据融合的驱动枢纽

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介:

本节书摘来自华章出版社《大数据管理概论》一书中的第2章,第2.6节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.6 大数据融合的驱动枢纽

数据融合与知识融合是一个相互启发、相互协调、逐步融合的过程,两者之间需要一个纽带进行衔接,我们把这个衔接纽带叫做智能晶格。此外,数据融合与知识融合还受一些共同因素的影响,如动态演化性、海量性和高速性,这些因素直接影响融合技术。

2.6.1 智能晶格

智能晶格的本质功能是用于桥接数据融合和知识融合,并对外提供使用接口,它应具备两个功能。首先,它用于优化知识的结构,方便获取知识库不同层次、不同粒度的关系数量和知识结构,可以完成高效的数据存储、更新和查询操作。其次,它属于对知识库的一种语义关系操作,需要具有自适应性、演化性和可溯源性,与知识库协调一致。因此,智能晶格可以认为是一种操作。从数据存储角度看,它是知识库的一种物理索引方法,用于实现数据的分层组织;从数据的呈现上看,它是知识库的不同层次、不同粒度的关系数量和知识结构的概要,为知识融合提供变粒度数据资源。
例如gStore索引[35]利用RDF图中挖掘出的若干存储模式和列存储技术将RDF数据中满足这些存储模式的结构保存在一起。但是,对于大数据的D&2V特性,还需要根据高阶多元关系中路径语义关系自动地找到关联数据中路径模式和自然语言中关系词汇之间的对应关系来发现存储模式,自适应学习动态索引的构建方法,优化知识的结构,进而动态建立不同粒度级别的概要图,并实现智能晶格“上钻”和“下钻”的交互式浏览方法,方便用户使用不同粒度的数据和理解复杂关联数据模式。

2.6.2 迁移学习

迁移学习是为解决跨媒体、跨领域、跨学科、跨行业体系的大数据融合问题而提出的,主要针对跨媒体、跨领域的知识学习和跨学科、跨行业体系的知识复用。
1)跨媒体、跨领域的知识学习:大数据融合的对象具有多样性,它既可以是结构化数据(如表格、列表等)、非结构化数据(如文本、图片、视频等)、半结构化的社会媒体数据(如微博、博客等复杂类型数据),也可以是知识,如规律、模型、机理等,它不仅以多种形式共存,还出现在不同领域,出现了多类型、跨领域融合的现象。针对这种跨领域的多形式数据进行知识融合不是简单的匹配融合,需要充分考虑各种数据形式的特点,同时需要研究它们的差异所在以及如何合理地处理这些差异,这是数据融合面临的一个挑战。在知识融合过程中上层机理是相通的,如金融市场呈现出的长期记忆性和社会网络中注意力流的长期记忆性,它们都呈现出了长期记忆现象。那么,它们在分析、处理方法上就可以相互借鉴。此外,系统科学从全局、整体出发研究数据的宏观现象、特征等,与数据库领域的局部、微观现象的发现形成互补,可以相互借鉴。这种在知识融合中适合处理多形式数据的跨领域寻找方法使得知识融合更高效。
2)跨学科、跨行业体系的知识复用:大数据融合是为了更好地提供知识服务,其中数据融合提供集成化知识,知识融合在此基础上进一步理解,以获得知识的隐性特征、规律,并对其进行验证、剖析,归纳出知识间呈现的普适性质、现象,甚至是内在机理。那么如何将一个行业体系中获取的深度知识、普适机理等,以低廉成本,直观、快速地应用到其他行业体系中就是一个焦点。一个普遍的想法是:如果出现了类似的情境,可以利用已有的结论提出假设,在相同的环境设置下调整一个或多个变化因素,观察事态变化以验证假设。这一过程的核心在于将可控模拟仿真的方法、大数据融合的理论与实际应用相结合,围绕现实中特定问题,依据大数据融合理论得到的相关历史知识、经验,包括规律、性质、机理、现象等,结合特定领域或情境下的知识,通过模拟、仿真的手段,生成相应的可执行方案。所以,可控模拟仿真的方法、大数据融合的理论与实际应用相结合的迁移学习方法将成为大数据时代的一种发展趋势。

2.6.3 数据溯源

大数据融合过程对用户透明,缺乏可解释性和可操作性,并且大数据的海量性和动态演化加大了错误恢复的难度,传统融合方法没有考虑这一点。因此,必须建立大数据融合的可溯源机制。追溯融合结果的数据来源以及演化过程,以便及时发现和更正错误。这一步的关键是数据起源的表示以及数据演化中间过程的跟踪。其中,中间过程包括实体识别和冲突解决过程、知识库自适应发展过程以及知识推理和深度知识发现过程。
对于数据融合,首先需要建立知识获取的溯源机制,主要回答每条关联数据来源于哪个数据源,是经过了哪些操作(如实体、关系和属性抽取)得到的。这些数据的溯源对于判定数据的可信性非常重要。然后,需要建立实体识别溯源机制,用于跟踪融合结果由哪些待统一实体产生。最后,建立冲突解决溯源机制,用于处理融合结果元组中的每个值来自于哪些记录的哪个属性值以及通过何种冲突解决方法得来。
在知识推演和深度知识发现过程中,不仅需要向用户返回系统产生的答案,还需要向用户展示答案的来源和证据,即需要解决答案来源的“Why”“How”“Where”“Why Not”问题。与传统关系数据库中的溯源问题基于关系代数的执行路径分析不同的是,在知识推演和深度知识发现中,多了一个自然语言问题理解的过程。因此在回答这类溯源问题时,需要统一的推理和发现问题执行计划的表达模型,根据该模型给出溯源的答案。此外,维护溯源机制很花时间和空间,如何提高溯源的查询性能,同时降低溯源的时空代价也是亟待解决的问题。

2.6.4 D&2V处理

制约传统方法在大数据中使用的3个主要因素是大数据的动态演化性、高速性和海量性(简称D&2V)。知识的动态演化贯穿整个大数据融合过程,它影响着数据融合、知识融合的各种技术,所以还需要结合其他方法具体考虑。但是,其中最为重要的两项工作是:①对动态变化的跟踪和知识演化的建模,对于大数据的特殊性,需要考虑变化的复杂模式,如语义关系等,最好能从中挖掘概念模板以应对数据的高速性和海量性;②应对动态性给数据存储、索引带来的挑战,动态性是影响大数据融合的关键因素,亟待解决。
对于海量性和高速性,主要解决的是它们带来的负面影响,对这两个因素的处理直接关系到大数据融合的性能和效率。海量性和高速性迫使传统的多项式时间算法不再适用,需要权衡精度与速度(效率),大致有4种解决思路:①近似计算,采用近似算法代替原来的精确计算方法;②简约计算(N->K),通过核数据、采样等手段实现模型的精简和算法的快速收敛,达到简约计算,例如发现全量全模态(N)数据中的核数据(K)进行近似,或者通过采样实现多重小样本(K)对全量数据(N)的有效近似;③分治计算(N/K),即通过数据化整为零的手段实现计算的约简,达到算法层面的横向扩展(Scale Out),如网格计算、MapReduce和参数化服务;④增量计算(N->N),即针对数据相对于增量远小于绝对基数的现象,采用增量计算理论,需要支持流式数据的实时OLAP分析。除此之外,也可以借助优化硬件技术来支持大数据的处理。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
人工智能 弹性计算 Serverless
Serverless+AI驱动的一站式数据平台有哪些可能性
【2月更文挑战第4天】Serverless+AI驱动的一站式数据平台有哪些可能性
|
2月前
|
人工智能 数据管理 Serverless
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
407 2
|
2月前
|
人工智能 运维 Cloud Native
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
149 2
|
2月前
|
人工智能 数据管理 大数据
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
35 2
|
6月前
|
分布式计算 Kubernetes 大数据
为什么说大数据和云计算的深度融合是大势所趋?
为什么说大数据和云计算的深度融合是大势所趋?
为什么说大数据和云计算的深度融合是大势所趋?
|
2月前
|
人工智能 运维 数据管理
阿里云数据库走向Serverless与AI驱动的一站式数据平台
阿里云数据库走向Serverless与AI驱动的一站式数据平台
272 2
|
2月前
|
人工智能 Cloud Native 数据管理
阿里云数据库:向Serverless与AI驱动的一站式数据平台迈进
众所周知,在人工智能迅猛发展的现在,在AI驱动下的数据平台,正在向一站式、智能化的方向演进,还有就是云原生+Serverless的不断深入,一站式数据平台将让数据管理开发像“搭积木”一样简单实用,以性价比更高、体验更优的云数据库服务,助推用户业务提效增速。据悉阿里云数据库正在朝着Serverless与AI驱动的方向发展,构建一站式、智能化的数据平台,这一发展趋势将为用户提供更简单、实用的数据管理开发体验,以提高业务效率和降低成本。那么本文就来分享一下如何看待阿里云数据库的这一转变,并展望云原生和Serverless对数据管理与开发的未来带来的更多可能性。
68 1
阿里云数据库:向Serverless与AI驱动的一站式数据平台迈进
|
5月前
|
机器学习/深度学习 人工智能 Cloud Native
软件开发的未来已来:大数据、AI和云原生的终极融合如何引爆市场
大数据、人工智能(AI)和云原生技术的终极融合正在软件开发领域引发巨大的变革和市场机遇。这个融合的未来已经来临,并将引爆市场的原因如下
113 0
|
5月前
|
数据采集 人工智能 安全
AI驱动的大数据创新:探索软件开发中的机会和挑战
AI驱动的大数据创新:探索软件开发中的机会和挑战
|
5月前
|
人工智能 Cloud Native 关系型数据库
云原生数据库,走向Serverless与AI驱动的一站式数据平台
AI驱动下的数据平台,正在向一站式、智能化的方向演进。作为AIGC应用的基础设施,以PolarDB、AnalyticDB、Lindorm、RDS为核心的阿里云瑶池数据库现已全面拥抱向量检索能力,并与通义等大模型深度集成,为用户提供智能化的一站式数据管理平台,加速业务数智创新。
云原生数据库,走向Serverless与AI驱动的一站式数据平台

热门文章

最新文章