《大数据管理概论》一2.6 大数据融合的驱动枢纽

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来自华章出版社《大数据管理概论》一书中的第2章,第2.6节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.6 大数据融合的驱动枢纽

数据融合与知识融合是一个相互启发、相互协调、逐步融合的过程,两者之间需要一个纽带进行衔接,我们把这个衔接纽带叫做智能晶格。此外,数据融合与知识融合还受一些共同因素的影响,如动态演化性、海量性和高速性,这些因素直接影响融合技术。

2.6.1 智能晶格

智能晶格的本质功能是用于桥接数据融合和知识融合,并对外提供使用接口,它应具备两个功能。首先,它用于优化知识的结构,方便获取知识库不同层次、不同粒度的关系数量和知识结构,可以完成高效的数据存储、更新和查询操作。其次,它属于对知识库的一种语义关系操作,需要具有自适应性、演化性和可溯源性,与知识库协调一致。因此,智能晶格可以认为是一种操作。从数据存储角度看,它是知识库的一种物理索引方法,用于实现数据的分层组织;从数据的呈现上看,它是知识库的不同层次、不同粒度的关系数量和知识结构的概要,为知识融合提供变粒度数据资源。
例如gStore索引[35]利用RDF图中挖掘出的若干存储模式和列存储技术将RDF数据中满足这些存储模式的结构保存在一起。但是,对于大数据的D&2V特性,还需要根据高阶多元关系中路径语义关系自动地找到关联数据中路径模式和自然语言中关系词汇之间的对应关系来发现存储模式,自适应学习动态索引的构建方法,优化知识的结构,进而动态建立不同粒度级别的概要图,并实现智能晶格“上钻”和“下钻”的交互式浏览方法,方便用户使用不同粒度的数据和理解复杂关联数据模式。

2.6.2 迁移学习

迁移学习是为解决跨媒体、跨领域、跨学科、跨行业体系的大数据融合问题而提出的,主要针对跨媒体、跨领域的知识学习和跨学科、跨行业体系的知识复用。
1)跨媒体、跨领域的知识学习:大数据融合的对象具有多样性,它既可以是结构化数据(如表格、列表等)、非结构化数据(如文本、图片、视频等)、半结构化的社会媒体数据(如微博、博客等复杂类型数据),也可以是知识,如规律、模型、机理等,它不仅以多种形式共存,还出现在不同领域,出现了多类型、跨领域融合的现象。针对这种跨领域的多形式数据进行知识融合不是简单的匹配融合,需要充分考虑各种数据形式的特点,同时需要研究它们的差异所在以及如何合理地处理这些差异,这是数据融合面临的一个挑战。在知识融合过程中上层机理是相通的,如金融市场呈现出的长期记忆性和社会网络中注意力流的长期记忆性,它们都呈现出了长期记忆现象。那么,它们在分析、处理方法上就可以相互借鉴。此外,系统科学从全局、整体出发研究数据的宏观现象、特征等,与数据库领域的局部、微观现象的发现形成互补,可以相互借鉴。这种在知识融合中适合处理多形式数据的跨领域寻找方法使得知识融合更高效。
2)跨学科、跨行业体系的知识复用:大数据融合是为了更好地提供知识服务,其中数据融合提供集成化知识,知识融合在此基础上进一步理解,以获得知识的隐性特征、规律,并对其进行验证、剖析,归纳出知识间呈现的普适性质、现象,甚至是内在机理。那么如何将一个行业体系中获取的深度知识、普适机理等,以低廉成本,直观、快速地应用到其他行业体系中就是一个焦点。一个普遍的想法是:如果出现了类似的情境,可以利用已有的结论提出假设,在相同的环境设置下调整一个或多个变化因素,观察事态变化以验证假设。这一过程的核心在于将可控模拟仿真的方法、大数据融合的理论与实际应用相结合,围绕现实中特定问题,依据大数据融合理论得到的相关历史知识、经验,包括规律、性质、机理、现象等,结合特定领域或情境下的知识,通过模拟、仿真的手段,生成相应的可执行方案。所以,可控模拟仿真的方法、大数据融合的理论与实际应用相结合的迁移学习方法将成为大数据时代的一种发展趋势。

2.6.3 数据溯源

大数据融合过程对用户透明,缺乏可解释性和可操作性,并且大数据的海量性和动态演化加大了错误恢复的难度,传统融合方法没有考虑这一点。因此,必须建立大数据融合的可溯源机制。追溯融合结果的数据来源以及演化过程,以便及时发现和更正错误。这一步的关键是数据起源的表示以及数据演化中间过程的跟踪。其中,中间过程包括实体识别和冲突解决过程、知识库自适应发展过程以及知识推理和深度知识发现过程。
对于数据融合,首先需要建立知识获取的溯源机制,主要回答每条关联数据来源于哪个数据源,是经过了哪些操作(如实体、关系和属性抽取)得到的。这些数据的溯源对于判定数据的可信性非常重要。然后,需要建立实体识别溯源机制,用于跟踪融合结果由哪些待统一实体产生。最后,建立冲突解决溯源机制,用于处理融合结果元组中的每个值来自于哪些记录的哪个属性值以及通过何种冲突解决方法得来。
在知识推演和深度知识发现过程中,不仅需要向用户返回系统产生的答案,还需要向用户展示答案的来源和证据,即需要解决答案来源的“Why”“How”“Where”“Why Not”问题。与传统关系数据库中的溯源问题基于关系代数的执行路径分析不同的是,在知识推演和深度知识发现中,多了一个自然语言问题理解的过程。因此在回答这类溯源问题时,需要统一的推理和发现问题执行计划的表达模型,根据该模型给出溯源的答案。此外,维护溯源机制很花时间和空间,如何提高溯源的查询性能,同时降低溯源的时空代价也是亟待解决的问题。

2.6.4 D&2V处理

制约传统方法在大数据中使用的3个主要因素是大数据的动态演化性、高速性和海量性(简称D&2V)。知识的动态演化贯穿整个大数据融合过程,它影响着数据融合、知识融合的各种技术,所以还需要结合其他方法具体考虑。但是,其中最为重要的两项工作是:①对动态变化的跟踪和知识演化的建模,对于大数据的特殊性,需要考虑变化的复杂模式,如语义关系等,最好能从中挖掘概念模板以应对数据的高速性和海量性;②应对动态性给数据存储、索引带来的挑战,动态性是影响大数据融合的关键因素,亟待解决。
对于海量性和高速性,主要解决的是它们带来的负面影响,对这两个因素的处理直接关系到大数据融合的性能和效率。海量性和高速性迫使传统的多项式时间算法不再适用,需要权衡精度与速度(效率),大致有4种解决思路:①近似计算,采用近似算法代替原来的精确计算方法;②简约计算(N->K),通过核数据、采样等手段实现模型的精简和算法的快速收敛,达到简约计算,例如发现全量全模态(N)数据中的核数据(K)进行近似,或者通过采样实现多重小样本(K)对全量数据(N)的有效近似;③分治计算(N/K),即通过数据化整为零的手段实现计算的约简,达到算法层面的横向扩展(Scale Out),如网格计算、MapReduce和参数化服务;④增量计算(N->N),即针对数据相对于增量远小于绝对基数的现象,采用增量计算理论,需要支持流式数据的实时OLAP分析。除此之外,也可以借助优化硬件技术来支持大数据的处理。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
SQL 消息中间件 分布式计算
大数据-120 - Flink Window 窗口机制-滑动时间窗口、会话窗口-基于时间驱动&基于事件驱动
大数据-120 - Flink Window 窗口机制-滑动时间窗口、会话窗口-基于时间驱动&基于事件驱动
88 0
|
1月前
|
SQL 分布式计算 大数据
大数据-119 - Flink Window总览 窗口机制-滚动时间窗口-基于时间驱动&基于事件驱动
大数据-119 - Flink Window总览 窗口机制-滚动时间窗口-基于时间驱动&基于事件驱动
63 0
|
3天前
|
人工智能 算法 搜索推荐
探索人工智能与大数据的融合之道####
本文深入探讨了人工智能(AI)与大数据之间的紧密联系与相互促进的关系,揭示了二者如何共同推动科技进步与产业升级。在信息爆炸的时代背景下,大数据为AI提供了丰富的学习材料,而AI则赋予了大数据分析前所未有的深度与效率。通过具体案例分析,本文阐述了这一融合技术如何在医疗健康、智慧城市、金融科技等多个领域展现出巨大潜力,并对未来发展趋势进行了展望,强调了持续创新与伦理考量的重要性。 ####
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能与大数据的融合之美####
【10月更文挑战第29天】 身处信息技术飞速发展的时代,人工智能与大数据如同两颗璀璨的星辰,在科技的夜空中交相辉映,共同推动着社会进步与变革的浪潮。本文旨在揭开AI与大数据深度融合的神秘面纱,探讨这一融合如何引领技术前沿,激发创新活力,并展望其在未来世界中的无限可能。通过深入浅出的解析,展现技术背后的逻辑与魅力,邀请读者一同踏上这场科技与智慧的探索之旅。 ####
27 2
|
15天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
69 10
|
2月前
|
SQL 人工智能 大数据
阿里云牵头起草!首个大数据批流融合国家标准发布
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
83 7
|
2月前
|
人工智能 编解码 搜索推荐
大模型、大数据与显示技术深度融合 加速智慧医疗多元化场景落地
大模型、大数据与显示技术深度融合 加速智慧医疗多元化场景落地
|
2月前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
|
2月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能与大数据的融合应用##
随着科技的快速发展,人工智能(AI)和大数据技术已经深刻地改变了我们的生活。本文将探讨人工智能与大数据的基本概念、发展历程及其在多个领域的融合应用。同时,还将讨论这些技术所带来的优势与挑战,并展望未来的发展趋势。希望通过这篇文章,读者能够对人工智能与大数据有更深入的理解,并思考其对未来社会的影响。 ##
|
3月前
|
自然语言处理 供应链 数据可视化
大数据在市场营销中的应用案例:精准洞察,驱动增长
【8月更文挑战第25天】大数据在市场营销中的应用案例不胜枚举,它们共同展示了大数据技术在精准营销、市场预测、用户行为分析等方面的巨大潜力。通过深度挖掘和分析数据,企业能够更加精准地洞察市场需求,优化营销策略,提升市场竞争力。未来,随着大数据技术的不断发展和普及,其在市场营销领域的应用将更加广泛和深入。
1060 3

热门文章

最新文章

下一篇
无影云桌面