《大数据管理概论》一第2章‖大数据融合2.1 引言

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

本节书摘来自华章出版社《大数据管理概论》一书中的第2章,第2.1节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看

第2章‖

大数据融合

2.1 引言

大数据时代人们面临的最根本挑战是从数据中凝练可领悟的知识[10,11],
其关键技术是数据的集成或融合[12]。进入21世纪以来,这些技术已经取得了重大进展,如深网(Deep Web)数据集成技术[13]、知识库(Knowledge Base,KB)技术[14,15]、关联数据(Linked Data)集成技术[16]、大数据集成技术[17]等。这些技术在结构化、半结构化、非结构化等各种类型的数据处理上已形成优势,并广泛应用于各个领域:①商业领域,如Google搜索引擎借助Google知识图谱[14]、微软的必应搜索引擎借助知识库Satori[18]提高检索质量和检索效率;②科学领域,如IBM的Watson问答系统借助DBpedia[15]、YAGO[19]、Freebase[20]提供语义感知的问答服务;③专业领域,如生命科学利用Bio2RDF[21]、Neurocommons [22]等知识图谱作问答和决策。
然而,在使用这些已有技术获取知识时出现了如下问题:①获取的知识规模宏大,但缺乏可理解性和可实用性。以知识库为例,如Google知识图谱[14]目前包含多于5亿实体和350亿条实体间的关系信息,至少囊括几千种谓词,这些谓词还在不断增加和变化。要想让用户掌握这些谓词和模式不太现实,所以,当他们面对这些千丝万缕的关系时,很难从本质上理解和消化这些知识,从而降低了大数据应有的价值。②得到的知识品质有差别[17],存在不一致性甚至冲突,尤其是时态型数据,知识的品质更难以有效甄别。并且融合的结果缺乏可解释性,从而导致其可靠性受到质疑。③缺乏与领域知识的结合,并且获取的知识只处于表层理解,导致融合结果与实际应用需求存在鸿沟,例如,一些已被发现的表层现象、规律等没有进一步形成普适机理,使得这种规律性的发现不能有效反馈给融合
过程。
经研究发现,引发这些问题的关键是大数据在不断动态演化,并且需要从多个维度、多种粒度进行解释。此外,数据的组织方式不同得到的知识品质也会有差异,犹如碳原子既可以构成钻石,也可以构成石墨。所以我们认为当下面临的一个突出问题是如何有效地融合知识使大数据的价值最大化,此即大数据融合问题,其关键是突破上述局限——需要把目标聚焦于大数据新的特征和融合方式。
为此,2.2节给出了大数据融合的概念,并分析了融合需求和融合对象的独特性。2.3节总结归纳了现有融合范式,并分析对比了这些融合范式的共同点和各自的优缺点,以及面对大数据,这些融合范式存在的共同缺陷,提出适合大数据的新型融合方法论——动态演化的数据融合与多维度、多粒度的知识融合双环驱动的大数据融合。2.4至2.6节分别探讨大数据融合中数据融合、知识融合和驱动枢纽的内涵、实现方法和技术
难点。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
18天前
|
机器学习/深度学习 数据采集 人工智能
深入探索人工智能与大数据的融合之路
本文旨在探讨人工智能(AI)与大数据技术如何相互促进,共同推动现代科技的进步。通过分析两者结合的必要性、挑战以及未来趋势,为读者提供一个全面的视角,理解这一领域内的最新发展动态及其对行业的影响。文章不仅回顾了历史背景,还展望了未来可能带来的变革,并提出了几点建议以促进更高效的技术整合。
|
1月前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
1月前
|
机器学习/深度学习 人工智能 算法
探索人工智能与大数据的融合之道####
— 本文旨在探讨人工智能(AI)与大数据如何协同工作,以推动技术创新和产业升级。通过分析二者的基本概念、核心技术及应用场景,揭示它们相互促进的内在机制,并展望未来发展趋势。文章指出,AI提供了智能化处理数据的能力,而大数据则为AI提供了海量的训练资源,两者结合将开启无限可能。 ####
|
1月前
|
人工智能 算法 搜索推荐
探索人工智能与大数据的融合之道####
本文深入探讨了人工智能(AI)与大数据之间的紧密联系与相互促进的关系,揭示了二者如何共同推动科技进步与产业升级。在信息爆炸的时代背景下,大数据为AI提供了丰富的学习材料,而AI则赋予了大数据分析前所未有的深度与效率。通过具体案例分析,本文阐述了这一融合技术如何在医疗健康、智慧城市、金融科技等多个领域展现出巨大潜力,并对未来发展趋势进行了展望,强调了持续创新与伦理考量的重要性。 ####
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能与大数据的融合之美####
【10月更文挑战第29天】 身处信息技术飞速发展的时代,人工智能与大数据如同两颗璀璨的星辰,在科技的夜空中交相辉映,共同推动着社会进步与变革的浪潮。本文旨在揭开AI与大数据深度融合的神秘面纱,探讨这一融合如何引领技术前沿,激发创新活力,并展望其在未来世界中的无限可能。通过深入浅出的解析,展现技术背后的逻辑与魅力,邀请读者一同踏上这场科技与智慧的探索之旅。 ####
86 2
|
2月前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
116 10
|
25天前
|
数据采集 机器学习/深度学习 人工智能
探索人工智能与大数据的融合之路####
本文将深入探讨人工智能(AI)与大数据之间的共生关系,揭示二者如何相互促进,共同推动技术边界的拓展。不同于传统摘要的概述形式,本部分将以一个生动的比喻开篇:如果把大数据比作广阔无垠的数字海洋,那么人工智能就是航行其间的智能航船,两者相辅相成,缺一不可。随后,简述文章将从数据采集、处理、分析到决策应用的全流程中,详细阐述AI如何借助大数据的力量实现自我迭代与优化,以及大数据如何在AI算法的驱动下释放出前所未有的价值。最后,预告文章还将探讨当前面临的挑战与未来趋势,为读者勾勒一幅AI与大数据融合发展的宏伟蓝图。 ####
|
3月前
|
SQL 人工智能 大数据
阿里云牵头起草!首个大数据批流融合国家标准发布
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
105 7
|
3月前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
|
3月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能与大数据的融合应用##
随着科技的快速发展,人工智能(AI)和大数据技术已经深刻地改变了我们的生活。本文将探讨人工智能与大数据的基本概念、发展历程及其在多个领域的融合应用。同时,还将讨论这些技术所带来的优势与挑战,并展望未来的发展趋势。希望通过这篇文章,读者能够对人工智能与大数据有更深入的理解,并思考其对未来社会的影响。 ##

热门文章

最新文章