开发者社区> 华章计算机> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

《大数据管理概论》一第2章‖大数据融合2.1 引言

简介:
+关注继续查看

本节书摘来自华章出版社《大数据管理概论》一书中的第2章,第2.1节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看

第2章‖

大数据融合

2.1 引言

大数据时代人们面临的最根本挑战是从数据中凝练可领悟的知识[10,11],
其关键技术是数据的集成或融合[12]。进入21世纪以来,这些技术已经取得了重大进展,如深网(Deep Web)数据集成技术[13]、知识库(Knowledge Base,KB)技术[14,15]、关联数据(Linked Data)集成技术[16]、大数据集成技术[17]等。这些技术在结构化、半结构化、非结构化等各种类型的数据处理上已形成优势,并广泛应用于各个领域:①商业领域,如Google搜索引擎借助Google知识图谱[14]、微软的必应搜索引擎借助知识库Satori[18]提高检索质量和检索效率;②科学领域,如IBM的Watson问答系统借助DBpedia[15]、YAGO[19]、Freebase[20]提供语义感知的问答服务;③专业领域,如生命科学利用Bio2RDF[21]、Neurocommons [22]等知识图谱作问答和决策。
然而,在使用这些已有技术获取知识时出现了如下问题:①获取的知识规模宏大,但缺乏可理解性和可实用性。以知识库为例,如Google知识图谱[14]目前包含多于5亿实体和350亿条实体间的关系信息,至少囊括几千种谓词,这些谓词还在不断增加和变化。要想让用户掌握这些谓词和模式不太现实,所以,当他们面对这些千丝万缕的关系时,很难从本质上理解和消化这些知识,从而降低了大数据应有的价值。②得到的知识品质有差别[17],存在不一致性甚至冲突,尤其是时态型数据,知识的品质更难以有效甄别。并且融合的结果缺乏可解释性,从而导致其可靠性受到质疑。③缺乏与领域知识的结合,并且获取的知识只处于表层理解,导致融合结果与实际应用需求存在鸿沟,例如,一些已被发现的表层现象、规律等没有进一步形成普适机理,使得这种规律性的发现不能有效反馈给融合
过程。
经研究发现,引发这些问题的关键是大数据在不断动态演化,并且需要从多个维度、多种粒度进行解释。此外,数据的组织方式不同得到的知识品质也会有差异,犹如碳原子既可以构成钻石,也可以构成石墨。所以我们认为当下面临的一个突出问题是如何有效地融合知识使大数据的价值最大化,此即大数据融合问题,其关键是突破上述局限——需要把目标聚焦于大数据新的特征和融合方式。
为此,2.2节给出了大数据融合的概念,并分析了融合需求和融合对象的独特性。2.3节总结归纳了现有融合范式,并分析对比了这些融合范式的共同点和各自的优缺点,以及面对大数据,这些融合范式存在的共同缺陷,提出适合大数据的新型融合方法论——动态演化的数据融合与多维度、多粒度的知识融合双环驱动的大数据融合。2.4至2.6节分别探讨大数据融合中数据融合、知识融合和驱动枢纽的内涵、实现方法和技术
难点。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
《Hadoop实战第2版》——1.6节Hadoop数据管理
本节书摘来自华章社区《Hadoop实战第2版》一书中的第1章,第1.6节Hadoop数据管理,作者:陆嘉恒,更多章节内容可以访问云栖社区“华章社区”公众号查看
1429 0
《大数据算法》一第1章 绪论
本节书摘来华章计算机《大数据算法》一书中的第1章 ,第1.1节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 第1章 绪论 1.1 大数据概述 毫无疑问,大数据已经成为一个热门的概念,然而,不同领域(例如商业、系统结构、数据管理等)对这个概念的解读却各不相同。
1846 0
《大数据管理概论》一导读
陈寅恪先生说:“一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。治学之士,得预于此潮流者,谓之预流(借用佛教初果之名)。其未得预者,谓之未入流。”对今天的信息技术而言,“新材料”即为大数据,而“新问题”则是产生于“新材料”之上的新的应用需求。
1970 0
《位置大数据隐私管理》—— 第1章 位置信息与隐私保护 1.1 位置大数据
移动通信和传感设备等位置感知技术的发展将人和事物的地理位置数据化。移动对象的传感芯片以直接或间接的方式收集移动对象的位置数据,其自动采集位置信息的速度和规模远远超过现有系统的处理能力。据统计,每个移动对象平均15 s提交一次当前位置,这样算来,全球上亿手机、车载导航设备等移动对象每秒提交的位置信息将超过一亿条[3]。
2088 0
文章
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
数据是怎么炼成的—宝武大数据建设实践
立即下载
扬帆远航:5G融合应用实践精编
立即下载
海量数据处理与大数据技术实战(试读版)
立即下载