《大数据集成(1)》一第1章   大数据集成的挑战和机遇

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来自华章出版社《大数据集成(1)》一书中的第1章,作者 [美] 董欣(Xin Luna Dong)戴夫士·斯里瓦斯塔瓦(Divesh Srivastava),更多章节内容可以访问云栖社区“华章计算机”公众号查看

第1章 大数据集成的挑战和机遇

  大数据时代是数据化的必然结果:我们能将世界中的每个事件和交互都转化成数字数据,同时期望从这些数据中分析和抽取出价值。大数据带来许多愿景,使我们能做出由数据驱动的有价值的决策,并以此来改变社会的方方面面。
  当前各种各样的领域都在产生和使用着大数据,包括数据驱动的科学、电信、社交媒体、大型电子商务、病历和电子健康(e-health)等等。由于不同数据进行链接和融合会使数据的价值爆炸性地增大,因而大数据集成(Big Data Integration, BDI)问题是在各领域内实现大数据美好愿景的关键。
  例如,最近有很多工作通过挖掘万维网抽取出实体、关系以及本体等,以构建通用知识库,如Freebase [Bollacker et al. 2008]、Google知识图谱 [Dong et al. 2014a]、ProBase [Wu et al. 2012]和Yago [Weikum and Theobald 2010]等。这些工作均显示,使用集成的大数据可以改善Web搜索和Web规模的数据分析。
  另一个重要的例子是,近年来产生了大量有地理参照的数据,如有地理标记的Web对象(如照片、视频、推文)、在线登记(如Foursquare)、WiFi日志、车辆的GPS轨迹(如出租车)以及路边传感器网络等。这些集成的大数据为刻画大规模人类移动提供了契机[Becker et al. 2013],并对公共卫生、交通工程和城市规划等领域产生了影响。
  本章中,1.1节描述大数据集成的问题和传统数据集成的要素。1.2节讨论BDI带来的特定挑战。我们首先确定BDI不同于传统数据集成的方面,然后给出几个研究BDI中数据源特性的最新研究案例。BDI还提供了传统数据集成不能提供的机会,1.3节重点介绍其中的一些机会。最后,1.4节给出本书其余部分的章节安排。

相关文章
|
4月前
|
JSON 分布式计算 大数据
springboot项目集成大数据第三方dolphinscheduler调度器
springboot项目集成大数据第三方dolphinscheduler调度器
277 3
|
4月前
|
Java 关系型数据库 MySQL
springboot项目集成dolphinscheduler调度器 实现datax数据同步任务
springboot项目集成dolphinscheduler调度器 实现datax数据同步任务
576 2
|
5月前
|
存储 缓存 分布式计算
OSS大数据分析集成:MaxCompute直读OSS外部表优化查询性能(减少数据迁移的ETL成本)
MaxCompute直读OSS外部表优化方案,解决传统ETL架构中数据同步延迟高、传输成本大、维护复杂等问题。通过存储格式优化(ORC/Parquet)、分区剪枝、谓词下推与元数据缓存等技术,显著提升查询性能并降低成本。结合冷热数据分层与并发控制策略,实现高效数据分析。
149 2
|
4月前
|
数据采集 消息中间件 JSON
搞大数据集成,这些基本原理你得先清楚!
企业在进行大数据集成时,常因忽视对数据本质的统一认知,导致集成失败。本文指出,大数据集成不仅是技术问题,更需明确数据本体论,建立企业级“数据通用语言”,包括核心数据对象、唯一标识及关系定义。只有在业务语义一致的基础上,结合技术实施,才能打破数据孤岛,实现数据价值。
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
870 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
分布式计算 大数据 Java
springboot项目集成大数据第三方dolphinscheduler调度器 执行/停止任务
springboot项目集成大数据第三方dolphinscheduler调度器 执行/停止任务
92 0
|
分布式计算 DataWorks 关系型数据库
MaxCompute 生态系统中的数据集成工具
【8月更文第31天】在大数据时代,数据集成对于构建高效的数据处理流水线至关重要。阿里云的 MaxCompute 是一个用于处理大规模数据集的服务平台,它提供了强大的计算能力和丰富的生态系统工具来帮助用户管理和处理数据。本文将详细介绍如何使用 DataWorks 这样的工具将 MaxCompute 整合到整个数据处理流程中,以便更有效地管理数据生命周期。
403 0
|
分布式计算 大数据 OLAP
AnalyticDB与大数据生态集成:Spark & Flink
【10月更文挑战第25天】在大数据时代,实时数据处理和分析变得越来越重要。AnalyticDB(ADB)是阿里云推出的一款完全托管的实时数据仓库服务,支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力,将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发,分享如何将AnalyticDB与Spark和Flink集成,构建端到端的大数据处理流水线,实现数据的实时分析和处理。
342 1
|
消息中间件 分布式计算 大数据
RabbitMQ与大数据平台的集成
【8月更文第28天】在现代的大数据处理架构中,消息队列作为数据传输的关键组件扮演着重要的角色。RabbitMQ 是一个开源的消息代理软件,它支持多种消息协议,能够为分布式系统提供可靠的消息传递服务。本篇文章将探讨如何使用 RabbitMQ 与 Hadoop 和 Spark 进行集成,以实现高效的数据处理和分析。
242 1
|
分布式计算 大数据 数据处理
【大数据管理新纪元】EMR Delta Lake 与 DLF 深度集成:解锁企业级数据湖的无限潜能!
【8月更文挑战第26天】随着大数据技术的发展,Apache Spark已成为处理大规模数据集的首选工具。亚马逊的EMR服务简化了Spark集群的搭建和运行流程。结合使用Delta Lake(提供ACID事务保证和数据版本控制)与DLF(加强数据访问控制及管理),可以显著提升数据湖的可靠性和性能。本文通过一个电商公司的具体案例展示了如何在EMR上部署集成Delta Lake和DLF的环境,以及这一集成方案带来的几大优势:增强的可靠性、细粒度访问控制、性能优化以及易于管理的特性。这为数据工程师提供了一个高效且灵活的数据湖平台,简化了数据湖的建设和维护工作。
299 1