《Spark与Hadoop大数据分析》一一第1章 从宏观视角看大数据分析

简介:
+关注继续查看

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第1章,第1.1节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第1章 从宏观视角看大数据分析

本书的目标是让你熟悉 Apache Spark用到的工具和技术,重点介绍Hadoop平台上使用的Hadoop部署和工具。大多数Spark的生产环境会采用Hadoop集群,用户在集成 Spark和Hadoop配套的各种工具时会遇到很多挑战。本书将讲解Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和另一种资源协商器(Yet Another Resource Negotiator,YARN)面临的集成挑战,以及Spark和Hadoop使用的各种工具。本书还会讨论所有Spark组件—Spark Core、Spark SQL、DataFrame、Dataset、Spark Streaming、Structured Streaming、MLlib、GraphX 和 SparkR,以及它与分析组件(如Jupyter、Zeppelin、Hive、HBase)及数据流工具(例如 NiFi)的集成。此外,本书还会通过使用MLlib的一个实时推荐系统示例来帮助我们理解数据科学技术。
在本章,我们会从比较宏观的角度来介绍大数据分析,并尝试了解在 Apache Hadoop 和 Apache Spark 平台上使用的工具和技术。
大数据分析是分析大数据的过程,它可以提取过去、当前和未来的统计数据,以及用于改进业务决策的内在规律性。
大数据分析大致可分为两大类:数据分析和数据科学,它们是相互关联的学科。本章会解释数据分析与数据科学之间的差异。数据分析和数据科学在当前行业里的定义会随着它们的应用案例的不同而不同,但让我们尝试理解它们分别能够完成什么工作。
数据分析侧重于数据的收集和解释,通常侧重于过去和现在的统计。而另一方面,数据科学通过进行探索性分析,可以根据过去和现在的数据所识别的模型来产生推荐,重点关注于未来。
图1-1解释了数据分析和数据科学在时间和实现的价值方面的差异。图中还显示了它们解决的典型问题和使用的工具及技术。数据分析主要有两种类型的分析:描述性分析和诊断性分析。数据科学也有两种类型的分析:预测性分析和规范性分析。数据科学和数据分析的具体情况如图1-1所示。
image

图1-1 数据分析与数据科学
两者之间在过程、工具、技术、技能和输出方面的差异见下表:
image

本章要讨论的主题如下:
大数据分析以及Hadoop和Spark在其中承担的角色
大数据科学以及Hadoop和Spark在其中承担的角色
相关的工具和技术
真实环境下的用例.

相关文章
|
2月前
|
分布式计算 Hadoop 大数据
大数据Hadoop之——Apache Hudi 数据湖实战操作(Spark,Flink与Hudi整合)
大数据Hadoop之——Apache Hudi 数据湖实战操作(Spark,Flink与Hudi整合)
122 2
|
4月前
|
分布式计算 搜索推荐 Hadoop
阿里巴巴资深架构师熬几个通宵肛出来的Spark+Hadoop+中台实战pdf
Spark大数据分析实战 1、Spark简介 初识Spark Sp ark生态系统BDAS Sp ark架构与运行逻辑 弹性分布式数据集
|
4月前
|
分布式计算 Hadoop 大数据
大数据技术解析:Hadoop、Spark、Flink和数据湖的对比
Hadoop、Spark、Flink 和数据湖都在大数据处理领域有着重要的地位,但它们各自的优势和劣势也需考虑实际应用场景。Hadoop 适用于批处理任务,Spark 更适合实时分析,而 Flink 则强调低延迟的流式处理。数据湖则是存储和管理大规模多样性数据的选择。
224 1
大数据技术解析:Hadoop、Spark、Flink和数据湖的对比
|
4月前
|
分布式计算 算法 大数据
大数据Spark企业级实战与Hadoop实战&PDF和PPT
今天给大家分享的是《大数据Spark企业级实战》与《Hadoop实战》《大数据处理系统·Hadoop源代码情景分析》《50个大厂大数据算法教程》等销量排行前10名的大数据技术书籍(文末领取PDF版)。这些书籍具有以下几个优点:易读、实践性强,对解决工作中遇到的业务问题具有一定启发性。
|
5月前
|
机器学习/深度学习 存储 分布式计算
Hadoop生态系统中的机器学习与数据挖掘技术:Apache Mahout和Apache Spark MLlib的应用
Hadoop生态系统中的机器学习与数据挖掘技术:Apache Mahout和Apache Spark MLlib的应用
|
5月前
|
分布式计算 Hadoop Java
Hadoop生态系统中的流式数据处理技术:Apache Flink和Apache Spark的比较
Hadoop生态系统中的流式数据处理技术:Apache Flink和Apache Spark的比较
|
7月前
|
SQL 分布式计算 运维
Hadoop/Spark 太重
Hadoop/Spark 太重
|
8月前
|
存储 SQL 分布式计算
Hadoop和Spark的异同
Hadoop实质上是解决大数据大到无法在一台计算机上进行存储、无法在要求的时间内进行处理的问题,是一个分布式数据基础设施。 HDFS,它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,通过将块保存到多个副本上,提供高可靠的文件存储。 MapReduce,通过简单的Mapper和Reducer的抽象提供一个编程模型,可以在一个由几十台上百台的机器上并发地分布式处理大量数据集,而把并发、分布式和故障恢复等细节隐藏。
|
11月前
|
分布式计算 Hadoop Java
spark编译:构建基于hadoop的spark安装包及遇到问题总结
spark编译:构建基于hadoop的spark安装包及遇到问题总结
247 0
spark编译:构建基于hadoop的spark安装包及遇到问题总结
|
11月前
|
SQL 消息中间件 分布式计算
如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
501 0
如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
推荐文章
更多