Echo_Wish

|

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

619 79 80

武子康

|

分布式计算 Kubernetes Hadoop

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

武子康

845 6 6

武子康

|

分布式计算资源调度 Hadoop

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

武子康

408 2 2

武子康

|

消息中间件存储分布式计算

大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset

武子康

375 0 0

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第27天】在大数据时代，数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件，通过HDFS存储数据和Spark进行高效计算，实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践，包括数据存储、处理、安全和可视化等方面，展示了它们在实际应用中的协同效应。

土木林森

675 2 2

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用，通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理，确保高可靠性和容错性；Spark则凭借其高性能和丰富的API，进行深度分析和机器学习，实现高效的批处理和实时处理。

土木林森

576 1 1

武子康

|

缓存分布式计算大数据

大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器（Scala编写）、RDD创建方式（一）

武子康

296 0 0

武子康

|

分布式计算算法大数据

大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器（Scala编写）、RDD创建方式（二）

武子康

276 0 0

郑小健

|

存储分布式计算资源调度

Hadoop生态系统概览：从HDFS到Spark

【8月更文第28天】Hadoop是一个开源软件框架，用于分布式存储和处理大规模数据集。它由多个组件构成，旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件，包括HDFS、MapReduce、YARN，并探讨它们如何与现代大数据处理工具如Spark集成。

郑小健

1212 0 0

jianz123

|

分布式计算 Hadoop 大数据

大数据处理框架在零售业的应用：Apache Hadoop与Apache Spark

【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持

jianz123

395 0 0

热门文章

最新文章

相关课程

相关电子书

相关实验场景