文档备案控制台

开发者社区华章出版社文章正文

《Spark大数据分析实战》——第1章Spark简介

2017-05-02 1501

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章社区《Spark大数据分析实战》一书中的第1章Spark简介，作者高彦杰　倪亚宇，更多章节内容可以访问云栖社区“华章社区”公众号查看

第1章
Spark简介
本章主要介绍Spark框架的概念、生态系统、架构及RDD等，并围绕Spark的BDAS 项目及其子项目进行了简要介绍。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目，本章只进行简要介绍，后续章节会有详细阐述。

文章标签：

分布式计算

Spark

关键词：

大数据apache spark简介

云原生大数据计算服务 MaxCompute spark简介

华章计算机

目录

相关文章

大熊计算机

|

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

712 0 0

郑小健

|

分布式计算大数据 Apache

ClickHouse与大数据生态集成：Spark & Flink 实战

【10月更文挑战第26天】在当今这个数据爆炸的时代，能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统，ClickHouse 在大数据分析领域展现出了卓越的能力。然而，为了充分利用ClickHouse的优势，将其与现有的大数据处理框架（如Apache Spark和Apache Flink）进行集成变得尤为重要。本文将从我个人的角度出发，探讨如何通过这些技术的结合，实现对大规模数据的实时处理和分析。

郑小健

1277 2 3

ClickHouse与大数据生态集成：Spark & Flink 实战

Echo_Wish

|

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

806 79 80

Wenzhuang

|

SQL 分布式计算大数据

MaxCompute 聚簇优化推荐简介

在大数据计算中，Shuffle 是资源消耗最大的环节之一。MaxCompute 提供聚簇优化推荐功能，通过调整 Cluster 表结构，有效减少 Shuffle 量，显著提升作业性能并节省计算资源。实际案例显示，该功能可帮助用户每日节省数 PB 的 Shuffle 数据量及数千 CU 的计算成本。

Wenzhuang

404 0 0

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第27天】在大数据时代，数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件，通过HDFS存储数据和Spark进行高效计算，实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践，包括数据存储、处理、安全和可视化等方面，展示了它们在实际应用中的协同效应。

土木林森

789 2 2

李世龙ing

|

分布式计算算法大数据

大数据实战之spark安装部署

楔子我是在2013年底第一次听说Spark，当时我对Scala很感兴趣，而Spark就是使用Scala编写的。一段时间之后，我做了一个有趣的数据科学项目，它试着去预测在泰坦尼克号上幸存。

李世龙ing

3270 0 0

武子康

|

存储分布式计算算法

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

武子康

483 0 0

武子康

|

消息中间件分布式计算 NoSQL

大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新

大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新

武子康

408 0 0

武子康

|

消息中间件存储分布式计算

大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset

大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset

武子康

517 0 0

土木林森

|

SQL 机器学习/深度学习分布式计算

Spark快速上手：揭秘大数据处理的高效秘密，让你轻松应对海量数据

【10月更文挑战第25天】本文全面介绍了大数据处理框架 Spark，涵盖其基本概念、安装配置、编程模型及实际应用。Spark 是一个高效的分布式计算平台，支持批处理、实时流处理、SQL 查询和机器学习等任务。通过详细的技术综述和示例代码，帮助读者快速掌握 Spark 的核心技能。

土木林森

800 6 6

华章出版社

热门文章

最新文章

Spark SQL玩起来

Spark SQL性能优化

阿里巴巴瑾谦/沐远：云HBaseSQL及分析——Phoenix&Spark

【译】使用Spark SQL 运行大规模基因组工作流

spark中连接oracle报异常java.sql.SQLException: No suitable driver

Spark 与 MapReduce 的 Shuffle 的区别？

Fusion 引擎赋能：流利说如何用阿里云 Serverless Spark 实现数仓计算加速

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

Spark 【Spark SQL（一）DataFrame的创建、保存与基本操作】

Spark DAGScheduler中stage转换成TaskSet的过程

当“爆款书”遇上大数据：出版业的老路，正在被算法改写

基于python大数据的台风灾害分析及预测系统

基于Python大数据的热门游戏推荐系统

基于python大数据的青少年网络使用情况分析及预测系统

2026版基于python大数据的电影分析可视化系统

基于Python大数据的的电商用户行为分析系统

基于python大数据技术的医疗数据分析与研究

别再靠“拍脑袋”修系统了——聊聊大数据如何让运维更聪明

基于python大数据深度学习的酒店评论文本情感分析系统

基于python大数据的的海洋气象数据可视化平台

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

Quick BI在业务数据分析中的实战应用

Python 数据分析库 Pandas 快速入门

深入理解数据分析

场景实践-通过阿里云数据分析工具实现共享单车骑行分析

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！