文档备案控制台

开发者社区华章出版社文章正文

《Spark大数据分析实战》——第3章BDAS简介

2017-05-02 2203

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章BDAS简介，作者高彦杰　倪亚宇，更多章节内容可以访问云栖社区“华章社区”公众号查看

第3章
BDAS简介
提到Spark不得不说伯克利大学AMPLab开发的BDAS（Berkeley Data Analytics Stack）数据分析的软件栈，如图3-1所示是其中的Spark生态系统。其中用内存分布式大数据计算引擎Spark替代原有的MapReduce，上层通过Spark SQL替代Hive等SQL on Hadoop系统，Spark Streaming替换Storm等流式计算框架，GraphX替换GraphLab等大规模图计算框架，MLlib替换Mahout等机器学习框架等，其整体框架基于内存计算解决了原来Hadoop的性能瓶颈问题。AmpLab提出One Framework to Rule Them All的理念，用户可以利用Spark一站式构建自己的数据分析流水线。
在一些数据分析应用中，用户可以使用Spark SQL预处理结构化数据，GraphX预处理图数据，Spark Streaming实时捕获和处理流数据，最终通过MLlib将数据融合，进行模型训练，底层各个系统通过Spark进行运算。
下面将介绍其中主要的项目。

文章标签：

SQL

分布式计算

Spark

大数据

数据挖掘

关键词：

云原生大数据计算服务 MaxCompute简介

apache spark实战

apache spark简介

apache spark大数据分析

数据分析简介

华章计算机

目录

相关文章

Wenzhuang

|

SQL 分布式计算大数据

MaxCompute 聚簇优化推荐简介

在大数据计算中，Shuffle 是资源消耗最大的环节之一。MaxCompute 提供聚簇优化推荐功能，通过调整 Cluster 表结构，有效减少 Shuffle 量，显著提升作业性能并节省计算资源。实际案例显示，该功能可帮助用户每日节省数 PB 的 Shuffle 数据量及数千 CU 的计算成本。

Wenzhuang

372 0 0

大熊计算机

|

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

677 0 0

郑小健

|

分布式计算大数据 Apache

ClickHouse与大数据生态集成：Spark & Flink 实战

【10月更文挑战第26天】在当今这个数据爆炸的时代，能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统，ClickHouse 在大数据分析领域展现出了卓越的能力。然而，为了充分利用ClickHouse的优势，将其与现有的大数据处理框架（如Apache Spark和Apache Flink）进行集成变得尤为重要。本文将从我个人的角度出发，探讨如何通过这些技术的结合，实现对大规模数据的实时处理和分析。

郑小健

1238 2 3

ClickHouse与大数据生态集成：Spark & Flink 实战

武子康

|

存储缓存分布式计算

大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍

大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍

武子康

319 4 4

武子康

|

存储缓存 NoSQL

大数据-38 Redis 高并发下的分布式缓存 Redis简介缓存场景读写模式旁路模式穿透模式缓存模式基本概念等

大数据-38 Redis 高并发下的分布式缓存 Redis简介缓存场景读写模式旁路模式穿透模式缓存模式基本概念等

武子康

610 4 4

白如意i

|

存储分布式计算数据可视化

大数据概念与术语简介

大数据概念与术语简介

白如意i

553 2 2

叫做饺子

|

分布式计算 Apache Spark

Python与Apache Spark：实时AI的大数据引擎——Spark Streaming实战

7月更文挑战第9天

叫做饺子

708 0 0

张飞的猪

|

机器学习/深度学习分布式计算算法

Spark快速大数据分析PDF下载读书分享推荐

《Spark快速大数据分析》适合初学者，聚焦Spark实用技巧，同时深入核心概念。作者团队来自Databricks，书中详述Spark 3.0新特性，结合机器学习展示大数据分析。Spark是大数据分析的首选工具，本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center

张飞的猪

718 1 1

Spark快速大数据分析PDF下载读书分享推荐

孜倦与shine

|

分布式计算监控大数据

spark实战：实现分区内求最大值，分区间求和以及获取日志文件固定日期的请求路径

spark实战：实现分区内求最大值，分区间求和以及获取日志文件固定日期的请求路径

孜倦与shine

327 1 1

孜倦与shine

|

机器学习/深度学习数据采集分布式计算

基于spark的大数据分析预测地震受灾情况的系统设计

基于spark的大数据分析预测地震受灾情况的系统设计

孜倦与shine

573 1 1

华章出版社

热门文章

最新文章

Spark SQL性能优化

Spark SQL玩起来

阿里巴巴瑾谦/沐远：云HBaseSQL及分析——Phoenix&Spark

【译】使用Spark SQL 运行大规模基因组工作流

EMR Spark Relational Cache的执行计划重写

Spark Mllib里数据集如何取前M行（图文详解）

SPARK Parquet嵌套类型的向量化支持以及列索引(column index)

Spark shuffle、RDD 算子【重要】

3 秒音频也能克隆？拆解 Spark-TTS 架构的极致小样本学习

基于Spark的数据清洗与转换

基于python大数据技术的医疗数据分析与研究

如何构建企业级数据智能体：Data Agent 开发实践

构建企业级数据分析助手：Data Agent 开发实践

数据分析真能让音乐产业更好听吗？——聊聊大数据在音乐里的那些事

通义灵码产品演示：数据库设计与数据分析

StarRocks Connect 2025 圆满落幕：AI Native 时代，数据分析未来已来

HiChIP 数据分析: 差异 Loop 检测

HiChIP 数据分析: 鉴定 Loops

基于python大数据的水文数据分析可视化系统

基于python大数据的用户行为数据分析系统

相关课程

更多

AMD 全新 EPYC，引领下一代数据分析强劲性能

AMD全新EPYC，引领下一代数据分析强劲性能

实时数据分析：使用Flink实时发现最热Github项目

日志服务 SLS 可观测数据分析平台介绍

Quick BI在业务数据分析中的实战应用

Python 数据分析库 Pandas 快速入门

相关电子书

更多

SAS数据分析开发之道：软件质量的维度

用SQL做数据分析

基于英特尔®FPGA的数据分析可重构加速

相关实验场景

更多

AnalyticDB Zero-ETL：简单易用零成本的一站式数据分析

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！