文档备案控制台

开发者社区大数据文章正文

大数据分析处理框架——离线分析（hive，pig，spark）、近似实时分析（Impala）和实时分析（storm、spark streaming）

2017-11-15 4715

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

大数据分析处理架构图

数据源： 除该种方法之外，还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构，而特别要说的是流数据，它的核心就是数据的连续性和快速分析性；

计算层： 内存计算中的Spark是UC Berkeley的最新作品，思路是利用集群中的所有内存将要处理的数据加载其中，省掉很多I/O开销和硬盘拖累，从而加快计算。而Impala思想来源于Google Dremel，充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度，这也就是我上面说到的近似实时查询；底层的文件系统当然是HDFS独大，也就是Hadoop的底层存储，现在大数据的技术除了微软系的意外，基本都是HDFS作为底层的存储技术。上层的YARN就是MapReduce的第二版，和在一起就是Hadoop最新版本。基于之上的应用有Hive，Pig Latin，这两个是利用了SQL的思想来查询Hadoop上的数据。

本文转自张昺华-sky博客园博客，原文链接：http://www.cnblogs.com/bonelee/p/6351722.html ，如需转载请自行联系原作者

文章标签：

分布式计算

存储

大数据

Spark

流计算

SQL

资源调度

Hadoop

HIVE

Web App开发

关键词：

云原生大数据计算服务 MaxCompute分析

云原生大数据计算服务 MaxCompute spark

云原生大数据计算服务 MaxCompute hive

hive apache spark

Hive spark

桃子红了呐

目录

相关文章

大熊计算机

|

7月前

|

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

408 0 0

郑小健

|

分布式计算大数据 Apache

ClickHouse与大数据生态集成：Spark & Flink 实战

【10月更文挑战第26天】在当今这个数据爆炸的时代，能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统，ClickHouse 在大数据分析领域展现出了卓越的能力。然而，为了充分利用ClickHouse的优势，将其与现有的大数据处理框架（如Apache Spark和Apache Flink）进行集成变得尤为重要。本文将从我个人的角度出发，探讨如何通过这些技术的结合，实现对大规模数据的实时处理和分析。

郑小健

1027 2 3

ClickHouse与大数据生态集成：Spark & Flink 实战

Echo_Wish

|

10月前

|

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

549 79 80

武子康

|

存储分布式计算算法

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

武子康

288 0 0

蓝易云

|

10月前

|

SQL 分布式计算 IDE

如何在IDE中通过Spark操作Hive

通过以上方法和代码示例，你可以在IDE中成功通过Spark操作Hive，实现大规模数据处理和分析。确保理解每一步的实现细节，应用到实际项目中时能有效地处理各种复杂的数据场景。

蓝易云

561 28 28

aliyun6039169770-29419

|

10月前

|

SQL 分布式计算关系型数据库

基于云服务器的数仓搭建-hive/spark安装

本文介绍了在本地安装和配置MySQL、Hive及Spark的过程。主要内容包括： - **MySQL本地安装**：详细描述了内存占用情况及安装步骤，涉及安装脚本的编写与执行，以及连接MySQL的方法。 - **Hive安装**：涵盖了从上传压缩包到配置环境变量的全过程，并解释了如何将Hive元数据存储配置到MySQL中。 - **Hive与Spark集成**：说明了如何安装Spark并将其与Hive集成，确保Hive任务由Spark执行，同时解决了依赖冲突问题。 - **常见问题及解决方法**：列举了安装过程中可能遇到的问题及其解决方案，如内存配置不足、节点间通信问题等。

aliyun6039169770-29419

501 1 1

基于云服务器的数仓搭建-hive/spark安装

瓴羊Dataphin

|

10月前

|

SQL 分布式计算资源调度

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

瓴羊Dataphin

417 4 4

扬流

|

SQL 分布式计算 Serverless

EMR Serverless Spark：一站式全托管湖仓分析利器

本文根据2024云栖大会阿里云 EMR 团队负责人李钰（绝顶）演讲实录整理而成

扬流

828 58 58

技术小达人

|

11月前

|

SQL 分布式计算 Serverless

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用

技术小达人

287 0 0

土木林森

|

SQL 机器学习/深度学习分布式计算

Spark快速上手：揭秘大数据处理的高效秘密，让你轻松应对海量数据

【10月更文挑战第25天】本文全面介绍了大数据处理框架 Spark，涵盖其基本概念、安装配置、编程模型及实际应用。Spark 是一个高效的分布式计算平台，支持批处理、实时流处理、SQL 查询和机器学习等任务。通过详细的技术综述和示例代码，帮助读者快速掌握 Spark 的核心技能。

土木林森

595 6 6

热门文章

最新文章

深入阿里云大数据IDE–MaxCompute Studio

MaxCompute优化系列-如何使用`MAPJOIN` ？

开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践

2016大数据创新大赛——机场客流量的时空分布预测模型解析

阿里云大数据利器之-RDS迁移到Maxcompute实现动态分区

蚂蚁金服高级技术专家徐红星：蚂蚁金服大数据开放式创新实践

阿里云大数据利器Maxcompute-使用mapjoin优化查询

SQL Server数据上云恢复报错

贵州发布大数据产业发展引导目录

招聘：搜索推荐事业部-机器学习大数据工程专家-杭州

Spark3.3.0源码编译补充篇-抓狂的证书问题

Spark性能优化之SparkUI

利用SparkLauncher实现Spark Cluster模式下的远端交互

Spark3.x的Cache能不能让我在2022好好睡觉

Spark 3.0 中的屏障执行模式_Spark的MPI时代来了

Spark性能优化指南—思路梳理

肝Spark源码的若干骚操作

Spark的几种去重的原理分析

Spark开发实用技巧-从入门到爱不释手

Spark 编译出现 InvalidAlgorithmParameterException: the trustAnchors parameter must be non-empty

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

附部署代码｜云数据库RDS 全托管 Supabase服务：小白轻松搞定开发AI应用