大数据分析处理框架——离线分析(hive,pig,spark)、近似实时分析(Impala)和实时分析(storm、spark streaming)

简介:


大数据分析处理架构图
数据源: 除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性;
计算层: 内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理的数据加载其中,省掉很多I/O开销和硬盘拖累,从而加快计算。而Impala思想来源于Google Dremel,充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度,这也就是我上面说到的近似实时查询;底层的文件系统当然是HDFS独大,也就是Hadoop的底层存储,现在大数据的技术除了微软系的意外,基本都是HDFS作为底层的存储技术。上层的YARN就是MapReduce的第二版,和在一起就是Hadoop最新版本。基于之上的应用有Hive,Pig Latin,这两个是利用了SQL的思想来查询Hadoop上的数据。















本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6351722.html ,如需转载请自行联系原作者




相关文章
|
13天前
|
数据采集 人工智能 分布式计算
ODPS在AI时代的发展战略与技术演进分析报告
ODPS(现MaxCompute)历经十五年发展,从分布式计算平台演进为AI时代的数据基础设施,以超大规模处理、多模态融合与Data+AI协同为核心竞争力,支撑大模型训练与实时分析等前沿场景,助力企业实现数据驱动与智能化转型。
65 4
|
2月前
|
消息中间件 NoSQL 数据可视化
数据说了算,可你得“听得快”——聊聊大数据里的实时分析
数据说了算,可你得“听得快”——聊聊大数据里的实时分析
65 2
|
3月前
|
数据采集 人工智能 算法
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
84 1
|
2月前
|
SQL 存储 机器学习/深度学习
基于 Dify + Hologres + QWen3 进行企业级大数据的处理和分析
在数字化时代,企业如何高效处理和分析海量数据成为提升竞争力的关键。本文介绍了基于 Dify 平台与 Hologres 数据仓库构建的企业级大数据处理与分析解决方案。Dify 作为开源大语言模型平台,助力快速开发生成式 AI 应用;Hologres 提供高性能实时数仓能力。两者结合,不仅提升了数据处理效率,还实现了智能化分析与灵活扩展,为企业提供精准决策支持,助力数字化转型。
436 2
基于 Dify + Hologres + QWen3 进行企业级大数据的处理和分析
|
2月前
|
存储 Java 大数据
Java 大视界 -- Java 大数据在智能家居能源消耗模式分析与节能策略制定中的应用(198)
简介:本文探讨Java大数据技术在智能家居能源消耗分析与节能策略中的应用。通过数据采集、存储与智能分析,构建能耗模型,挖掘用电模式,制定设备调度策略,实现节能目标。结合实际案例,展示Java大数据在智能家居节能中的关键作用。
|
2月前
|
人工智能 边缘计算 分布式计算
ODPS 在 AI 时代的引领潜力与突破方向分析
阿里云 ODPS 凭借超大规模数据处理、多模态架构与 Data+AI 融合优势,正引领 AI 时代数据革命。其弹性算力支撑大模型训练,多模态处理提升数据利用率,AI 工程化能力完善。但实时性、边缘计算与跨云协同仍存短板。未来将重点突破智能数据编织、异构计算调度、隐私增强平台与边缘云端协同,加速行业落地。结合绿色计算与开放生态,ODPS 有望成为 AI 驱动的数据基础设施核心。
69 0
|
3月前
|
数据采集 搜索推荐 算法
Java 大视界 -- Java 大数据在智能教育学习社区用户互动分析与社区活跃度提升中的应用(274)
本文系统阐述 Java 大数据技术在智能教育学习社区中的深度应用,涵盖数据采集架构、核心分析算法、活跃度提升策略及前沿技术探索,为教育数字化转型提供完整技术解决方案。
|
3月前
|
存储 缓存 分布式计算
OSS大数据分析集成:MaxCompute直读OSS外部表优化查询性能(减少数据迁移的ETL成本)
MaxCompute直读OSS外部表优化方案,解决传统ETL架构中数据同步延迟高、传输成本大、维护复杂等问题。通过存储格式优化(ORC/Parquet)、分区剪枝、谓词下推与元数据缓存等技术,显著提升查询性能并降低成本。结合冷热数据分层与并发控制策略,实现高效数据分析。
|
3月前
|
数据采集 自然语言处理 算法
朋友圈里的“数据局”——聊聊大数据与社交媒体分析的那些事儿
朋友圈里的“数据局”——聊聊大数据与社交媒体分析的那些事儿
124 0
|
传感器 分布式计算 安全
Java 大视界 -- Java 大数据在智能安防入侵检测系统中的多源数据融合与分析技术(171)
本文围绕 Java 大数据在智能安防入侵检测系统中的应用展开,剖析系统现状与挑战,阐释多源数据融合及分析技术,结合案例与代码给出实操方案,提升入侵检测效能。

热门文章

最新文章