Hadoop

首页 标签 Hadoop
# Hadoop #
关注
11266内容
|
7月前
|
《深入了解Hive SQL:与传统SQL的差异探秘》
Hive SQL是基于Hadoop的大数据查询语言,用于处理存储在HDFS中的海量数据。它将SQL-like查询翻译为MapReduce任务,在大数据分析领域表现出色。与传统SQL相比,Hive SQL适用于分布式存储和大规模并行处理,支持复杂数据类型(如数组、结构体),但在事务支持和实时性上较弱。传统SQL更适合小规模、结构化数据及高频更新场景,而Hive SQL则专注于离线批量数据分析,广泛应用于用户行为分析、风险评估等场景。两者各有优势,满足不同业务需求,共同推动数据处理技术发展。
这可能是最轻量级的列存技术了
列式存储通过减少硬盘访问量和高效压缩,显著提升数据分析性能。然而,传统列存技术如Hadoop、MPP数据库等架构复杂、成本高。esProc的ctx文件提供了一种轻量级列存解决方案,支持高效的数据压缩、分段并行计算及简单易用的SPL编程语言。ctx文件适用于大数据量存储,读取性能优于ORC和Parquet,且无需复杂环境配置,适合嵌入Java应用,特别适用于报表缓存场景。SPL已开源免费,欢迎了解。
【赵渝强老师】史上最详细:Hadoop HDFS的体系架构
HDFS(Hadoop分布式文件系统)由三个核心组件构成:NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求,维护元数据文件fsimage和edits;DataNode存储实际的数据块,默认大小为128MB;SecondaryNameNode定期合并edits日志到fsimage中,但不作为NameNode的热备份。通过这些组件的协同工作,HDFS实现了高效、可靠的大规模数据存储与管理。
基于云服务器的数仓搭建-集群安装
本文介绍了大数据集群的安装与配置,涵盖Hadoop、Zookeeper、Kafka和Flume等组件。主要内容包括: 1. **数据模拟** 2. **Hadoop安装部署**:详细描述了HDFS和YARN的配置,包括NameNode、ResourceManager的内存分配及集群启动脚本。 3. **Zookeeper安装**:解压、配置`zoo.cfg`文件,并创建myid文件 4. **Kafka安装**:设置Kafka环境变量、配置`server.properties` 5. **Flume安装**:配置Flume采集日志到Kafka,编写启动脚本进行测试。
免费试用