Hadoop的搜索结果_第4页-阿里云开发者社区

Echo_Wish

|

9月前

|

博文

|

来自：大数据与机器学习

数据分布式存储：在海量数据面前，我们如何站稳脚跟？

# 存储 # 分布式计算 # 负载均衡 # 大数据 # Hadoop

赵渝强老师

|

9月前

|

博文

|

来自：大数据与机器学习

【赵渝强老师】史上最详细：Hadoop HDFS的体系架构

HDFS（Hadoop分布式文件系统）由三个核心组件构成：NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求，维护元数据文件fsimage和edits；DataNode存储实际的数据块，默认大小为128MB；SecondaryNameNode定期合并edits日志到fsimage中，但不作为NameNode的热备份。通过这些组件的协同工作，HDFS实现了高效、可靠的大规模数据存储与管理。

# XML # 存储 # 分布式计算 # Hadoop # 数据格式

aliyun6039169770-29419

|

9月前

|

博文

|

来自：大数据与机器学习

基于云服务器的数仓搭建-集群安装

本文介绍了大数据集群的安装与配置，涵盖Hadoop、Zookeeper、Kafka和Flume等组件。主要内容包括： 1. **数据模拟** 2. **Hadoop安装部署**：详细描述了HDFS和YARN的配置，包括NameNode、ResourceManager的内存分配及集群启动脚本。 3. **Zookeeper安装**：解压、配置`zoo.cfg`文件，并创建myid文件 4. **Kafka安装**：设置Kafka环境变量、配置`server.properties` 5. **Flume安装**：配置Flume采集日志到Kafka，编写启动脚本进行测试。

# 云原生数据仓库AnalyticDB MySQL版 # 云服务器 ECS # 消息中间件 # 分布式计算 # 资源调度 # Hadoop # Kafka

Echo_Wish

|

10月前

|

博文

|

来自：大数据与机器学习

从Excel到Hadoop：数据规模的进化之路

# 分布式计算 # Hadoop # 大数据 # 数据库 # Spark

申某某

|

11月前

|

博文

|

来自：大数据与机器学习

MPP 架构与 Hadoop 架构技术选型指南

MPP架构与Hadoop架构是处理海量数据的两大选择。MPP通过大规模并行处理实现快速查询响应，适用于企业级数据仓库和OLAP应用；Hadoop则以分布式存储和计算为核心，擅长处理非结构化数据和大数据分析。两者各有优劣，MPP适合结构化数据和高性能需求场景，而Hadoop在扩展性和容错性上表现更佳。选择时需综合考虑业务需求、预算和技术能力。

# 云原生数据仓库 AnalyticDB PostgreSQL版 # 日志服务 # 存储 # 分布式计算 # Hadoop # 数据挖掘 # OLAP

刘大猫.

|

11月前

|

博文

|

来自：物联网

Centos7.9安装kerberos

# 存储 # 分布式计算 # Hadoop # 数据库 # 数据安全/隐私保护

别惹CC

|

11月前

|

博文

基于Java的Hadoop文件处理系统：高效分布式数据解析与存储

本文介绍了如何借鉴Hadoop的设计思想，使用Java实现其核心功能MapReduce，解决海量数据处理问题。通过类比图书馆管理系统，详细解释了Hadoop的两大组件：HDFS（分布式文件系统）和MapReduce（分布式计算模型）。具体实现了单词统计任务，并扩展支持CSV和JSON格式的数据解析。为了提升性能，引入了Combiner减少中间数据传输，以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性，鼓励Java开发者学习Hadoop以拓展技术边界。

# 云解析DNS # 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # Hadoop # Java # 大数据

游客pspmw6ifuifys

|

12月前

|

问答

使用flink读取批量读取ES装入paimon，必须全部读取完才能装库？

# 检索分析服务 Elasticsearch版 # 实时计算 Flink版 # 流计算 # 分布式计算 # Hadoop # API

栈江湖

|

12月前

|

博文

大数据时代的引擎：大数据架构随记

大数据架构通常分为四层：数据采集层、数据存储层、数据计算层和数据应用层。数据采集层负责从各种源采集、清洗和转换数据，常用技术包括Flume、Sqoop和Logstash+Filebeat。数据存储层管理数据的持久性和组织，常用技术有Hadoop HDFS、HBase和Elasticsearch。数据计算层处理大规模数据集，支持离线和在线计算，如Spark SQL、Flink等。数据应用层将结果可视化或提供给第三方应用，常用工具为Tableau、Zeppelin和Superset。

# 云原生大数据计算服务 MaxCompute # 云原生数据库 PolarDB # 日志服务 # 存储 # SQL # 分布式计算 # 大数据 # Hadoop

栈江湖

|

12月前

|

博文

Flume+Hadoop：打造你的大数据处理流水线

本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统（HDFS）。Flume是一个高可用、可靠的分布式系统，适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程，并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时，还提供了验证步骤，确保数据成功上传。最后，补充说明了使用文件模式作为channel以避免数据丢失的方法。

# 云原生大数据计算服务 MaxCompute # 日志服务 # 存储 # 分布式计算 # 大数据 # Hadoop # Apache

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Hadoop