Hadoop的搜索结果-阿里云开发者社区

栈江湖

|

6天前

|

博文

大数据架构通常分为四层：数据采集层、数据存储层、数据计算层和数据应用层。数据采集层负责从各种源采集、清洗和转换数据，常用技术包括Flume、Sqoop和Logstash+Filebeat。数据存储层管理数据的持久性和组织，常用技术有Hadoop HDFS、HBase和Elasticsearch。数据计算层处理大规模数据集，支持离线和在线计算，如Spark SQL、Flink等。数据应用层将结果可视化或提供给第三方应用，常用工具为Tableau、Zeppelin和Superset。

# 云原生大数据计算服务 MaxCompute # 云原生数据库 PolarDB # 日志服务 # 存储 # SQL # 分布式计算 # 大数据 # Hadoop

栈江湖

|

6天前

|

博文

Flume+Hadoop：打造你的大数据处理流水线

本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统（HDFS）。Flume是一个高可用、可靠的分布式系统，适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程，并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时，还提供了验证步骤，确保数据成功上传。最后，补充说明了使用文件模式作为channel以避免数据丢失的方法。

# 云原生大数据计算服务 MaxCompute # 日志服务 # 存储 # 分布式计算 # 大数据 # Hadoop # Apache

栈江湖

|

6天前

|

博文

hadoop yarm你知道吗？

Hadoop YARN是Hadoop 2.x版本中的资源管理器，负责集群资源管理和作业调度。它由ResourceManager、NodeManager和ApplicationMaster组成，分别负责全局资源调度、节点资源管理和应用程序执行监控。YARN支持多种调度策略，具备高可用性和容错性，并能运行MapReduce、Spark等多种计算框架。配置文件`yarn-site.xml`用于设置YARN的各项参数，如ResourceManager地址、资源上限和调度器类型等。

# 资源管理 # 分布式计算 # 资源调度 # 监控 # Hadoop # 调度

栈江湖

|

6天前

|

博文

如何8步完成hadoop单机安装

本文介绍了在Ubuntu 20.04上安装和配置Hadoop 3.3.6的详细步骤。首先更新系统并安装Java环境，接着下载、解压Hadoop并配置环境变量。然后编辑核心配置文件`core-site.xml`和`hdfs-site.xml`，格式化HDFS文件系统，并启动Hadoop服务。最后通过`jps`命令和浏览器访问Web界面验证安装是否成功。Hadoop是一个开源框架，用于分布式存储和处理大规模数据集，其核心组件包括HDFS、MapReduce和YARN。

# 存储 # 分布式计算 # 资源调度 # Hadoop # Java

栈江湖

|

6天前

|

博文

了解Hive 工作原理：Hive 是如何工作的？

Apache Hive 是一个建立在 Hadoop 之上的分布式数据仓库系统，提供类 SQL 查询语言 HiveQL，便于用户进行大规模数据分析。Hive Metastore（HMS）是其关键组件，用于存储表和分区的元数据。Hive 将 SQL 查询转换为 MapReduce 任务执行，适合处理 PB 级数据，但查询效率较低，不适合实时分析。优点包括易于使用、可扩展性强；缺点则在于表达能力有限和不支持实时查询。

# SQL # 存储 # 分布式计算 # Hadoop # HIVE

瓴羊Dataphin

|

13天前

|

博文

【产品升级】Dataphin V4.4重磅发布：开发运维提效、指标全生命周期管理、智能元数据生成再升级

Dataphin V4.4版本引入了多项核心升级，包括级联发布、元数据采集扩展、数据源指标上架、自定义属性管理等功能，大幅提升数据处理与资产管理效率。此外，还支持Hadoop集群管理、跨Schema数据读取、实时集成目标端支持Hudi及MaxCompute delta等技术，进一步优化用户体验。

# 云原生大数据计算服务 MaxCompute # 云原生数据库 PolarDB # 日志服务 # 存储 # 分布式计算 # Hadoop # 关系型数据库 # API

小白学大数据

|

21天前

|

博文

使用Hadoop MapReduce进行大规模数据爬取

# 数据采集 # 分布式计算 # Hadoop # Java # API

游客nsyhaoxcmeiq6

|

1月前

|

博文

云上真有无穷算力吗？

本文探讨了云计算环境下“算力无限”的误区，指出即使云上硬件资源看似无限，但由于网络延迟、算法模型限制及成本等因素，实际运算效率未必能线性扩展。文章强调了提高单机运算效率的重要性，推荐使用SPL等工具优化算法，以实现更高性能。

# SQL # 分布式计算 # 算法 # Hadoop # 数据库

蓝易云

|

1月前

|

博文

linux中HADOOP_HOME和JAVA_HOME删除后依然指向旧目录

通过以上步骤，可以有效地解决 `HADOOP_HOME`和 `JAVA_HOME`删除后依然指向旧目录的问题。确保在所有相关的配置文件中正确设置和删除环境变量，并刷新当前会话，使更改生效。通过这些措施，能够确保系统环境变量的正确性和一致性。

# 分布式计算 # Java # Hadoop # Linux

潇洒洒

|

1月前

|

博文

1GB内存挑战：高效处理40亿QQ号的策略

在面对如何处理40亿个QQ号仅用1GB内存的难题时，我们需要采用一些高效的数据结构和算法来优化内存使用。这个问题涉及到数据存储、查询和处理等多个方面，本文将分享一些实用的技术策略，帮助你在有限的内存资源下处理大规模数据集。

# 存储 # 分布式计算 # 算法 # Hadoop # 数据处理

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Hadoop