文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

为什么我们需要Hadoop中的数据位置？

为什么我们需要Hadoop中的数据位置？

展开

收起

南霸天霸南北 2019-11-07 20:08:37 5082 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

津崎平匡
- file://${hadoop.tmp.dir}/dfs/data 确定DFS数据节点应该在本地文件系统上存储块的位置。
2020-03-23 23:40:18

赞同展开评论
南霸天霸南北

阿里云头部开发者运营小二

HDFS中的数据集存储为Hadoop集群的DataNodes中的块。在MapReduce作业执行期间，各个Mapper处理块（Input Splits）。如果数据不在Mapper执行作业的同一节点中，则需要通过网络将数据从DataNode复制到映射器DataNode。

现在，如果MapReduce作业具有超过100个Mapper并且每个Mapper尝试同时从集群中的其他DataNode复制数据，则会导致严重的网络拥塞，这是整个系统的一个重要性能问题。因此，数据接近计算是一种有效且具有成本效益的解决方案，在技术上称为Hadoop中的数据位置。它有助于提高系统的整体吞吐量。

数据局部性能的3 种：

数据本地 - 在此类型数据和映射器驻留在同一节点上。这是最接近数据和最优选的方案。机架本地 - 在这种情况下，映射器和数据驻留在同一机架上，但位于不同的数据节点上。不同的机架 - 在这种情况下，映射器和数据驻留在不同的机架上。

2019-11-07 20:08:50

赞同展开评论

问答分类：

分布式计算 Hadoop 云原生大数据计算服务 MaxCompute

问答标签：

hadoop数据 hadoop位置

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

阿里云E-MapReduceJindo DistCp是否支持将数据从Hadoop同步至aws的s3？

160

2

0

hadoop号线不适合这种小文件的存储，还是将数据提取存储到nosql数据库中比较好？

78

1

0

你好用机器学习PAI的emr上的ds集群读hive可以读取我现有hadoop集群的hive数据吗？

99

1

0

各位老师，遇到过：trino 不支持查询使用hadoop catalog 写到iceberg的数据

229

0

0

Hadoop和Spark在数据读取方面有什么不同？

507

1

0

Hadoop是对什么数据做批量处理的中间件？

1966

1

0

使用 hive 创建数据表，并使用 hadoop 文件系统中的数据加载到 hive 数据表中的第三步

764

1

0

Hadoop 写数据的流程是怎样的？

833

1

0

Hadoop数据迁到MaxCompute的数据准备有什么？

1200

1

0

Hadoop数据迁到MaxCompute需要准备什么？

444

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

收录在圈子:

阿里巴巴大数据计算

347744

+ 订阅

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库，以 Serverless 架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析，将数据高效转换为业务洞察。

相关文章

MaxCompute SQL AI 实操

从工单、文档到结构化知识库：一套可复用的 Agent 知识采集方案

AMD服务器上一个诡异的性能问题诊断历程

阿里云服务器内存型r9i实例性能、适用场景与2核16G、4核32G、8核64G活动价格参考

《Numba AOT编译核心技术：斩断JIT启动延迟的实操手册》

热门讨论

热门文章

请教个大数据计算MaxCompute问题，报这个错误是啥情况？

Dataworks中MaxCompute表怎么创建唯一索引啊?

大数据计算MaxCompute 目前不支持其他格式的csv文件吗？

大数据计算MaxCompute我这边想更改字段长度报错了？

大数据计算MaxCompute我对2个账户分别打开命令行，其中一个主账号操作完，这个是有延迟么？

DataWorks数据存储在maxcompute 表格式可以压缩吗可以设置存储副本数吗？

为从MaxCompute提取数据并写入Hologre，上面的SQL语句如何编写，可以提供一个示例吗？

在MaxCompute中管理项目级别的权限，特别是针对RAM用户的具体授权操作，有什么流程？

大数据计算MaxCompute中dataworks怎么实现当日调度吗？

大数据计算MaxCompute的odps主账号自动杀掉正在执行的任务是什么情况？

展开全部

odps是什么?

吴刚专访--大数据和 MaxCompute 技术和故事

Python+大数据计算平台，PyODPS架构手把手教你搭建

互联网下半场的角逐，玩转轻资产的大数据服务 | 阿里云栖开发者沙龙大数据专场（北京站）干货集锦

丰富、连接、待集成—MaxCompute 生态再出发

基于阿里云数加MaxCompute的企业大数据仓库架构建设思路

SQL优化器原理 - Auto Hash Join

MaxCompute访问TableStore(OTS) 数据（20170601更新）

PyODPS开发中的最佳实践

高德地图基于阿里云MaxCompute的最佳实践

展开全部

还有其他疑问?