文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 正文

阿里云E-MapReduce有大佬有通过jindofs建odps外表连oss的实践分享不？

阿里云E-MapReduce有大佬有通过jindofs建odps外表连oss的实践分享不？

展开

收起

wenti 2023-01-30 13:04:46 751 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

在阿里云E-MapReduce中，通过JindoFS构建ODPS（MaxCompute）的外部表以连接OSS确实是一种提升数据处理性能和降低成本的有效实践。虽然直接的实践分享链接未提供，但根据现有知识库资料，可以概述实现这一目标的关键步骤和配置要点：

实现思路

配置JindoFS命名空间：首先确保你的EMR集群已配置了JindoFS，并正确设置了命名空间指向OSS存储。这包括定义jfs.namespaces、jfs.namespaces.emr-jfs.oss.uri以及选择合适的jfs.namespaces.emr-jfs.mode（如cache或oss模式）。
创建ODPS外部表：在MaxCompute（原ODPS）侧，你需要创建一个外部表，其数据源位置指定为通过JindoFS挂载的OSS路径。这意味着在创建表时，Location参数应设置为JindoFS提供的访问路径，格式类似于jfs://emr-jfs/your_bucket/path。
数据读写优化：为了进一步优化读写性能，可利用JindoFS的缓存特性（如果使用的是Cache模式），并根据实际工作负载调整相关参数，比如缓存大小、刷新策略等。

关键配置示例

JindoFS命名空间配置：

jfs.namespaces=emr-jfs
jfs.namespaces.emr-jfs.type=oss
jfs.namespaces.emr-jfs.oss.bucket=my-bucket-name
jfs.namespaces.emr-jfs.mode=cache # 或者使用'oss'模式，依据需求选择

MaxCompute外部表创建示例：

CREATE EXTERNAL TABLE my_odps_table (
column1 STRING,
column2 BIGINT,
...
)
PARTITIONED BY (dt STRING, hr STRING)
STORED AS PARQUET
LOCATION 'jfs://emr-jfs/my-bucket/path/to/data';

注意事项

权限与安全：确保EMR集群对OSS bucket有正确的读写权限，遵循最小权限原则配置IAM角色。
成本与性能：利用JindoFS的缓存机制可以显著减少OSS的读取费用和提高数据处理速度，但需合理配置缓存策略以平衡成本与性能。
监控与调优：实施后，持续监控JindoFS及MaxCompute作业的性能指标，适时调整配置以达到最佳效果。

综上所述，尽管没有直接的实践分享链接，但根据现有的指南和配置信息，你可以尝试按照上述步骤配置JindoFS作为中介，实现EMR与OSS之间的高效数据交互，并在MaxCompute中成功创建和使用外部表。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

分布式计算 MaxCompute 对象存储对象存储云原生大数据计算服务 MaxCompute 开源大数据平台 E-MapReduce

问答标签：

阿里云对象存储云原生大数据计算服务 MaxCompute实践云原生大数据计算服务 MaxCompute阿里云 odps对象存储云原生大数据计算服务 MaxCompute oss

问答地址：

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 问答

相关问答

大数据计算MaxCompute存的内部表，存储空间收费是按照oss系统进行收费的吗？

257

2

0

大数据计算MaxCompute从hive表将数据以orc方式写入oss,然后mc再将这些数据load

261

1

0

JindoFS服务与直接使用MaxCompute访问OSS如何选择？

262

0

0

JindoFS和MC对接OSS哪个快？

283

0

0

DataWorks上支持ADS向ODPS（或oss）同步吗？

237

1

0

大数据计算MaxCompute 创建oss外部表的时候，报这个错是权限问题吗？

240

0

0

EMR（E-MapReduce）是阿里巴巴飞天大数据平台的哪个产品，它的主要功能是什么？

438

1

0

大数据计算MaxCompute这里的输入输出表是oss外表吗？

196

1

0

大数据计算MaxCompute的udf里面oss实例该怎么创建？

185

1

0

大数据计算MaxCompute里面，可以用python控制oss吗？

171

1

0

大数据与机器学习

开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

我要提问

收录在圈子:

阿里云E-MapReduce

2323

+ 订阅

相关文章

基于YOLO11的学生课堂行为检测：从数据准备到云上训练工程实践

AI Slop 图鉴来了，TypeScript 7 快了 10 倍，MiniMax 市值蒸发近四分之三

日志存储降本首选：阿里云 Lindorm 冷热分层替代 Elasticsearch

阿里云免费中心申请指南：个人、企业免费领取教程，不只是云服务器哦

阿里云大数据 AI 产品月刊-2026年6月

相关解决方案

更多

AI 时代的分布式多模态数据处理实践

Serverless 事件驱动架构实践

挖掘及触达高价值用户

多源数据下的企业 AI 助手实践

云消息队列 RabbitMQ 实践

热门讨论

热门文章

分区删除后回收站的数据已经超过了设置的24小时，一直没有清理是什么原因？

有大佬在阿里云E-MapReduce线上用过Flink cdc CDAS 同步数据到SR的吗？

阿里云E-MapReduce我如果把roll的参数调小点，就可以切分均匀，日志有大量的这个，正常吗？

我想1159087087316311这个国内站账户适用EMR Notebook和Workflow服

阿里云E-MapReduce在 SPARK 任務在不知道 EMR master ip addres

请教下EMR的DataLake集群，如果我自己装Zeppelin和Hue，会有兼容性问题么

hdfs 文件块过多（1亿）每个datanode 占3000万块(分16G内),某时刻内存陡然增加？

入湖引擎是什么？

阿里云E-MapReduce这个授权总是过不去怎么办？

Delta Lake 表如何删除操作？

展开全部

阿里封神谈hadoop生态学习之路

分布式快照算法: Chandy-Lamport

如何使用Kafka Connect实现同步RDS binlog数据

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

JindoFS解析 - 云上大数据高性能数据湖存储方案

基于Alluxio系统的Spark DataFrame高效存储管理技术

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

JindoFS概述：云原生的大数据计算存储分离方案

5W1H(六何分析法)全景洞察大数据

玩转阿里云EMR三部曲-中级篇集成自有服务

展开全部

还有其他疑问?