文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

在大数据计算MaxCompute中，云下的spark程序如何才能访问oss外表数据呢？

在大数据计算MaxCompute中，客户在云下使用spark访问odps数据，当前如果odps中的表为oss外表（使用内网）运行报错。
分析：在云下 ping不通这个 internal 的地址，想修改为公网试试，如果不能通过公网访问，云下的spark程序如何才能访问oss外表数据呢？

展开

收起

LLLA 2024-01-23 22:35:15 301 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在云下使用Spark访问ODPS数据时，如果ODPS中的表为OSS外表（使用内网），运行报错的原因可能是无法通过内网访问到OSS。为了解决这个问题，你可以尝试以下方法：
1. 修改OSS外表的访问方式为公网访问。在创建OSS外表时，将存储类型设置为"EXTERNAL_BUCKET_PUBLIC"，这样可以通过公网访问OSS。具体操作如下：
```
CREATE EXTERNAL TABLE your_table_name (column_name column_type)
STORED AS OSS
TBLPROPERTIES (
    'storage.oss.bucket'='your_bucket_name',
    'storage.oss.endpoint'='your_oss_endpoint',
    'storage.oss.accessKeyId'='your_access_key_id',
    'storage.oss.accessKeySecret'='your_access_key_secret',
    'storage.oss.location'='your_folder_path',
    'storage.oss.storageType'='EXTERNAL_BUCKET_PUBLIC'
);
```
1. 如果仍然无法通过公网访问OSS，你可以考虑在云下搭建一个VPN或专线，将云下的网络与阿里云VPC进行连接。这样，云下的Spark程序就可以通过内网访问OSS外表数据了。具体的网络配置需要根据你的实际情况和阿里云提供的文档进行操作。
2. 如果以上方法都无法解决问题，你还可以考虑将OSS数据迁移到其他支持内网访问的存储服务，如阿里云的MaxCompute、Hadoop HDFS等。然后将这些存储服务作为数据源，供云下的Spark程序访问。
2024-01-24 13:34:41

赞同展开评论
AAAOY

spark访问oss，看下这篇，有几个配置加一下：https://help.aliyun.com/zh/maxcompute/user-guide/access-oss-from-spark-on-maxcompute?spm=a2c4g.11186623.0.i61#section-3bk-kb8-lbd 此回答来自钉群“MaxCompute开发者社区1群”

2024-01-23 22:43:19

赞同展开评论

问答分类：

分布式计算 Spark 对象存储 MaxCompute 大数据云原生大数据计算服务 MaxCompute 对象存储

问答标签：

云原生大数据计算服务 MaxCompute数据 apache spark程序对象存储数据云原生大数据计算服务 MaxCompute MaxCompute 访问对象存储

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

访问MaxCompute如何处理NoSuchObject报错

236

1

0

Dataworks 里的 ODPS spark 节点访问不到 maxcompute 里的表

230

1

0

JindoFS服务与直接使用MaxCompute访问OSS如何选择？

270

0

0

大数据计算MaxCompute的odps能访问第三方的接口么？

182

1

0

大数据计算MaxCompute的odps上写MR，是支持配置化访问oss的吗？

224

1

0

大数据计算MaxCompute这个链接一直访问不 loading，怎么回事？

179

1

0

Maxcompute spark访问oss对象存储是否可以走ENI方式

184

1

0

DataWorks访问MaxCompute开发环境和生产环境的项目

248

1

0

大数据计算MaxCompute能限制IP调用访问吗？

188

1

0

在maxcompute中以外表形式访问Hologres计算资源是消耗的Hologres的还是mc的？

253

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

相关文章

OSS文件自动归档+生命周期管理：RPA替代手动运维脚本的实战方案

阿里云服务器实例选择指南：经济型、通用型、计算型、内存型性能解析与场景解析

年薪$60万赶超ML研究员？拆解Palantir“FDE+Echo”双引擎如何跨越AI落地死亡谷

企业远程运维方案选型：从第三方远控到云原生架构的演进思考

基于YOLO11的道路积水视觉检测：从数据集构建到云上训练实践

相关解决方案

更多

多模态数据信息提取

高效存储和处理多媒体数据

基于 Spark 和 PyTorch 的模型训练方案

应用日志数据归档

多源数据下的企业 AI 助手实践

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

MaxCompute中下面图片是什么意思？

大数据计算MaxCompute用kettle的转换功能去进行odps的同步数据可行吗？

请问下大数据计算MaxCompute dataworks是否有全局变量？

大数据计算MaxCompute该字段类型从tinyint改为Int,怎么修改?

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

关于MaxCompute 中的CU为什么设置CPU和内存的比例是1:4

在大数据计算MaxCompute中，这种多久能查询到？

今天用实时同步同步了 RDS 数据到 MaxCompute，任务运维上显示成功，看日志也没有问

大数据计算MaxCompute新开一个窗口，粘贴代码过2秒以后，就看到报错：接口异常，请稍后再试？

展开全部

odps是什么?

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

大数据阿里云产品的简单介绍理解

高可用大数据计算服务如何持续发布和演进

阿里云大数据计算平台的自动化、精细化运维之路

【转载文章】记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案

阿里云工程师用机器学习破解雾霾成因

阿里云 MaxCompute 2019-12 月刊

基于OGG Datahub插件将Oracle数据同步上云

MaxCompute Studio使用心得系列6——一个工具完成整个Python UDF开发

展开全部

还有其他疑问?