开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

在大数据计算MaxCompute中,云下的spark程序如何才能访问oss外表数据呢?

在大数据计算MaxCompute中,客户在云下使用spark访问odps数据,当前如果odps中的表为oss外表(使用内网)运行报错。
分析:在云下 ping不通 这个 internal 的地址,想修改为公网试试,如果不能通过公网访问,云下的spark程序如何才能访问oss外表数据呢?

展开
收起
LLLA 2024-01-23 22:35:15 69 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在云下使用Spark访问ODPS数据时,如果ODPS中的表为OSS外表(使用内网),运行报错的原因可能是无法通过内网访问到OSS。为了解决这个问题,你可以尝试以下方法:

    1. 修改OSS外表的访问方式为公网访问。在创建OSS外表时,将存储类型设置为"EXTERNAL_BUCKET_PUBLIC",这样可以通过公网访问OSS。具体操作如下:
    CREATE EXTERNAL TABLE your_table_name (column_name column_type)
    STORED AS OSS
    TBLPROPERTIES (
        'storage.oss.bucket'='your_bucket_name',
        'storage.oss.endpoint'='your_oss_endpoint',
        'storage.oss.accessKeyId'='your_access_key_id',
        'storage.oss.accessKeySecret'='your_access_key_secret',
        'storage.oss.location'='your_folder_path',
        'storage.oss.storageType'='EXTERNAL_BUCKET_PUBLIC'
    );
    
    1. 如果仍然无法通过公网访问OSS,你可以考虑在云下搭建一个VPN或专线,将云下的网络与阿里云VPC进行连接。这样,云下的Spark程序就可以通过内网访问OSS外表数据了。具体的网络配置需要根据你的实际情况和阿里云提供的文档进行操作。

    2. 如果以上方法都无法解决问题,你还可以考虑将OSS数据迁移到其他支持内网访问的存储服务,如阿里云的MaxCompute、Hadoop HDFS等。然后将这些存储服务作为数据源,供云下的Spark程序访问。

    2024-01-24 13:34:41
    赞同 展开评论 打赏
  • spark访问oss,看下这篇,有几个配置加一下:https://help.aliyun.com/zh/maxcompute/user-guide/access-oss-from-spark-on-maxcompute?spm=a2c4g.11186623.0.i61#section-3bk-kb8-lbd 此回答来自钉群“MaxCompute开发者社区1群”

    2024-01-23 22:43:19
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    OSS运维进阶实战手册 立即下载
    《OSS运维基础实战手册》 立即下载
    OSS运维基础实战手册 立即下载