开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

请问下 spark怎么连oss,读取oss里的csv呢?

请问下 spark怎么连oss,读取oss里的csv呢?

展开
收起
滴滴滴~ 2023-03-21 15:33:24 251 0
3 条回答
写回答
取消 提交回答
  • # 导入必要的库
    import pyspark
    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    # 创建 SparkSession
    spark = SparkSession.builder.appName("Read CSV from OSS").getOrCreate()
    
    # 设置 OSS 凭证
    spark.conf.set("fs.oss.impl", "com.aliyun.fs.oss.NativeOssFileSystem")
    spark.conf.set("fs.oss.accessKeyId", "YOUR_ACCESS_KEY_ID")
    spark.conf.set("fs.oss.accessKeySecret", "YOUR_ACCESS_KEY_SECRET")
    
    # 设置 OSS 存储桶名称和 CSV 文件路径
    bucket_name = "YOUR_BUCKET_NAME"
    csv_path = "oss://{}/path/to/csv/file.csv".format(bucket_name)
    
    # 读取 CSV 文件
    df = spark.read.csv(csv_path, header=True, inferSchema=True)
    
    # 显示数据
    df.show()
    
    2024-02-29 17:38:30
    赞同 展开评论 打赏
  • 发表文章、提出问题、分享经验、结交志同道合的朋友
    • hadoop-oss:用于连接OSS存储,需要与具体的Spark版本兼容。

    • aliyun-sdk-oss:用于连接OSS存储,需要与具体的OSS存储版本兼容。

    • spark-csv:用于读取CSV文件,需要与具体的Spark版本兼容。

    2023-03-21 17:46:16
    赞同 展开评论 打赏
  • 对DDI,可以直接免密访问。具体可以看一下oss的文档,需要添加jindoSDK依赖和配置ak和sk参数。 此答案整理自钉群“Databricks数据洞察产品交流群”

    2023-03-21 16:54:38
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载