# 导入必要的库
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.types import *
# 创建 SparkSession
spark = SparkSession.builder.appName("Read CSV from OSS").getOrCreate()
# 设置 OSS 凭证
spark.conf.set("fs.oss.impl", "com.aliyun.fs.oss.NativeOssFileSystem")
spark.conf.set("fs.oss.accessKeyId", "YOUR_ACCESS_KEY_ID")
spark.conf.set("fs.oss.accessKeySecret", "YOUR_ACCESS_KEY_SECRET")
# 设置 OSS 存储桶名称和 CSV 文件路径
bucket_name = "YOUR_BUCKET_NAME"
csv_path = "oss://{}/path/to/csv/file.csv".format(bucket_name)
# 读取 CSV 文件
df = spark.read.csv(csv_path, header=True, inferSchema=True)
# 显示数据
df.show()
hadoop-oss:用于连接OSS存储,需要与具体的Spark版本兼容。
aliyun-sdk-oss:用于连接OSS存储,需要与具体的OSS存储版本兼容。
spark-csv:用于读取CSV文件,需要与具体的Spark版本兼容。
对DDI,可以直接免密访问。具体可以看一下oss的文档,需要添加jindoSDK依赖和配置ak和sk参数。 此答案整理自钉群“Databricks数据洞察产品交流群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。