备案控制台

开发者社区大数据与机器学习大数据开发治理DataWorks 正文

请问下 spark怎么连oss，读取oss里的csv呢？

请问下 spark怎么连oss，读取oss里的csv呢？

展开

收起

滴滴滴~ 2023-03-21 15:33:24 453 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

哈哈是我

# 导入必要的库
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.types import *

# 创建 SparkSession
spark = SparkSession.builder.appName("Read CSV from OSS").getOrCreate()

# 设置 OSS 凭证
spark.conf.set("fs.oss.impl", "com.aliyun.fs.oss.NativeOssFileSystem")
spark.conf.set("fs.oss.accessKeyId", "YOUR_ACCESS_KEY_ID")
spark.conf.set("fs.oss.accessKeySecret", "YOUR_ACCESS_KEY_SECRET")

# 设置 OSS 存储桶名称和 CSV 文件路径
bucket_name = "YOUR_BUCKET_NAME"
csv_path = "oss://{}/path/to/csv/file.csv".format(bucket_name)

# 读取 CSV 文件
df = spark.read.csv(csv_path, header=True, inferSchema=True)

# 显示数据
df.show()

2024-02-29 17:38:30

赞同展开评论

凌云Cloud

发表文章、提出问题、分享经验、结交志同道合的朋友
- hadoop-oss：用于连接OSS存储，需要与具体的Spark版本兼容。
- aliyun-sdk-oss：用于连接OSS存储，需要与具体的OSS存储版本兼容。
- spark-csv：用于读取CSV文件，需要与具体的Spark版本兼容。
2023-03-21 17:46:16

赞同展开评论
圆葱猪肉包

对DDI，可以直接免密访问。具体可以看一下oss的文档，需要添加jindoSDK依赖和配置ak和sk参数。此答案整理自钉群“Databricks数据洞察产品交流群”

2023-03-21 16:54:38

赞同展开评论

问答分类：

分布式计算对象存储 Spark 对象存储大数据开发治理平台 DataWorks

问答标签：

apache spark OSS spark对象存储 apache spark csv 对象存储csv 对象存储spark

问答地址：

开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 问答

相关问答

spark 写入oss-hdfs任务，spark客户端一直在等待，如何解决？

179

1

0

DataWorks从oss将csv数据加载到google drive的其他选项是什么？

143

12

0

云数据仓库ADB Spark SQL访问OSS外表-（可选）步骤五：删除外表

118

1

0

如何将OSS上的CSV数据映射到数据库中并查询？

128

2

0

大数据计算MaxCompute创建外表读取oss上的csv文件，但逗号当成分割符了，怎么解决呀？

118

1

0

Maxcompute spark访问oss对象存储是否可以走ENI方式

110

1

0

DMS任务编排跨库Spark SQL节点是否支持将数据导出到OSS单个文件

70

1

0

MaxComopute如何处理spark读ossWARN oss: [Client]Unabl...

79

1

0

MaxCompute spark访问oss外部表报错Odps external table i...

161

1

0

oss spark-shell运行代码报错

2344

1

0

大数据与机器学习

大数据开发治理DataWorks

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎，为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

我要提问

收录在圈子:

DataWorks

2707

+ 订阅

相关文章

基于函数计算与对象存储：为数字资产快速构建零成本展示页

阿里云通用算力型u2i与经济型e实例性能、适用场景区别及选择参考

AI战略丨大模型应用元年，让智能真正转变为生产力

主流ChatBi产品推荐，一文看懂分析agent产品选型

阿里云万小智AI建站是什么？产品架构、优势、功能与收费标准参考

热门讨论

热门文章

阿里云磁盘大小是多少？

数据来源：com.alibaba.fastjson.JSONException: syntax er

DataWorks中假如odps 有个string字段需要容纳的内容长度超过8M了，我想接进来？

咱们这个API Path什么意思呢，是自定义的接口吗？还是统一规范的？

数据服务报429请求次数过多咋办呀

问一下各位大佬，Dataworks如何能够定义参数获取月份不包含前面的0呢？例如6月份就是6而不是0

DataWorks表管理创建表报precision and scale is not current

DataWorks set odps.service.mode = off;？

Dataphin和 Dataworks 有啥区别呢？

DataWorks中odps SQL 参数如何获取前一天的yyyymm？

展开全部

云上一指禅：大数据产品DataWorks每日问答

2万字揭秘阿里巴巴数据治理平台DataWorks建设实践

数据中台的智能进化—阿里巴巴十二年数据平台发展历程

DataWorks售前咨询

语雀+通义千问+DataWorks，让AI定期推送每周总结

基于DataWorks搭建新零售数据中台

DataWorks数据服务介绍及最佳实践 | 《一站式大数据开发治理DataWorks使用宝典》

DataWorks百问百答69：有哪些数据集成报错（数据集成报错归类）？

DataWorks Copilot：让你的数据质量覆盖率一键飞升！

DataWorks：新一代 Data+AI 数据开发与数据治理平台演进

展开全部

还有其他疑问?