Spark学习之数据读取与保存(4)

简介: Spark学习之数据读取与保存(4)1. 文件格式Spark对很多种文件格式的读取和保存方式都很简单。如文本文件的非结构化的文件,如JSON的半结构化文件,如SequenceFile结构化文件。通过扩展名进行处理。2. 读取/保存文本文件Python中读取一个文本文件 input = sc.textfile("file:///hom

Spark学习之数据读取与保存(4)

1. 文件格式

Spark对很多种文件格式的读取和保存方式都很简单。
如文本文件的非结构化的文件,如JSON的半结构化文件,如SequenceFile结构化文件。通过扩展名进行处理。

2. 读取/保存文本文件

Python中读取一个文本文件
    input = sc.textfile("file:///home/holen/repos/spark/README.md")
    Scala中读取一个文本文件
    val input = sc.textFile("file:///home/holen/repos/spark/README.md")
    Java中读取一个文本文件
    JavaRDD<String> input = sc.textFile("file:///home/holen/repos/spark/README.md")
saveAsTextFile()方法用了保存为文本文件

3. 读取/保存JSON文件

Python中读取JSON文件
    import json
    data = input.map(lambda x: json.loads(x))

    Python中保存为JSON文件
    (data.filter(lambda x: x["lovesPandas"]).map(lambda x: json.dumps(x)))
        .saveAsTextFile(outputFile)

4. Spark SQL中的结构化数据

结构化数据指的是有结构信息的数据————也就是所有的数据记录都有具有一致字段结构的集合。
在各种情况下,我们把一条SQL查询给Spark SQL,让它对一个数据源执行查询,然后得到由Row对象组成的RDD,每个Row对象表示一条记录。
目录
相关文章
|
3月前
|
分布式计算 Kubernetes 调度
Kubeflow-Spark-Operator-架构学习指南
本指南系统解析 Spark Operator 架构,涵盖 Kubebuilder 开发、控制器设计与云原生集成。通过四阶段学习路径,助你从部署到贡献,掌握 Kubernetes Operator 核心原理与实战技能。
240 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
3 秒音频也能克隆?拆解 Spark-TTS 架构的极致小样本学习
本文深入解析了 Spark-TTS 模型的架构与原理,该模型仅需 3 秒语音样本即可实现高质量的零样本语音克隆。其核心创新在于 BiCodec 单流语音编码架构,将语音信号分解为语义 Token 和全局 Token,实现内容与音色解耦。结合大型语言模型(如 Qwen 2.5),Spark-TTS 能直接生成语义 Token 并还原波形,简化推理流程。实验表明,它不仅能克隆音色、语速和语调,还支持跨语言朗读及情感调整。尽管面临相似度提升、样本鲁棒性等挑战,但其技术突破为定制化 AI 声音提供了全新可能。
653 35
|
分布式计算 大数据 Java
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
220 5
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
170 3
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
279 0
|
分布式计算 Shell Scala
学习使用Spark
学习使用Spark
338 3
|
分布式计算 Shell Scala
如何开始学习使用Spark?
【8月更文挑战第31天】如何开始学习使用Spark?
390 2
|
分布式计算 算法 Spark
spark学习之 GraphX—预测社交圈子
spark学习之 GraphX—预测社交圈子
378 0
|
分布式计算 Scala Spark
educoder的spark算子学习
educoder的spark算子学习
226 0
|
存储 分布式计算 Java