备案控制台

开发者社区问答正文

如何用Spark中的逗号替换空格（使用Scala）？

我有这样的日志文件。我想在Scala中创建一个DataFrame。

2015-05-13T23:39:43.945958Z my-loadbalancer 192.168.131.39:2817 10.0.0.1:80 0.000086 0.001048 0.001337 200 200 0 57 "GET https://www.example.com:443/ HTTP/1.1" "curl/7.38.0" DHE-RSA-AES128-SHA TLSv1.2
我想用逗号替换所有空格，以便我可以使用spark.sql，但我无法这样做。

这是我的尝试：
首先将其导入为文本文件，以查看是否存在replaceAll方法。
在空间的基础上分裂。

展开

收起

社区小助手 2018-12-06 11:56:58 5019 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

由于你还没有类型列，我将以RDD开头，使用地图拆分文本，然后转换为带有架构的Dataframe。大致：

val rdd = sc.textFile({logline path}).map(line=>line.split("\s+"))
然后，你需要将RDD（每个记录是一个令牌数组）转换为Dataframe。最好的方法是将数组映射到Row对象，因为RDD [Row]是数据帧的基础。

一个更简单的方式就是

spark.createDataFrame(rdd).toDF("datetime", "host", "ip", ...)

2019-07-17 23:18:30

赞同展开评论

问答分类：

分布式计算 Scala Spark 日志服务负载均衡

问答标签：

apache spark Scala Scala Spark

问答地址：

开发者社区 > 大数据 > 问答

相关问答

spark.aliyun.odps.datasource 有没有基于scala 2.12构建的版本？

216

4

0

用Scala写Spark这种工具比用Java写有什么优点啊？

860

1

0

使用Spark读写OSS文件示例代码（以Scala为例）是什么？

1271

1

0

spark2.0弃用akka怎么理解呢，scala不是使用了akka吗

458

1

0

scala- Yarn 上的 spark-无法分配容器，提示请求的资源大于允许怎么解决

1227

0

0

Monitoring the Dynamic Resource Usage of Scala and Python Spark Jobs in Yarn

1167

1

0

Just Enough Scala for Spark

973

0

0

spark scala用map和过滤器阅读文本文件

3582

1

0

spark任务想完整的部署，发布，执行调度，仅仅maxcompute组件权限够么，还需要datawo

907

1

0

Spark 读取Maxcompute 中的表进行处理，怎么弄？

926

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

钉钉:因安全管控限制,16位参与人无法直接添加到日程

如何训练属于自己的AI大模型呢？有没有大佬有相关文档参考学习下

当Supabase遇上RDS——如何高效构建轻量级应用？

万小智官网链接在哪？

阿里云服务器4核8G配置多少钱？一年、1个月或1小时收费明细

相关文章

技术的金字塔：我们如何对现代技术进行分类？

阿里云DLF 3.0：面向AI时代的智能全模态湖仓管理平台

Cisco Jabber 15.1 (Andriod, iOS, macOS, Windows) - 面向企业的多合一通信工具

阿里云渠道商：支持阿里云 ECS 的操作系统有哪些？

阿里云渠道商：如何快速使用阿里云ECS？

还有其他疑问?