Scala 解析 XML

简介: 在使用Spark时,有时候主函数入口参数过多的时候,会特别复杂,这个时候我们可以将相应的参数写在xml文件中,然后只要将xml文件的路径传进去即可,这里的xml路径可以是本地的,也可以是hdfs上的。


公众号二维码
打开微信扫一扫,关注微信公众号【数据与算法联盟】

转载请注明出处:https://yq.aliyun.com/u/thinkgamer
博主微博:http://weibo.com/234654758
Github:https://github.com/thinkgamer

在使用Spark时,有时候主函数入口参数过多的时候,会特别复杂,这个时候我们可以将相应的参数写在xml文件中,然后只要将xml文件的路径传进去即可,这里的xml路径可以是本地的,也可以是hdfs上的。

scala提供了类似于Xpath的语法来解析xml文件,其中很重要的两个操作符是""
和 "\"

  • :根据搜索条件得到下一个节点
  • \ :根据条件获取所有的节点
<configure>
    <input>
        <name>app_feature_goods</name>
        <hdfs>/user/path/to/goods</hdfs>
    </input>
    <input>
        <name>app_feature_user</name>
        <hdfs>/user/path/to/user</hdfs>
    </input>
</configure>
val input = args(0)
val xml = XML.load(input)


// 找到所有的一级节点 input
val input_list = xml\"input"
input_list.foreach(println)

// 遍历每个一级节点,得到具体的值
for(one <- input_list){
    println(one\"name")
    println((one\"name").text)
    println(one\"hdfs")
    println((one\"hdfs").text)
}

// 得到所有的name
val name_list = xml\\"name"
name_list.map(one => one.text).foreach(println)

// 获取所有hdfs
val hdfs_list = xml\\"hdfs"
hdfs_list.map(one => one.text).foreach(println)

// 获取具有class的值
println(xml\"input"\"name"\\"@class")

// 打印出具有class属性的name值和hdfs值
println((xml\\"name").filter(_.attribute("class").exists(_.text.equals("test"))).text)
println((xml\\"hdfs").filter(_.attribute("class").exists(_.text.equals("test"))).text)

打印出的信息为:

<input>
        <name>app_feature_goods</name>
        <hdfs>/user/path/to/goods</hdfs>
    </input>
<input>
        <name>app_feature_user</name>
        <hdfs>/user/path/to/user</hdfs>
    </input>
<input>
        <name class="test">app_feature_user_test</name>
        <hdfs class="test">/user/path/to/user_test</hdfs>
    </input>
-------------
<name>app_feature_goods</name>
app_feature_goods
<hdfs>/user/path/to/goods</hdfs>
/user/path/to/goods
<name>app_feature_user</name>
app_feature_user
<hdfs>/user/path/to/user</hdfs>
/user/path/to/user
<name class="test">app_feature_user_test</name>
app_feature_user_test
<hdfs class="test">/user/path/to/user_test</hdfs>
/user/path/to/user_test
-------------
app_feature_goods
app_feature_user
app_feature_user_test
-------------
/user/path/to/goods
/user/path/to/user
/user/path/to/user_test
-------------
test
-------------
app_feature_user_test
/user/path/to/user_test
-------------

Process finished with exit code 0
相关文章
|
存储 Java 文件存储
微服务——SpringBoot使用归纳——Spring Boot使用slf4j进行日志记录—— logback.xml 配置文件解析
本文解析了 `logback.xml` 配置文件的详细内容,包括日志输出格式、存储路径、控制台输出及日志级别等关键配置。通过定义 `LOG_PATTERN` 和 `FILE_PATH`,设置日志格式与存储路径;利用 `&lt;appender&gt;` 节点配置控制台和文件输出,支持日志滚动策略(如文件大小限制和保存时长);最后通过 `&lt;logger&gt;` 和 `&lt;root&gt;` 定义日志级别与输出方式。此配置适用于精细化管理日志输出,满足不同场景需求。
3017 1
|
6月前
|
XML 数据采集 API
用Lxml高效解析XML格式数据:以天气API为例
免费Python教程:实战解析中国天气网XML数据,详解Lxml库高效解析技巧、XPath用法、流式处理大文件及IP封禁应对策略,助你构建稳定数据采集系统。
363 0
|
XML JavaScript Android开发
【Android】网络技术知识总结之WebView,HttpURLConnection,OKHttp,XML的pull解析方式
本文总结了Android中几种常用的网络技术,包括WebView、HttpURLConnection、OKHttp和XML的Pull解析方式。每种技术都有其独特的特点和适用场景。理解并熟练运用这些技术,可以帮助开发者构建高效、可靠的网络应用程序。通过示例代码和详细解释,本文为开发者提供了实用的参考和指导。
504 15
|
XML Web App开发 JavaScript
XML DOM 解析器
XML DOM 解析器
|
XML Web App开发 JavaScript
XML DOM 解析器
XML DOM 解析器
|
XML Web App开发 JavaScript
XML DOM 解析器
XML DOM 解析器
|
XML Java 数据格式
手动开发-简单的Spring基于XML配置的程序--源码解析
手动开发-简单的Spring基于XML配置的程序--源码解析
341 0
|
分布式计算 大数据 Java
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
267 5
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
193 3
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
319 0

推荐镜像

更多
  • DNS
  • 下一篇
    开通oss服务