(原创)从CLOB字段的XML中提取关系数据研究

简介: 从CLOB字段的XML中提取关系数据研究本文中用以下函数:extract、extractvalue、existsnode、xmlsequence、xmltype、Xmltable、XMLQuery,函数的具体的语法在此不作描述。

从CLOB字段的XML中提取关系数据研究
本文中用以下函数:extract、extractvalue、existsnode、xmlsequence、xmltype、Xmltable、XMLQuery,函数的具体的语法在此不作描述。
在提取数据之前先要把CLOB数据用xmltype函数据转换为XML数据。
1.XML中的数据是单表且只一行数据。
这种情况很简单且速度很快。示例如下:
SELECT
  extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/action_code') action_code,
  extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/route_id') route_id,
  extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/route_actn_code') route_actn_code,
  extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/deal_org_code') deal_org_code,
  extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/office_code') office_code  ,
  to_date(extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/deal_datetime'),'yyyy-mm-dd hh24:mi:ss') deal_datetime,
  to_date(extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/act_datetime'),'yyyy-mm-dd hh24:mi:ss') act_datetime,
  extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/post_way_code') post_way_code,
  extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/route_kind_code') route_kind_code,
  extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/bag_count') bag_count,
  extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/bag_weight_sum') bag_weight_sum,
  extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/flight_info') flight_info ,
  to_date(extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/create_time'),'yyyy-mm-dd hh24:mi:ss') create_time
FROM ( SELECT  XMLTYPE(v_msg) v_msg,d_in_time FROM run$log)
WHERE existsnode(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info') =1;

2.XML中的数据是主从表关系。
这种情况下,在抽取子表时必须用xmlsequence函数转换为nest table,否则会报ora-22905。另如果从表的数据量达到千数量级时速度很慢。
  2.1使用table()函数xmlsequence
示例如下:
SELECT
  extractvalue(VALUE(t),'/bag/end_org_code') end_org_code,
  extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/route_id') route_id,
  extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/route_actn_code') route_actn_code,
  extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/deal_org_code') deal_org_code,
  to_date(extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/deal_datetime'),'yyyy-mm-dd hh24:mi:ss') deal_datetimed,
  to_date(extractvalue(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/act_datetime'),'yyyy-mm-dd hh24:mi:ss') act_datetime,
  extractvalue(VALUE(t),'/bag/bag_action') bag_action,
  extractvalue(VALUE(t),'/bag/bag_id') bag_id,
  extractvalue(VALUE(t),'/bag/label_strip') label_strip,
  extractvalue(VALUE(t),'/bag/start_org_code') start_org_code
FROM ( SELECT  XMLTYPE(v_msg) v_msg,d_in_time FROM run$log) ,
  TABLE(xmlsequence(extract(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/bags/bag'))) t;
  2.2使用xmltable()和xmlquery()函数
这两个函数的用法不再描述,具体可查官方文档: http://download.oracle.com/docs/cd/B19306_01/appdev.102/b14259/xdb_xquery.htm
使用这两个函数时必须安装oracle xml db.这种方法比2.1快50%.示例如下:
SELECT extractvalue(v_msg,'/gpdic_xml/bag_detail_infos/bag_detail_info/bag_id') bag_id,
      xtab.mail_num ,xtab.mail_action,xtab.mail_remark_code,xtab.mail_other_remark
FROM run$log_test,
      Xmltable('for $j in /gpdic_xml/bag_detail_infos/bag_detail_info/mails/mail
                return $j'
                PASSING v_msg
                COLUMNS mail_num VARCHAR2(20) PATH '/mail/mail_num',
                        mail_action VARCHAR2(1) PATH '/mail/mail_action',
                        mail_remark_code VARCHAR2(20) PATH '/mail/mail_remark_code',
                        mail_other_remark VARCHAR2(50) PATH '/mail/mail_other_remark') xtab
WHERE existsnode(v_msg,'/gpdic_xml/bag_detail_infos/bag_detail_info') >0;
补充一下:
以上SQL中的TABLE(xmlsequence(extract(v_msg,'/gpdic_xml/route_detail_infos/route_detail_info/bags/bag'))) t的/gpdic_xml/route_detail_infos/route_detail_info/bags/bag为XML的从表路径。
目录
相关文章
|
8月前
|
XML 前端开发 数据格式
请描述如何使用`BeautifulSoup`或其他类似的库来解析 HTML 或 XML 数据。
【2月更文挑战第22天】【2月更文挑战第67篇】请描述如何使用`BeautifulSoup`或其他类似的库来解析 HTML 或 XML 数据。
83 2
|
8月前
|
XML 存储 JSON
Python学习 -- 常用数据交换格式(CSV、XML、JSON)
Python学习 -- 常用数据交换格式(CSV、XML、JSON)
105 0
|
XML 存储 JSON
Python学习 -- 常用数据交换格式(CSV、XML、JSON)
Python学习 -- 常用数据交换格式(CSV、XML、JSON)
116 0
|
4月前
|
XML 存储 JSON
Twaver-HTML5基础学习(19)数据容器(2)_数据序列化_XML、Json
本文介绍了Twaver HTML5中的数据序列化,包括XML和JSON格式的序列化与反序列化方法。文章通过示例代码展示了如何将DataBox中的数据序列化为XML和JSON字符串,以及如何从这些字符串中反序列化数据,重建DataBox中的对象。此外,还提到了用户自定义属性的序列化注册方法。
53 1
|
5月前
|
XML 数据采集 存储
使用Java和XPath在XML文档中精准定位数据
在数据驱动的时代,从复杂结构中精确提取信息至关重要。XML被广泛用于数据存储与传输,而XPath则能高效地在这些文档中导航和提取数据。本文深入探讨如何使用Java和XPath精准定位XML文档中的数据,并通过小红书的实际案例进行分析。首先介绍了XML及其挑战,接着阐述了XPath的优势。然后,提出从大型XML文档中自动提取特定产品信息的需求,并通过代理IP技术、设置Cookie和User-Agent以及多线程技术来解决实际网络环境下的数据抓取问题。最后,提供了一个Java示例代码,演示如何集成这些技术以高效地从XML源中抓取数据。
194 7
使用Java和XPath在XML文档中精准定位数据
|
8月前
|
XML 前端开发 数据格式
BeautifulSoup 是一个 Python 库,用于从 HTML 和 XML 文件中提取数据
【5月更文挑战第10天】BeautifulSoup 是 Python 的一个库,用于解析 HTML 和 XML 文件,即使在格式不规范的情况下也能有效工作。通过创建 BeautifulSoup 对象并使用方法如 find_all 和 get,可以方便地提取和查找文档中的信息。以下是一段示例代码,展示如何安装库、解析 HTML 数据以及打印段落、链接和特定类名的元素。BeautifulSoup 还支持更复杂的查询和文档修改功能。
161 1
|
3月前
|
XML Web App开发 数据格式
HTML 页面显示 XML 数据
10月更文挑战第2天
|
3月前
|
XML JSON 前端开发
C#使用HttpClient四种请求数据格式:json、表单数据、文件上传、xml格式
C#使用HttpClient四种请求数据格式:json、表单数据、文件上传、xml格式
665 0
|
5月前
|
XML JSON Java
使用IDEA+Maven搭建整合一个Struts2+Spring4+Hibernate4项目,混合使用传统Xml与@注解,返回JSP视图或JSON数据,快来给你的SSH老项目翻新一下吧
本文介绍了如何使用IntelliJ IDEA和Maven搭建一个整合了Struts2、Spring4、Hibernate4的J2EE项目,并配置了项目目录结构、web.xml、welcome.jsp以及多个JSP页面,用于刷新和学习传统的SSH框架。
144 0
使用IDEA+Maven搭建整合一个Struts2+Spring4+Hibernate4项目,混合使用传统Xml与@注解,返回JSP视图或JSON数据,快来给你的SSH老项目翻新一下吧
|
8月前
|
XML 机器学习/深度学习 JSON
在火狐浏览器调ajax获取json数据时,控制台提示“XML 解析错误:格式不佳”。
在火狐浏览器调ajax获取json数据时,控制台提示“XML 解析错误:格式不佳”。
87 0
在火狐浏览器调ajax获取json数据时,控制台提示“XML 解析错误:格式不佳”。