python的lxml模块-阿里云开发者社区

python的lxml模块

2017-11-12 1096

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

环境：python2.7

安装lxml模块

 
        pip 
        install 
        lxml

例子：

 
        from 
        lxml 
        import 
        etree 
       
        text 
        = 
        ''' 
       
        <div>
       
        <ul> 
       
        <li class="item-0"><a href="link1.html">first item</a></li> 
       
        <li class="item-1"><a href="link2.html">second item</a></li> 
       
        <li class="item-inactive"><a href="link3.html">third item</a></li> 
       
        <li class="item-1"><a href="link4.html">fourth item</a></li> 
       
        <li class="item-0"><a href="link5.html">fifth item</a> 
       
        </ul> 
       
        </div> 
       
        '''
       
        html 
        = 
        etree.HTML(text)  
        #这是一个地址 
       
        result 
        = 
        etree.tostring(html) 
        #读出来源码，并且补全，如输出的《body》标签 
       
        print
        (result)

输出：

 
  
    
      
      
        <
        html
        > 
       
 
            
        <
        body
        > 
       
 
                
        <
        div
        >  
       
 
                   
        <
        ul
        >   
       
 
                  
        <
        li 
        class
        =
        "item-0"
        ><
        a 
        href
        =
        "link1.html"
        >first item</
        a
        ></
        li
        > 
       
 
                  
        <
        li 
        class
        =
        "item-1"
        ><
        a 
        href
        =
        "link2.html"
        >second item</
        a
        ></
        li
        > 
       
 
                  
        <
        li 
        class
        =
        "item-inactive"
        ><
        a 
        href
        =
        "link3.html"
        >third item</
        a
        ></
        li
        >          
       
 
                  
        <
        li 
        class
        =
        "item-1"
        ><
        a 
        href
        =
        "link4.html"
        >fourth item</
        a
        ></
        li
        >          
       
 
                  
        <
        li 
        class
        =
        "item-0"
        ><
        a 
        href
        =
        "link5.html"
        >fifth item</
        a
        ></
        li
        > 
       
 
                  
        </
        ul
        >  
       
 
                  
        </
        div
        >  
       
 
                
        </
        body
        > 
       
 
          
        </
        html
        > 
       
 
    

   
 

 
        #读取文件里的内容
       
        from 
        lxml 
        import 
        etree 
       
        html 
        = 
        etree.parse(
        'hello.html'
        ) 
       
        result 
        = 
        etree.tostring(html, pretty_print
        =
        True
        ) 
       
        print
        (result)

获取li标签里的东西

html = etree.parse('hello.html')

print type(html)

result = html.xpath('//li')

print result

print len(result)

print type(result)

print type(result[0]）

参考文章：http://cuiqingcai.com/2621.html

说明：此篇博客仅仅是为了自己学习lxml模块，故没好好写，下面是我微信二维码

本文转自天道酬勤VIP 51CTO博客，原文链接:http://blog.51cto.com/tdcqvip/1976612

python的lxml模块

热门文章

最新文章

相关课程

相关电子书

相关实验场景