用python解析html[SGMLParser]

本文涉及的产品
云解析DNS-重点域名监控,免费拨测 20万次(价值200元)
简介:

因为要用python做学校网络的认证程序,需要解析服务器传回的html,本以为会像javascript里操作DOM那样简单,结果发现并不是 这样,被搞了一下。

其实python里面有xml.dom模块,但是这次却不能用,为啥呢?因为服务器传回的html从xml角度看不是良构的,没有闭合的标签、没有 被注释掉的javascript和css,xml.dom没法处理,这个时候要用sgmllib。

sgmllib.py 包含一个重要的类: SGMLParser。SGMLParser 将 HTML 分解成有用的片段, 比如开始标记和结束标记。一旦它成功地分解出某个数据为一个有用的片段,它会根据 所发现的数据,调用一个自身内部的方法。为了使用这个分析器,您需要子类化 SGML- Parser类,并且覆盖这些方法。

SGMLParser类里面包含了很多内部方法,开始读取html后,遇到相应的数据就会调用其对应的方法,最重要的方法有三个:

  • start_tagname(self, attrs)
  • end_tagname(self)
  • handle_data(self, text)

tagname就是标签名称,比如当遇到<pre>,就会调用start_pre,遇到</pre>,就会调用 end_pre,attrs即为标签的参数,以[(attribute, value), (attribute, value), ...]的形式传回,我们要做的就是在其子类重载自己感兴趣标签对应的函数。

一个经典的例子:

  1. from  sgmllib  import SGMLParser
  2. class URLLister (SGMLParser ):
  3.      self. urls =  [ ]
  4.      def start_a ( self, attrs ):                     
  5.         href =  [for k, v  in attrs  if k== 'href' ] 
  6.          if href:
  7.              self. urls. extend (href )

顾名思义,这个类的作用就是把html中的所有连接(<a>标签)中的地址(href属性的值)提取出来,放到一个list里面,很实 用的功能。^^

比如处理下面的html:

<tr>
<td height="207" colspan="2" align="left" valign="top" class="normal">
<p>Damien Rice - 《0》  </p>
<a href="http://galeki.xy568.net/music/Delicate.mp3">1. Delicate </a> <br />
<a href="http://galeki.xy568.net/music/Volcano.mp3">2. Volcano </a> <br />
<a href="http://galeki.xy568.net/music/The Blower's Daughter.mp3">3. The Blower's Daughter </a> <br />
<a href="http://galeki.xy568.net/music/Cannonball.mp3">4. Cannonball  </a> <br />
<a href="http://galeki.xy568.net/music/Older Chests.mp3">5. Order Chests </a> <br />
<a href="http://galeki.xy568.net/music/Amie.mp3">6. Amie </a> <br />
<a href="http://galeki.xy568.net/music/Cheers Darlin'.mp3">7. Cheers Darling </a> <br />
<a href="http://galeki.xy568.net/music/Cold Water.mp3">8. Cold water </a> <br />
<a href="http://galeki.xy568.net/music/I Remember.mp3">9. I remember </a> <br />
<a href="http://galeki.xy568.net/music/Eskimo.mp3">10. Eskimo </a> </p>
</td>
</tr>

很乱对吧?下面让举个例子利用URLLister提取出上面mp3下载的地址:

  1. date= "上面那一堆…………"
  2. lister=URLLister ( )
  3. lister. feed (date )

用feed()把要处理的html传递给对象实体,然后我们来看看处理结果:

  1. print lister. urls 

显示:

[ 'http://galeki.xy568.net/music/Delicate.mp3'
'http://galeki.xy568.net/music/Volcano.mp3',
"http://galeki.xy568.net/music/The Blower's Daughter.mp3",
'http://galeki.xy568.net/music/Cannonball.mp3'
'http://galeki.xy568.net/music/Older Chests.mp3'
'http://galeki.xy568.net/music/Amie.mp3'
"http://galeki.xy568.net/music/Cheers Darlin'.mp3",
'http://galeki.xy568.net/music/Cold Water.mp3'
'http://galeki.xy568.net/music/I Remember.mp3'
'http://galeki.xy568.net/music/Eskimo.mp3' ]

好了,是不是很方便?现在我们知道了如何处理标签中的属性,那么如何处理标签包含的文字呢?就是上面列出的handle_data(self, text),当遇到标签内的内容,就会调用这个函数,传入的text自然就是标签内的内容了,不过,如何筛选出感兴趣标签内的内容呢?比如上面歌曲的列 表,这时候就要配合start_tagname、end_tagname,用做标记的方法来达到这个目的:

  1. class ListName (SGMLParser ):
  2.     is_a= ""
  3.     name= [ ]
  4.      def start_a ( self, attrs ):
  5.          self. is_a= 1
  6.      def end_a ( self ):
  7.          self. is_a= ""
  8.      def handle_data ( self, text ):
  9.          if  self. is_a:
  10.                  self. name. append (text )

这里添加了一个is_a标记,再在handle_date中添加一个if,也就是说,仅仅在a标签内,才会把标签里的内容加到name[]里去。

看看结果:

  1. listname=ListName ( )
  2. listname. feed (date )
  3. print listname. name

显示:

[ '1.Delicate''2.Volcano'"3.The Blower's Daughter",
  '4.Cannonball ''5.Order Chests''6.Amie'
  '7.Cheers Darling''8.Cold water''9.I remember'
  '10.Eskimo' ]

OK,搞定~

SGMLParser内置的方法不仅仅只有这三个,还有处理注释的handle_comment,还有处理声明的handle_decl等等等等, 不过使用方法和上面的基本相同,不再多写了。




















本文转sinojelly51CTO博客,原文链接:http://blog.51cto.com/pnig0s1992/412049,如需转载请自行联系原作者

相关文章
|
2月前
|
XML JSON 数据处理
超越JSON:Python结构化数据处理模块全解析
本文深入解析Python中12个核心数据处理模块,涵盖csv、pandas、pickle、shelve、struct、configparser、xml、numpy、array、sqlite3和msgpack,覆盖表格处理、序列化、配置管理、科学计算等六大场景,结合真实案例与决策树,助你高效应对各类数据挑战。(238字)
182 0
|
2月前
|
数据采集 存储 JavaScript
解析Python爬虫中的Cookies和Session管理
Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储,用于标识用户;Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。
|
3月前
|
XML 前端开发 C#
C#编程实践:解析HTML文档并执行元素匹配
通过上述步骤,可以在C#中有效地解析HTML文档并执行元素匹配。HtmlAgilityPack提供了一个强大而灵活的工具集,可以处理各种HTML解析任务。
201 19
|
3月前
|
JSON 缓存 开发者
淘宝商品详情接口(item_get)企业级全解析:参数配置、签名机制与 Python 代码实战
本文详解淘宝开放平台taobao.item_get接口对接全流程,涵盖参数配置、MD5签名生成、Python企业级代码实现及高频问题排查,提供可落地的实战方案,助你高效稳定获取商品数据。
|
3月前
|
存储 大数据 Unix
Python生成器 vs 迭代器:从内存到代码的深度解析
在Python中,处理大数据或无限序列时,迭代器与生成器可避免内存溢出。迭代器通过`__iter__`和`__next__`手动实现,控制灵活;生成器用`yield`自动实现,代码简洁、内存高效。生成器适合大文件读取、惰性计算等场景,是性能优化的关键工具。
243 2
|
3月前
|
机器学习/深度学习 文字识别 Java
Python实现PDF图片OCR识别:从原理到实战的全流程解析
本文详解2025年Python实现扫描PDF文本提取的四大OCR方案(Tesseract、EasyOCR、PaddleOCR、OCRmyPDF),涵盖环境配置、图像预处理、核心识别与性能优化,结合财务票据、古籍数字化等实战场景,助力高效构建自动化文档处理系统。
724 0
|
3月前
|
机器学习/深度学习 JSON Java
Java调用Python的5种实用方案:从简单到进阶的全场景解析
在机器学习与大数据融合背景下,Java与Python协同开发成为企业常见需求。本文通过真实案例解析5种主流调用方案,涵盖脚本调用到微服务架构,助力开发者根据业务场景选择最优方案,提升开发效率与系统性能。
776 0
机器学习/深度学习 算法 自动驾驶
546 0
|
3月前
|
算法 安全 数据安全/隐私保护
Python随机数函数全解析:5个核心工具的实战指南
Python的random模块不仅包含基础的随机数生成函数,还提供了如randint()、choice()、shuffle()和sample()等实用工具,适用于游戏开发、密码学、统计模拟等多个领域。本文深入解析这些函数的用法、底层原理及最佳实践,帮助开发者高效利用随机数,提升代码质量与安全性。
655 0
|
3月前
|
数据可视化 Linux iOS开发
Python脚本转EXE文件实战指南:从原理到操作全解析
本教程详解如何将Python脚本打包为EXE文件,涵盖PyInstaller、auto-py-to-exe和cx_Freeze三种工具,包含实战案例与常见问题解决方案,助你轻松发布独立运行的Python程序。
1029 2

推荐镜像

更多