第15章 python和web
1.屏幕抓取
通过程序下载网页并从中提取信息。
1.Tidy和XHTML解析
1.Tidy是什么?
Tidy是用于格式不正确且不严谨的HTML进行修复的工具。
2.获取Tidy
pip install pytidylib
3.为何使用XHTML
XHTML非常严格,便于解析
4.HTMLParser
使用HTMLParser:继承它,并重写事件处理方法。
handle_starttag(tag, attrs) 遇到开始标签时调用。attrs是一个由形如(name, value)的元组组成的序列
handle_startendtag(tag, attrs) 遇到空标签时调用。默认分别处理开始标签和结束标签
handle_endtag(tag) 遇到结束标签时调用
handle_data(data) 遇到文本数据时调用
handle_charref(ref) 遇到形如&#ref;的字符引用时调用
handle_entityref(name) 遇到形如&name;的实体引用时调用
handle_comment(data) 遇到注释时;只对注释内容调用
handle_decl(decl) 遇到形如<!...>的声明时调用
handle_pi(data) 用于处理指令
unknown_decl(data) 遇到未知声明时调用
2.Beautiful Soup
解析文本上不严谨的HTML
安装
pip install beautifulSoup4
2.使用CGI创建动态网页
CGI(通用网关接口),创建web应用的简单方式。
3.使用Web框架
4.web服务:更高级的抓取。
1.RSS和相关内容
RSS指富网站摘要(Rich Site Summary)、RDF网站摘要(RDF Site Summary)或简易信息聚合(Really Simple Syndication)。
通常RSS是一种以XML方式列出新闻的格式。