Python基础教程(第3版)中文版 第15章 python和web(笔记)

简介: Python基础教程(第3版)中文版 第15章 python和web(笔记)

                                      第15章 python和web

1.屏幕抓取

通过程序下载网页并从中提取信息。

1.Tidy和XHTML解析

1.Tidy是什么?

Tidy是用于格式不正确且不严谨的HTML进行修复的工具。

2.获取Tidy

pip install pytidylib

3.为何使用XHTML

XHTML非常严格,便于解析

4.HTMLParser

使用HTMLParser:继承它,并重写事件处理方法。

handle_starttag(tag, attrs) 遇到开始标签时调用。attrs是一个由形如(name, value)的元组组成的序列

handle_startendtag(tag, attrs) 遇到空标签时调用。默认分别处理开始标签和结束标签

handle_endtag(tag) 遇到结束标签时调用

handle_data(data) 遇到文本数据时调用

handle_charref(ref) 遇到形如&#ref;的字符引用时调用

handle_entityref(name) 遇到形如&name;的实体引用时调用

handle_comment(data) 遇到注释时;只对注释内容调用

handle_decl(decl) 遇到形如<!...>的声明时调用

handle_pi(data) 用于处理指令

unknown_decl(data) 遇到未知声明时调用


2.Beautiful Soup

解析文本上不严谨的HTML

安装

pip install beautifulSoup4

2.使用CGI创建动态网页

CGI(通用网关接口),创建web应用的简单方式。

3.使用Web框架

4.web服务:更高级的抓取。

1.RSS和相关内容

RSS指富网站摘要(Rich Site Summary)、RDF网站摘要(RDF Site Summary)或简易信息聚合(Really Simple Syndication)。

通常RSS是一种以XML方式列出新闻的格式。

 

相关文章
|
1月前
|
安全 测试技术 网络安全
如何在Python Web开发中进行安全测试?
如何在Python Web开发中进行安全测试?
|
1月前
|
安全 关系型数据库 测试技术
学习Python Web开发的安全测试需要具备哪些知识?
学习Python Web开发的安全测试需要具备哪些知识?
34 4
|
1月前
|
存储 监控 安全
如何在Python Web开发中确保应用的安全性?
如何在Python Web开发中确保应用的安全性?
|
12天前
|
数据可视化 DataX Python
Seaborn 教程-绘图函数
Seaborn 教程-绘图函数
40 8
|
12天前
Seaborn 教程-主题(Theme)
Seaborn 教程-主题(Theme)
32 7
|
12天前
|
Python
Seaborn 教程-模板(Context)
Seaborn 教程-模板(Context)
36 4
|
12天前
|
数据可视化 Python
Seaborn 教程
Seaborn 教程
31 5
|
1月前
|
开发者 Docker Python
从零开始:使用Docker容器化你的Python Web应用
从零开始:使用Docker容器化你的Python Web应用
39 1
|
1月前
|
JSON 前端开发 API
使用Python和Flask构建简易Web API
使用Python和Flask构建简易Web API
|
1月前
|
监控 安全 测试技术
如何在实际项目中应用Python Web开发的安全测试知识?
如何在实际项目中应用Python Web开发的安全测试知识?
32 4