Python基础教程(第3版)中文版 第15章 python和web(笔记)

简介: Python基础教程(第3版)中文版 第15章 python和web(笔记)

                                      第15章 python和web

1.屏幕抓取

通过程序下载网页并从中提取信息。

1.Tidy和XHTML解析

1.Tidy是什么?

Tidy是用于格式不正确且不严谨的HTML进行修复的工具。

2.获取Tidy

pip install pytidylib

3.为何使用XHTML

XHTML非常严格,便于解析

4.HTMLParser

使用HTMLParser:继承它,并重写事件处理方法。

handle_starttag(tag, attrs) 遇到开始标签时调用。attrs是一个由形如(name, value)的元组组成的序列

handle_startendtag(tag, attrs) 遇到空标签时调用。默认分别处理开始标签和结束标签

handle_endtag(tag) 遇到结束标签时调用

handle_data(data) 遇到文本数据时调用

handle_charref(ref) 遇到形如&#ref;的字符引用时调用

handle_entityref(name) 遇到形如&name;的实体引用时调用

handle_comment(data) 遇到注释时;只对注释内容调用

handle_decl(decl) 遇到形如<!...>的声明时调用

handle_pi(data) 用于处理指令

unknown_decl(data) 遇到未知声明时调用


2.Beautiful Soup

解析文本上不严谨的HTML

安装

pip install beautifulSoup4

2.使用CGI创建动态网页

CGI(通用网关接口),创建web应用的简单方式。

3.使用Web框架

4.web服务:更高级的抓取。

1.RSS和相关内容

RSS指富网站摘要(Rich Site Summary)、RDF网站摘要(RDF Site Summary)或简易信息聚合(Really Simple Syndication)。

通常RSS是一种以XML方式列出新闻的格式。

 

相关文章
|
3天前
|
设计模式 测试技术 Python
Python教程:一文了解PageObject模式
PageObject 模式通常用于 Web 应用程序的 UI 自动化测试,尤其是在使用 Selenium、Appium 、Airtest等工具进行测试时非常有效。但是,它并不局限于特定类型的应用或工具,而是一种通用的设计模式,可以用于任何需要进行 UI 自动化测试的场景。
18 5
|
3天前
|
存储 数据安全/隐私保护 计算机视觉
Python教程:一文了解从Bytes到Bits的数据转换
在Python编程中,处理数据时经常需要在字节(bytes)和位(bits)之间进行转换。这种转换在网络通信、数据加密、图像处理等领域尤为常见。本文将详细介绍如何在Python中进行字节与位之间的转换,并提供一个实用的功能:如何在指定的位位置替换位数据。
15 4
|
3天前
|
存储 Python
Python教程:深入理解Python中的命名空间和作用域
在 Python 编程中,理解命名空间(Namespace)和作用域(Scope)是至关重要的。它们决定了变量和函数的可见性和访问性,并直接影响代码的结构和行为。本文将深入探讨 Python 3 中命名空间和作用域的概念、规则以及相关的高级主题。
16 4
|
3天前
|
Python
Python教程:一文了解Python的深拷贝与浅拷贝
理解 Python 中的深拷贝(deep copy)和浅拷贝(shallow copy)是非常重要的,特别是在处理嵌套结构的数据时。让我们深入探讨这两个概念,并通过代码示例进行说明。
15 4
|
2天前
|
数据采集 存储 JSON
Python网络爬虫教程概览
【6月更文挑战第21天】Python网络爬虫教程概览:安装requests和BeautifulSoup库抓取网页;使用HTTP GET请求获取HTML,解析标题;利用CSS选择器提取数据;处理异步内容可选Selenium;遵循爬虫策略,处理异常,尊重法律与网站规定。
7 1
|
3天前
|
算法 Java Python
Python教程:深入了解Python垃圾回收机制
在Python中,垃圾回收(Garbage Collection)是一种自动管理内存的机制,它可以自动识别和清理不再使用的对象,释放它们占用的内存空间,以提高内存利用率和程序性能。
12 3
|
1天前
|
存储 JSON 数据格式
Python基础语法汇总【保姆级小白教程】
我将 Python语法分为14个章节,从第一章Python基础概念到第14章模块&异常处理,本篇文章将逐一为大家讲述.
30 0
Python基础语法汇总【保姆级小白教程】
|
3天前
|
设计模式 Python
Python教程:一文了解Python工厂模式
工厂模式是一种创建型设计模式,它用于创建对象的实例,而无需在客户端代码中指定具体的类。通过引入工厂类,客户端代码只需要与工厂接口进行交互,而不需要了解实际创建的对象的细节。这样可以将对象的创建和使用分离开来,提高了代码的灵活性和可维护性。
15 2
|
3天前
|
存储 JSON JavaScript
Python教程:一文了解Python中的json库
JSON(JavaScript Object Notation)是一种轻量级数据交换格式,易于人类阅读和编写,也易于计算机解析和生成。在Python中,JSON通常用于数据交换和存储,因为它与Python的字典和列表类型相似。
13 2
|
13小时前
|
JSON API 数据库
Python使用Quart作为web服务器的代码实现
Quart 是一个异步的 Web 框架,它使用 ASGI 接口(Asynchronous Server Gateway Interface)而不是传统的 WSGI(Web Server Gateway Interface)。这使得 Quart 特别适合用于构建需要处理大量并发连接的高性能 Web 应用程序。与 Flask 类似,Quart 也非常灵活,可以轻松地构建 RESTful API、WebSockets、HTTP/2 服务器推送等。