Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略

简介: Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略

Beautiful Soup 4.2.0的简介


   Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。




Beautiful Soup 4.2.0的安装


如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装:

$ apt-get install Python-bs4

Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过 easy_install 或 pip 来安装.包的名字是 beautifulsoup4 ,这个包兼容Python2和Python3.

$ easy_install beautifulsoup4

$ pip install beautifulsoup4


Beautiful Soup 4.2.0的使用方法


1、将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

首先,文档被转换成Unicode,并且HTML的实例都被转换成Unicode编码

BeautifulSoup("Sacr&eacute; bleu!")

<html><head></head><body>Sacré bleu!</body></html>


然后,Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档.(参考 解析成XML ).




2、BeautifulSoup包 功能比正则表达式很多,且要简洁明白一些。

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可  以归纳为4种: Tag、NavigableString、BeautifulSoup、Comment  。    

Tag:  即我们在写网页时所使用的标签(如<a>超链接标签)    

NavigableString:简单的说就是一种可以遍历的字符串


Beautiful Soup 4.2.0的简介


   Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。



Beautiful Soup 4.2.0的安装


如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装:

$ apt-get install Python-bs4

Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过 easy_install 或 pip 来安装.包的名字是 beautifulsoup4 ,这个包兼容Python2和Python3.

$ easy_install beautifulsoup4

$ pip install beautifulsoup4



Beautiful Soup 4.2.0的使用方法


1、将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

首先,文档被转换成Unicode,并且HTML的实例都被转换成Unicode编码

BeautifulSoup("Sacr&eacute; bleu!")

<html><head></head><body>Sacré bleu!</body></html>


然后,Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档.(参考 解析成XML ).


image.png


2、BeautifulSoup包 功能比正则表达式很多,且要简洁明白一些。

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可  以归纳为4种: Tag、NavigableString、BeautifulSoup、Comment  。    

Tag:  即我们在写网页时所使用的标签(如<a>超链接标签)    

NavigableString:简单的说就是一种可以遍历的字符串



Beautiful Soup库对比lxml库


    这两个库主要是解析html/xml文档,BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、  Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。

     Beautiful Sou和Lxml是两个非常流行的python模块,他们常被用来对抓取到的网页进行解析,以便进一步抓取的进行。


    这两个库主要是解析html/xml文档,BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、  Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。

     Beautiful Sou和Lxml是两个非常流行的python模块,他们常被用来对抓取到的网页进行解析,以便进一步抓取的进行。


相关文章
|
SQL 存储 数据挖掘
Pandas 秘籍:1~5
Pandas 秘籍:1~5
450 0
|
Python
将NC栅格表示时间维度的数据提取出来的方法
【10月更文挑战第20天】本文介绍了如何使用 Python 和 R 语言以及 ArcGIS 软件提取 netCDF 文件中的时间维度数据。首先,通过安装和导入必要的库(如 Python 的 `netCDF4` 和 `numpy`,R 的 `ncdf4`),打开 netCDF 文件并读取时间变量。接着,详细展示了 Python 和 R 的示例代码,说明了如何读取和处理时间数据。最后,介绍了在 ArcGIS 中添加 netCDF 文件、启用时间属性并提取时间维度数据的方法。
601 1
|
存储 缓存 监控
性能利器Caffeine缓存全面指南
通过以上指南,您应该能够有效利用Caffeine缓存来优化您的Java应用程序。Caffeine的强大功能和灵活性,使它成为提升应用性能的理想选择。
819 4
|
存储 算法 安全
|
NoSQL Redis
RedisTemplate.opsForSet()用法简介并举例
RedisTemplate.opsForSet()用法简介并举例
1301 2
|
NoSQL 算法 Java
高频面试题实现分布式锁中,zookeeper和Redis哪种更好?
一位6年工作经验的小伙伴,在某厂面试时被问到“实现分布式锁,Zookeeper 和 Redis 哪种更好?“,这其实是一个开放性的问题。并没有标准答案。那今天呢,我给大家分享一下我的理解,希望能够帮助到大家。
477 0
高频面试题实现分布式锁中,zookeeper和Redis哪种更好?
|
数据库 Windows
【解决方案汇总】学校正版软件管理与服务平台office更新失败错误码0x80080005 + 错误码0XC004F074、0XC004F035、0XC004C003、0XC004F017+反复提示激活
【解决方案汇总】学校正版软件管理与服务平台office更新失败错误码0x80080005 + 错误码0XC004F074、0XC004F035、0XC004C003、0XC004F017+反复提示激活
1088 0
|
JSON 数据可视化 API
DRF--渲染器Renderers
DRF--渲染器Renderers
|
设计模式 Java Nacos
Spring ApplicationContext的事件机制是什么?在Nacos中如何应用?
Spring ApplicationContext的事件机制是什么?在Nacos中如何应用?
309 0
Spring ApplicationContext的事件机制是什么?在Nacos中如何应用?