Beautiful Soup 是一个用于从网页中提取数据的 Python 库。它可以帮助用户轻松地解析 HTML 和 XML 文档,并从中提取所需的信息。Beautiful Soup 基于 Python 的标准库,因此无需安装任何额外的依赖包即可使用。
Beautiful Soup 的使用方法:
- 导入库:在 Python 代码中,使用 import bs4 导入 Beautiful Soup 库。
- 解析 HTML/XML 文档:使用 BeautifulSoup(html_content, 'html.parser') 函数将 HTML/XML 文档解析为 Beautiful Soup 对象。其中,html_content 是要解析的文档内容,'html.parser' 是指定解析器的名称。
- 提取数据:使用 Beautiful Soup 对象的方法(如 find()、find_all() 等)来查找和提取所需的标签和属性。
下面是一个简单的 Beautiful Soup 使用示例:
from bs4 import BeautifulSoup
import requests
获取网页内容
url = 'https://www.example.com'
response = requests.get(url)
html_content = response.text
解析 HTML 文档
soup = BeautifulSoup(html_content, 'html.parser')
提取标题标签
title = soup.find('title')
print(title.text)
提取所有链接
links = soup.find_all('a')
for link in links:
print(link['href'])
CopyCopy
推荐学习资料和项目:
- 《Beautiful Soup 4 教程》:https: //www.runoob.com/python/python-beautifulsoup.html,这是一个详细的 Beautiful Soup 4 教程,涵盖了基本概念和使用方法。
- 《Beautiful Soup 4 官方文档》:https: //www.crummy.com/software/BeautifulSoup/bs4/doc/,这是 Beautiful Soup 4 的官方文档,提供了详细的 API 文档和示例。
- 《Python Web 开发:测试驱动的方法》:https: //www.coursera.org/learn/python-web-development ,这是一个 Coursera 上的 Python Web 开发课程,其中包括了 Beautiful Soup 的使用方法。
- 项目:使用 Beautiful Soup 解析和提取豆瓣电影 Top 250 列表:https: //github.com/tangbc/douban_top250,这是一个使用 Beautiful Soup 解析和提取豆瓣电影 Top 250 列表的项目,可以帮助你实践和巩固所学知识。