简单的Python爬虫案例
首先,我们需要明确爬虫的目标网站和需要爬取的数据。在这个例子中,我们将使用Python的requests库来获取网页内容,然后使用BeautifulSoup库来解析HTML并提取所需的数据。
- 导入所需库:
import requests
from bs4 import BeautifulSoup
- 定义一个函数来获取网页内容:
def get_html(url):
try:
response = requests.get(url)
response.raise_for_status()
response.encoding = response.apparent_encoding
return response.text
except Exception as e:
print("获取网页内容失败:", e)
return None
- 定义一个函数来解析HTML并提取所需数据:
def parse_html(html):
soup = BeautifulSoup(html, 'html.parser')
# 在这里根据实际需求提取所需数据,例如提取所有的标题
titles = soup.find_all('h1')
for title in titles:
print(title.text)
- 主函数:
def main():
url = "https://www.example.com" # 替换为目标网站的URL
html = get_html(url)
if html:
parse_html(html)
else:
print("无法获取网页内容")
if __name__ == '__main__':
main()
这个简单的爬虫案例将访问目标网站,获取其HTML内容,然后解析HTML并提取所有的标题。请注意,这个案例仅用于演示目的,实际应用中可能需要根据目标网站的结构和需求进行相应的调整。