以下是一个Python网络爬虫示例,使用BeautifulSoup库来爬取百度搜索结果页面的标题、链接和描述信息:
import requests
from bs4 import BeautifulSoup
url = 'https://www.baidu.com/s?wd=%E6%96%B0%E9%97%BB%E6%8E%92'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
# 解析搜索结果页面中的数据
results = soup.find_all('div', {'class': 'result-op'})
for result in results:
title = result.find('h3', {'class': 't'}).text
link = result.find('a')['href']
desc = result.find('div', {'class': 'c-abstract'}).text
print('标题:', title)
print('链接:', link)
print('描述:', desc)
print('---------------------------------------')
以上代码首先使用requests库获取百度搜索结果页面的HTML代码,然后使用BeautifulSoup库对HTML代码进行解析。可以使用soup.find_all('div', {'class': 'result-op'})来获取搜索结果页面中所有的结果信息,并使用循环遍历每一个结果。可以使用result.find('h3', {'class': 't'}).text来获取结果的标题信息,使用result.find('a')['href']来获取结果的链接信息,使用result.find('div', {'class': 'c-abstract'}).text来获取结果的描述信息。