python爬虫项目实战,爬取用户的信息,让你更好的筛选

简介: 1.导入模块import urllib.request from bs4 import BeautifulSoup2.添加头文件,防止爬取过程被拒绝链接def qiuShi(url,page): ################### 模拟成高仿度浏览器的行为 #############...

1.导入模块

import urllib.request
 from bs4 import BeautifulSoup

2.添加头文件,防止爬取过程被拒绝链接

def qiuShi(url,page):
 ################### 模拟成高仿度浏览器的行为 ##############
 # 设置多个头文件参数,模拟成高仿度浏览器去爬取网页
 heads ={
 'Connection':'keep-alive',
 'Accept-Language':'zh-CN,zh;q=0.9',
 'Accept':'text/html,application/xhtml+xml,application/xml;
 q=0.9,image/webp,image/apng,*/*;q=0.8',
 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 
 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
 }
 headall = []
 for key,value in heads.items():
 items = (key,value)
 # 将多个头文件参数一个一个添加到headall列表中
 headall.append(items)
 # print(headall)
 # print('测试1--')
 
 # 创建opener对象
 opener = urllib.request.build_opener()
 # 添加头文件到opener对象
 opener.addheaders = headall
 # 将opener对象设置成全局模式
 urllib.request.install_opener(opener)
 # 爬取网页并读取数据到data
 data = opener.open(url).read().decode()
 # data1 = urllib.request.urlopen(url).read().decode('utf-8')
 # print(data1)
 # print('测试2--')
 ################## end ########################################

3.创建soup解析器对象

soup = BeautifulSoup(data,'lxml')
 x = 0
4.开始使用BeautifulSoup4解析器提取用户名信息
############### 获取用户名 ########################
 name = []
 # 使用bs4解析器提取用户名
 unames = soup.find_all('h2')
 # print('测试3--',unames)
 for uname in unames:
 # print(uname.get_text(),'第',page,'-',str(x)+'用户名:',end='')
 # 将用户名一个一个添加到name列表中
 name.append(uname.get_text())
 # print(name)
 # print('测试4--')
 #################end#############################

5.提取发表的内容信息
发表的内容

cont = []
data4 = soup.find_all('div',class_='content')
# print(data4)
# 记住二次筛选一点要转换成字符串形式,否则报错
data4 = str(data4)
# 使用bs4解析器提取内容
soup3 = BeautifulSoup(data4,'lxml')
contents = soup3.find_all('span')
for content in contents:
# print('第',x,'篇糗事的内容:',content.get_text())
# 将内容一个一个添加到cont列表中
cont.append(content.get_text())
# print(cont)
# print('测试5--')
##############end####################################

**6.提取搞笑指数**
 #################搞笑指数##########################
 happy = []
 # 获取搞笑指数
 # 第一次筛选
 data2 = soup.find_all('span',class_="stats-vote")
 # 获取搞笑指数
 # 第二次筛选
 data2 = str(data2) # 将列表转换成字符串形式才可以使用
 # print(data2)
 # print('测试6--')
 soup1 = BeautifulSoup(data2,'lxml')
 happynumbers = soup1.find_all('i',class_="number")
 for happynumber in happynumbers:
 # print(happynumber.get_text())
 # 将将搞笑数一个一个添加到happy列表中
 happy.append(happynumber.get_text())
 # print(happy)
 # print('测试7--')
 ##################end#############################

如果你跟我一样都喜欢python,想成为一名优秀的程序员,也在学习python的道路上奔跑,欢迎你加入python学习群:python群号:491308659 验证码:南烛
群内每天都会分享最新业内资料,分享python免费课程,共同交流学习,让学习变(编)成(程)一种习惯!

7.提取评论数

############## 评论数 ############################
 comm = []
 data3 = soup.find_all('a',class_='qiushi_comments')
 data3 = str(data3)
 # print(data3)
 soup2 = BeautifulSoup(data3,'lxml')
 comments = soup2.find_all('i',class_="number")
 for comment in comments:
 # print(comment.get_text())
 # 将评论数一个一个添加到comm列表中
 comm.append(comment.get_text())
 ############end#####################################

8.使用正则表达式提取性别和年龄

######## 获取性别和年龄 ##########################
 # 使用正则表达式匹配性别和年龄
 pattern1 = '<div class="articleGender (w*?)Icon">(d*?)</div>'
 sexages = re.compile(pattern1).findall(data)
 # print(sexages)

9.设置用户所有信息输出的格局设置

################## 批量输出用户的所以个人信息 #################
 print()
 for sexage in sexages:
 sa = sexage
 print('*'*17, '=_= 第', page, '页-第', str(x+1) + '个用户 =_= ','*'*17)
 # 输出用户名
 print('【用户名】:',name[x],end='')
 # 输出性别和年龄
 print('【性别】:',sa[0],'  【年龄】:',sa[1])
 # 输出内容
 print('【内容】:',cont[x])
 # 输出搞笑数和评论数
 print('【搞笑指数】:',happy[x],' 【评论数】:',comm[x])
 print('*'*25,' 三八分割线 ','*'*25)
 x += 1
 ###################end##########################

10.设置循环遍历爬取13页的用户信息

for i in range(1,14):
 # 糗事百科的网址
 url = 'https://www.qiushibaike.com/8hr/page/'+str(i)+'/'
 qiuShi(url,i)

运行结果,部分截图:
image

相关文章
|
2天前
|
数据挖掘 Python
🚀告别繁琐!Python I/O管理实战,文件读写效率飙升的秘密
在日常编程中,高效的文件I/O管理对提升程序性能至关重要。Python通过内置的`open`函数及丰富的库简化了文件读写操作。本文从基本的文件读写入手,介绍了使用`with`语句自动管理文件、批量读写以减少I/O次数、调整缓冲区大小、选择合适编码格式以及利用第三方库(如pandas和numpy)等技巧,帮助你显著提升文件处理效率,让编程工作更加高效便捷。
14 0
|
5天前
|
数据采集 机器学习/深度学习 人工智能
Python编程入门:从零基础到实战应用
【9月更文挑战第15天】本文将引导读者从零开始学习Python编程,通过简单易懂的语言和实例,帮助初学者掌握Python的基本语法和常用库,最终实现一个简单的实战项目。文章结构清晰,分为基础知识、进阶技巧和实战应用三个部分,逐步深入,让读者在学习过程中不断积累经验,提高编程能力。
|
4天前
|
Kubernetes API 开发工具
【Azure Developer】通过SDK(for python)获取Azure服务生命周期信息
需要通过Python SDK获取Azure服务的一些通知信息,如:K8S版本需要更新到指定的版本,Azure服务的维护通知,服务处于不健康状态时的通知,及相关的操作建议等内容。
36 18
|
2天前
|
人工智能 数据挖掘 开发者
Python编程入门:从基础到实战
【9月更文挑战第18天】本文将带你走进Python的世界,从最基本的语法开始,逐步深入到实际的项目应用。无论你是编程新手,还是有一定基础的开发者,都能在这篇文章中找到你需要的内容。我们将通过详细的代码示例和清晰的解释,让你轻松掌握Python编程。
15 5
|
10天前
|
存储 人工智能 数据挖掘
Python编程入门:从基础到实战
【9月更文挑战第10天】本文将引导你进入Python编程的世界,从基本语法到实际项目应用,逐步深入。我们将通过简单的例子和代码片段,帮助你理解并掌握Python编程的精髓。无论你是编程新手还是有一定经验的开发者,都能在这篇文章中找到有价值的信息。让我们一起开始Python编程之旅吧!
|
3天前
|
数据处理 开发者 Python
探索Python中的异步编程:从基础到实战
【9月更文挑战第17天】在Python的世界里,"异步"这个词如同一扇窗,透过它,我们可以窥见程序运行效率的无限可能。本文将带领读者走进Python的异步编程领域,从理解其核心概念出发,逐步深入到实际应用中。我们将通过具体代码示例,展现异步IO的力量,以及如何利用这一机制优化我们的应用程序。文章旨在为初学者和有一定经验的开发者提供清晰的学习路径,帮助他们解锁Python异步编程的潜力,实现更高效、更响应的程序设计。
|
10天前
|
数据采集 开发者 Python
探索Python中的异步编程:从基础到实战
【9月更文挑战第9天】本文将带你进入Python异步编程的世界,从理解其核心概念开始,逐步深入到实际应用。我们将一起构建一个小型的异步Web爬虫,通过实践学习如何在不阻塞主线程的情况下并发处理任务,优化程序性能。文章不仅包含理论知识,还提供代码示例,让读者能够动手实践,深刻理解异步编程的力量。
30 12
|
2天前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
在网络数据的海洋中,网络爬虫遵循HTTP协议,穿梭于互联网各处,收集宝贵信息。本文将从零开始,使用Python的requests库,深入解析HTTP协议,助你构建自己的网络爬虫帝国。首先介绍HTTP协议基础,包括请求与响应结构;然后详细介绍requests库的安装与使用,演示如何发送GET和POST请求并处理响应;最后概述爬虫构建流程及挑战,帮助你逐步掌握核心技术,畅游数据海洋。
17 3
|
8天前
|
数据采集 网络协议 API
HTTP协议大揭秘!Python requests库实战,让网络请求变得简单高效
【9月更文挑战第13天】在数字化时代,互联网成为信息传输的核心平台,HTTP协议作为基石,定义了客户端与服务器间的数据传输规则。直接处理HTTP请求复杂繁琐,但Python的`requests`库提供了一个简洁强大的接口,简化了这一过程。HTTP协议采用请求与响应模式,无状态且结构化设计,使其能灵活处理各种数据交换。
37 8
|
2天前
|
数据采集 API 开发者
🚀告别网络爬虫小白!urllib与requests联手,Python网络请求实战全攻略
在网络的广阔世界里,Python凭借其简洁的语法和强大的库支持,成为开发网络爬虫的首选语言。本文将通过实战案例,带你探索urllib和requests两大神器的魅力。urllib作为Python内置库,虽API稍显繁琐,但有助于理解HTTP请求本质;requests则简化了请求流程,使开发者更专注于业务逻辑。从基本的网页内容抓取到处理Cookies与Session,我们将逐一剖析,助你从爬虫新手成长为高手。
19 1