python爬虫项目实战,爬取用户的信息,让你更好的筛选

简介: 1.导入模块import urllib.request from bs4 import BeautifulSoup2.添加头文件,防止爬取过程被拒绝链接def qiuShi(url,page): ################### 模拟成高仿度浏览器的行为 #############...

1.导入模块

import urllib.request
 from bs4 import BeautifulSoup

2.添加头文件,防止爬取过程被拒绝链接

def qiuShi(url,page):
 ################### 模拟成高仿度浏览器的行为 ##############
 # 设置多个头文件参数,模拟成高仿度浏览器去爬取网页
 heads ={
 'Connection':'keep-alive',
 'Accept-Language':'zh-CN,zh;q=0.9',
 'Accept':'text/html,application/xhtml+xml,application/xml;
 q=0.9,image/webp,image/apng,*/*;q=0.8',
 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 
 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
 }
 headall = []
 for key,value in heads.items():
 items = (key,value)
 # 将多个头文件参数一个一个添加到headall列表中
 headall.append(items)
 # print(headall)
 # print('测试1--')
 
 # 创建opener对象
 opener = urllib.request.build_opener()
 # 添加头文件到opener对象
 opener.addheaders = headall
 # 将opener对象设置成全局模式
 urllib.request.install_opener(opener)
 # 爬取网页并读取数据到data
 data = opener.open(url).read().decode()
 # data1 = urllib.request.urlopen(url).read().decode('utf-8')
 # print(data1)
 # print('测试2--')
 ################## end ########################################

3.创建soup解析器对象

soup = BeautifulSoup(data,'lxml')
 x = 0
4.开始使用BeautifulSoup4解析器提取用户名信息
############### 获取用户名 ########################
 name = []
 # 使用bs4解析器提取用户名
 unames = soup.find_all('h2')
 # print('测试3--',unames)
 for uname in unames:
 # print(uname.get_text(),'第',page,'-',str(x)+'用户名:',end='')
 # 将用户名一个一个添加到name列表中
 name.append(uname.get_text())
 # print(name)
 # print('测试4--')
 #################end#############################

5.提取发表的内容信息
发表的内容

cont = []
data4 = soup.find_all('div',class_='content')
# print(data4)
# 记住二次筛选一点要转换成字符串形式,否则报错
data4 = str(data4)
# 使用bs4解析器提取内容
soup3 = BeautifulSoup(data4,'lxml')
contents = soup3.find_all('span')
for content in contents:
# print('第',x,'篇糗事的内容:',content.get_text())
# 将内容一个一个添加到cont列表中
cont.append(content.get_text())
# print(cont)
# print('测试5--')
##############end####################################

**6.提取搞笑指数**
 #################搞笑指数##########################
 happy = []
 # 获取搞笑指数
 # 第一次筛选
 data2 = soup.find_all('span',class_="stats-vote")
 # 获取搞笑指数
 # 第二次筛选
 data2 = str(data2) # 将列表转换成字符串形式才可以使用
 # print(data2)
 # print('测试6--')
 soup1 = BeautifulSoup(data2,'lxml')
 happynumbers = soup1.find_all('i',class_="number")
 for happynumber in happynumbers:
 # print(happynumber.get_text())
 # 将将搞笑数一个一个添加到happy列表中
 happy.append(happynumber.get_text())
 # print(happy)
 # print('测试7--')
 ##################end#############################

如果你跟我一样都喜欢python,想成为一名优秀的程序员,也在学习python的道路上奔跑,欢迎你加入python学习群:python群号:491308659 验证码:南烛
群内每天都会分享最新业内资料,分享python免费课程,共同交流学习,让学习变(编)成(程)一种习惯!

7.提取评论数

############## 评论数 ############################
 comm = []
 data3 = soup.find_all('a',class_='qiushi_comments')
 data3 = str(data3)
 # print(data3)
 soup2 = BeautifulSoup(data3,'lxml')
 comments = soup2.find_all('i',class_="number")
 for comment in comments:
 # print(comment.get_text())
 # 将评论数一个一个添加到comm列表中
 comm.append(comment.get_text())
 ############end#####################################

8.使用正则表达式提取性别和年龄

######## 获取性别和年龄 ##########################
 # 使用正则表达式匹配性别和年龄
 pattern1 = '<div class="articleGender (w*?)Icon">(d*?)</div>'
 sexages = re.compile(pattern1).findall(data)
 # print(sexages)

9.设置用户所有信息输出的格局设置

################## 批量输出用户的所以个人信息 #################
 print()
 for sexage in sexages:
 sa = sexage
 print('*'*17, '=_= 第', page, '页-第', str(x+1) + '个用户 =_= ','*'*17)
 # 输出用户名
 print('【用户名】:',name[x],end='')
 # 输出性别和年龄
 print('【性别】:',sa[0],'  【年龄】:',sa[1])
 # 输出内容
 print('【内容】:',cont[x])
 # 输出搞笑数和评论数
 print('【搞笑指数】:',happy[x],' 【评论数】:',comm[x])
 print('*'*25,' 三八分割线 ','*'*25)
 x += 1
 ###################end##########################

10.设置循环遍历爬取13页的用户信息

for i in range(1,14):
 # 糗事百科的网址
 url = 'https://www.qiushibaike.com/8hr/page/'+str(i)+'/'
 qiuShi(url,i)

运行结果,部分截图:
image

相关文章
|
16天前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
20天前
|
数据采集 存储 XML
Python爬虫:深入探索1688关键词接口获取之道
在数字化经济中,数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台,其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术,合法合规地获取1688关键词接口,助力商家洞察市场趋势,优化营销策略。
|
4天前
|
数据采集 JSON API
如何利用Python爬虫淘宝商品详情高级版(item_get_pro)API接口及返回值解析说明
本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口(item_get_pro),获取商品的详细信息,包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容,强调了数据获取的合规性和安全性。
|
10天前
|
数据采集 存储 API
利用Python爬虫获取1688关键词接口全攻略
本文介绍如何使用Python爬虫技术合法合规地获取1688关键词接口数据,包括环境准备、注册1688开发者账号、获取Access Token、构建请求URL、发送API请求、解析HTML及数据处理存储等步骤,强调遵守法律法规和合理使用爬虫技术的重要性。
|
16天前
|
小程序 开发者 Python
探索Python编程:从基础到实战
本文将引导你走进Python编程的世界,从基础语法开始,逐步深入到实战项目。我们将一起探讨如何在编程中发挥创意,解决问题,并分享一些实用的技巧和心得。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你提供有价值的参考。让我们一起开启Python编程的探索之旅吧!
41 10
|
17天前
|
数据采集 JSON 开发者
Python爬虫京东商品详情数据接口
京东商品详情数据接口(JD.item_get)提供商品标题、价格、品牌、规格、图片等详细信息,适用于电商数据分析、竞品分析等。开发者需先注册账号、创建应用并申请接口权限,使用时需遵循相关规则,注意数据更新频率和错误处理。示例代码展示了如何通过 Python 调用此接口并处理返回的 JSON 数据。
|
21天前
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href=&#39;example.com&#39;]` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
|
24天前
|
数据采集 XML 存储
构建高效的Python网络爬虫:从入门到实践
本文旨在通过深入浅出的方式,引导读者从零开始构建一个高效的Python网络爬虫。我们将探索爬虫的基本原理、核心组件以及如何利用Python的强大库进行数据抓取和处理。文章不仅提供理论指导,还结合实战案例,让读者能够快速掌握爬虫技术,并应用于实际项目中。无论你是编程新手还是有一定基础的开发者,都能在这篇文章中找到有价值的内容。
|
22天前
|
数据采集 JavaScript 前端开发
Python爬虫能处理动态加载的内容吗?
Python爬虫可处理动态加载内容,主要方法包括:使用Selenium模拟浏览器行为;分析网络请求,直接请求API获取数据;利用Pyppeteer控制无头Chrome。这些方法各有优势,适用于不同场景。
|
28天前
|
算法 Unix 数据库
Python编程入门:从基础到实战
本篇文章将带你进入Python编程的奇妙世界。我们将从最基础的概念开始,逐步深入,最后通过一个实际的项目案例,让你真正体验到Python编程的乐趣和实用性。无论你是编程新手,还是有一定基础的开发者,这篇文章都将为你提供有价值的信息和知识。让我们一起探索Python的世界吧!