Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧

简介: 之前写的一些爬虫都是用的正则、bs4、xpath做为解析库来实现,如果你对web有所涉及,并且比较喜欢css选择器,那么就有一个更适合的解析库—— PyQuery。

之前写的一些爬虫都是用的正则、bs4、xpath做为解析库来实现,如果你对web有所涉及,并且比较喜欢css选择器,那么就有一个更适合的解析库—— PyQuery。我们就用一个非常简单的小例子来看看css选择器做爬虫是怎么样的!

安装

直接pip安装即可:pip install pyquery

安装完成后,运行 pip show pyquery,如果出现相关信息即为安装完成!

如果pip安装失败,可以去官网https://pypi.org/project/pyquery/#downloads下载wheel文件,然后用pip安装即可,注意文件名字要写全,比如:pip install pyquery-1.2.17-py2.py3-none-any.whl ,该命令请在同一目录下使用。

Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧

使用

确保安装成功后就可以开始使用了,它和其他库一样,PyQuery 初始化的时候也需要传入 HTML 数据源来初始化一个操作对象,它的初始化方式有多种,比如直接传入字符串,传入 URL,传文件名。

我们用requests库搭配来写个简单的抓取凤凰新闻的小爬虫,方便理解:

打开凤凰网——资讯——即时新闻,我们就以抓取这个页面的所有新闻为例吧!

Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧

这里没有反爬,页数也不是很多(4页),非常方便用来讲解!分析下网页结构后发现,所有的新闻目录都存在于网页源代码中,每页大概有60多条,我们先来抓取一页的标题和url试试

Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧

可以看到,标题和url都在class=newsList的div下的ul->li->a标签下(用a标签的target属性匹配的话太多,不好清洗),我们可以直接写如代码去获取相关内容了,如下图:

Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧

前面是常规的requests库获取源代码html,然后用PyQuery解析网页源代码,重点是后面的定位到a标签和取出内容。

doc(‘.newsList ul a’) 的意思是定位class属性为newsList的标签下面的ul下面的a标签,注意newsList前面有个点,代表class属性,ul和a标签之间有个li标签,因为ul下的a标签是唯一,所以省略了(ul标签没有省略是因为最下面翻页部分也在这个div下,省略会有其他内容出现,下面会单独提取)!然后定位到a标签后,用items()方法将所有的a标签取出,然后遍历取出里面的内容。

这里提取标签的内容用了2个方法text()和attr():

text()方法,可以提取出标签下的所有文本内容,注意是所有!!!

attr()方法,取出标签的某属性,2中写法都可以:new.attr.href 和new.attr(‘href’)

然后在看翻页,我们只需要判断是否存在下一页,存在时,查找所有的标题和url,然后获取下一页的url,继续查找,直到不存在下一页,所有的页面就都遍历过了!为了方便,直接做成了一个函数,来看代码

Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧

这里同样的用class属性来定位,找到它下的a标签,然后判断‘下一页’是否存在a标签的文本中,存在则取出下一页的url,然后再次调用函数,不存在则退出!

这样,我们就得到了4页所有的title和url的内容,在来看看新闻详情页的情况,所有的网页文本内容都在id=”main_content”的div下的好多p标签中,那么就用到了text()方法了!来看图

Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧

这样,我们就取到了所有内容,整合下,最后代码如下:

Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧

Python学习,还在用正则或者bs4做爬虫吗?来试试css选择器吧

随手写的代码,就不写入文本或者数据库什么了,主要是学习css选择器的使用!

最后

​到这里PyQuery 的用法就介绍完了,当然只是用到了很少一部分,还有好多功能没有在这里使用,大家有兴趣可以去看看官方文档或者教程,而且css选择器也可以使用在scrapy框架!是非常方便的一种方式!

现在学习python的人越来越多,很多人还在找资料,或者疑问哪本书是否有用,或者想找个可以指导的老师,或者在寻找一起学习的小伙伴,如果你也是需要资料或者需要帮助的话,可以关注我,私信一起来交流学习!

相关文章
|
8月前
|
存储 JavaScript Java
(Python基础)新时代语言!一起学习Python吧!(四):dict字典和set类型;切片类型、列表生成式;map和reduce迭代器;filter过滤函数、sorted排序函数;lambda函数
dict字典 Python内置了字典:dict的支持,dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)存储,具有极快的查找速度。 我们可以通过声明JS对象一样的方式声明dict
481 2
|
8月前
|
存储 Java 数据处理
(numpy)Python做数据处理必备框架!(一):认识numpy;从概念层面开始学习ndarray数组:形状、数组转置、数值范围、矩阵...
Numpy是什么? numpy是Python中科学计算的基础包。 它是一个Python库,提供多维数组对象、各种派生对象(例如掩码数组和矩阵)以及用于对数组进行快速操作的各种方法,包括数学、逻辑、形状操作、排序、选择、I/0 、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。 Numpy能做什么? numpy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。 用于集成由C、C++
690 1
|
8月前
|
算法 Java Docker
(Python基础)新时代语言!一起学习Python吧!(三):IF条件判断和match匹配;Python中的循环:for...in、while循环;循环操作关键字;Python函数使用方法
IF 条件判断 使用if语句,对条件进行判断 true则执行代码块缩进语句 false则不执行代码块缩进语句,如果有else 或 elif 则进入相应的规则中执行
1486 1
|
8月前
|
存储 Java 索引
(Python基础)新时代语言!一起学习Python吧!(二):字符编码由来;Python字符串、字符串格式化;list集合和tuple元组区别
字符编码 我们要清楚,计算机最开始的表达都是由二进制而来 我们要想通过二进制来表示我们熟知的字符看看以下的变化 例如: 1 的二进制编码为 0000 0001 我们通过A这个字符,让其在计算机内部存储(现如今,A 字符在地址通常表示为65) 现在拿A举例: 在计算机内部 A字符,它本身表示为 65这个数,在计算机底层会转为二进制码 也意味着A字符在底层表示为 1000001 通过这样的字符表示进行转换,逐步发展为拥有127个字符的编码存储到计算机中,这个编码表也被称为ASCII编码。 但随时代变迁,ASCII编码逐渐暴露短板,全球有上百种语言,光是ASCII编码并不能够满足需求
358 4
|
9月前
|
JavaScript Java 大数据
基于python的网络课程在线学习交流系统
本研究聚焦网络课程在线学习交流系统,从社会、技术、教育三方面探讨其发展背景与意义。系统借助Java、Spring Boot、MySQL、Vue等技术实现,融合云计算、大数据与人工智能,推动教育公平与教学模式创新,具有重要理论价值与实践意义。
|
11月前
|
算法 IDE 测试技术
python学习需要注意的事项
python学习需要注意的事项
494 57
|
11月前
|
JSON 数据安全/隐私保护 数据格式
拼多多批量下单软件,拼多多无限账号下单软件,python框架仅供学习参考
完整的拼多多自动化下单框架,包含登录、搜索商品、获取商品列表、下单等功能。
|
11月前
|
机器学习/深度学习 数据安全/隐私保护 计算机视觉
过三色刷脸技术,过三色刷脸技术教程,插件过人脸python分享学习
三色刷脸技术是基于RGB三通道分离的人脸特征提取方法,通过分析人脸在不同颜色通道的特征差异
|
11月前
|
监控 数据安全/隐私保护 Python
微信自动抢红包免费版,2025微信抢红包神器,微信红包挂苹果版【python仅供学习】
这个模拟项目包含5个模块:核心监控逻辑、用户界面、配置管理、实用工具和主程序入口

热门文章

最新文章

  • 1
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(九):强势分析Animation动画各类参数;从播放时间、播放方式、播放次数、播放方向、播放状态等多个方面,完全了解CSS3 Animation
    532
  • 2
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(八):学习transition过渡属性;本文学习property模拟、duration过渡时间指定、delay时间延迟 等多个参数
    413
  • 3
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(七):学习ransform属性;本文学习 rotate旋转、scale缩放、skew扭曲、tanslate移动、matrix矩阵 多个参数
    407
  • 4
    (CSS)使用Flex布局,帮助你快速了解各种基本的Flex布局属性以及帮你让元素快速达到布局中的指定位置!
    266
  • 5
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(六):全方面分析css的Flex布局,从纵、横两个坐标开始进行居中、两端等元素分布模式;刨析元素间隔、排序模式等
    522
  • 6
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(五):背景属性;float浮动和position定位;详细分析相对、绝对、固定三种定位方式;使用浮动并清除浮动副作用
    701
  • 7
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(四):元素盒子模型;详细分析边框属性、盒子外边距
    1265
  • 8
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(三):元素继承关系、层叠样式规则、字体属性、文本属性;针对字体和文本作样式修改
    297
  • 9
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(二):CSS伪类:UI伪类、结构化伪类;通过伪类获得子元素的第n个元素;创建一个伪元素展示在页面中;获得最后一个元素;处理聚焦元素的样式
    1061
  • 10
    【CSS】前端三大件之一,如何学好?从基本用法开始吧!(一):CSS发展史;CSS样式表的引入;CSS选择器使用,附带案例介绍
    488
  • 推荐镜像

    更多