pyquery库和parsel库的使用

简介: pyquery库和parsel库的使用

0x01 安装pyquery库


该库可以直接通过css选择器进行字符串查找

pip install pyquery

0x02 初始化操作


通过PyQuery初始化字符串

from pyquery import PyQuery
import requests
url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
res=PyQuery(str)
print(res)

0x03 获取电影名字


1、res('h2'):获取h2标签所有内容


2、text()将字符串内容打印出来

from pyquery import PyQuery
import requests
url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
res=PyQuery(str)
print(res('h2').text())

运行结果:  爱涌情现浪潮时 爱的锦囊妙计 铁血女王阿米娜:征战天下 我的老板是连环杀手 国际搜查 死亡血路 反恐追缉令 浅草小子 去海边 Reframe THEATER EXPERIENCE with you 凶宅怪谈 青涩的伤痛与脆弱 狂武藏 战地:异种浩劫 恋途未卜 窒恋 路的尽头 迷情杀机:卷土重来 BTS舞台舞蹈许可:首尔实时观看 父情难却 猎杀艾娃 最好的女友 匹诺曹 有一点动心


0x04 安装parsel库


该库是Scrapy框架的底层代码,Scrapy框架是一个爬虫框架,以后我们会详细解说。

pip install parsel

0x05 获取电影名字


1、通Selector初始化一下字符串


2、通过css获取h2标签的所有内容


3、通过xpath获取标签的字符串内容

from parsel import Selector
import requests
url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
sl=Selector(text=str)
res=sl.css('h2')
for i in res:
    text=i.xpath('.//text()').get()
    print(text)

0x06 声明


仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者不承担任何法律及连带责任。


目录
相关文章
|
10月前
|
数据采集 Web App开发 iOS开发
使用 User-Agent 模拟浏览器行为的技巧
使用 User-Agent 模拟浏览器行为的技巧
|
SQL DataWorks 监控
DataWorks产品使用合集之怎么针对表中已经存在的数据进行更新
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
DataWorks产品使用合集之怎么针对表中已经存在的数据进行更新
|
缓存 算法 网络协议
OSPF的路由计算算法:原理与应用
OSPF的路由计算算法:原理与应用
786 4
|
存储 运维 数据可视化
【技术分析】低代码平台的专有存储技术
低代码是一个新兴的技术,有着非常明确而鲜明的技术特点,比如:拖拽组件、可视化编程、零代码编程等等。但传统软件企业在进行技术融合时却往往是困难重重,旧有的技术积累很难能继承应用过来。本文作为一组技术分析,来逐一分解低代码背后的支撑技术。今天我们给大家带来的一个专题分析是,低代码平台的专有存储技术。
|
SQL 存储 分布式计算
Hive和Pig的区别是什么?如何选择?
【10月更文挑战第9天】Hive和Pig的区别是什么?如何选择?
337 0
|
算法 安全 UED
深入理解操作系统的虚拟内存管理机制
【7月更文挑战第2天】在现代计算机系统设计中,虚拟内存是实现内存管理高效、安全和可扩展的关键技术。本文将深入探讨虚拟内存的管理机制,包括分页技术、内存分配策略以及页面替换算法等核心概念。通过分析虚拟内存如何优化物理内存的使用,提高系统的运行效率,并讨论其在实际操作系统中的应用和面临的挑战,旨在为读者提供对虚拟内存管理机制的全面理解。
echars 设置文字倾斜 图表根据鼠标滑轮自动改变x轴数据
echars 设置文字倾斜 图表根据鼠标滑轮自动改变x轴数据
286 1
|
JavaScript 前端开发 流计算
JS:oninput和onchange事件的区别
JS:oninput和onchange事件的区别
461 1
|
存储 NoSQL 中间件
「译文」Docker 镜像仓库配置
「译文」Docker 镜像仓库配置