pyquery库和parsel库的使用

简介: pyquery库和parsel库的使用

0x01 安装pyquery库


该库可以直接通过css选择器进行字符串查找

pip install pyquery

0x02 初始化操作


通过PyQuery初始化字符串

from pyquery import PyQuery
import requests
url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
res=PyQuery(str)
print(res)

0x03 获取电影名字


1、res('h2'):获取h2标签所有内容


2、text()将字符串内容打印出来

from pyquery import PyQuery
import requests
url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
res=PyQuery(str)
print(res('h2').text())

运行结果:  爱涌情现浪潮时 爱的锦囊妙计 铁血女王阿米娜:征战天下 我的老板是连环杀手 国际搜查 死亡血路 反恐追缉令 浅草小子 去海边 Reframe THEATER EXPERIENCE with you 凶宅怪谈 青涩的伤痛与脆弱 狂武藏 战地:异种浩劫 恋途未卜 窒恋 路的尽头 迷情杀机:卷土重来 BTS舞台舞蹈许可:首尔实时观看 父情难却 猎杀艾娃 最好的女友 匹诺曹 有一点动心


0x04 安装parsel库


该库是Scrapy框架的底层代码,Scrapy框架是一个爬虫框架,以后我们会详细解说。

pip install parsel

0x05 获取电影名字


1、通Selector初始化一下字符串


2、通过css获取h2标签的所有内容


3、通过xpath获取标签的字符串内容

from parsel import Selector
import requests
url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
sl=Selector(text=str)
res=sl.css('h2')
for i in res:
    text=i.xpath('.//text()').get()
    print(text)

0x06 声明


仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者不承担任何法律及连带责任。


目录
相关文章
|
6月前
|
数据采集 前端开发 JavaScript
Python爬虫 pyquery库详解#4
pyquery 初始化,基本CSS选择器,查找节点,遍历,节点操作,伪类选择器【2月更文挑战第15天】
61 1
Python爬虫 pyquery库详解#4
|
传感器 编解码 人工智能
一个强大的音视频编解码库-rkmedia的应用
一个强大的音视频编解码库-rkmedia的应用
260 0
|
6月前
|
XML 数据格式 Python
python中request请求库与BeautifulSoup解析库的用法
python中request请求库与BeautifulSoup解析库的用法
59 0
|
前端开发
24 # co 库的实现
24 # co 库的实现
49 0
|
数据采集 XML 人工智能
Python 文档解析:lxml库的使用
lxml 是 Python 常用的文档解析库,能够高效地解析 HTML/XML 文档,常用于 Python 爬虫。lxml 为第三方库,需要我们通过pip命令安装。这个爬虫程序爬取了CSDN首页的所有.jpg、.jpeg、.png格式的图片,快来自己尝试一下吧!
369 0
Python 文档解析:lxml库的使用
|
Windows
paddleoffice库介绍
paddleoffice库介绍
150 0
paddleoffice库介绍
|
XML 数据格式 Python
Python解析库lxml与xpath用法总结
Python解析库lxml与xpath用法总结
360 0
Python解析库lxml与xpath用法总结
|
Python
使用python BeautifulSoup库修改文档树
使用python BeautifulSoup库修改文档树
99 0
使用python BeautifulSoup库修改文档树
|
XML Web App开发 数据采集
数据解析之 XPath & lxml 库
数据解析之 XPath & lxml 库
176 0
数据解析之 XPath & lxml 库