备案控制台

开发者社区开发与运维文章正文

Scrapy选择器的用法

2018-02-09 970

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 1.构造选择器：>>> response = HtmlResponse(url='http://example.com', body=body)>>> Selector(response=response).xpath('//span/text()').extract()[u'good'] 2.使用选择器（在response使用xpath或CSS查询）：.xpath() 及 .css() 方法返回一个类 SelectorList 的实例, 它是一个新选择器的列表。

1.构造选择器：

>>> response = HtmlResponse(url='http://example.com', body=body)
>>> Selector(response=response).xpath('//span/text()').extract()
[u'good']

2.使用选择器（在response使用xpath或CSS查询）：

.xpath() 及 .css() 方法返回一个类 SelectorList 的实例, 它是一个新选择器的列表。

>>> response.xpath('//title/text()')
[<Selector (text) xpath=//title/text()>]
>>> response.css('title::text')
[<Selector (text) xpath=//title/text()>]

xpath中 //选取标签，/选择属性， CSS中用 :: 选取属性。

调用 extract() 来获取标签内容，使用extract_frist()来获取第一个元素内容。

>>> response.css('title::text').extract()
[u'Example website']

使用@或attr()来获取属性。

>>> response.xpath('//base/@href').extract()
[u'http://example.com/']

>>> response.css('base::attr(href)').extract()
[u'http://example.com/']

获取指定内容，如image。

>>> response.xpath('//a[contains(@href, "image")]/@href').extract()
[u'image1.html',
 u'image2.html',
 u'image3.html',
 u'image4.html',
 u'image5.html']

>>> response.css('a[href*=image]::attr(href)').extract()
[u'image1.html',
 u'image2.html',
 u'image3.html',
 u'image4.html',
 u'image5.html']

结合正则表达式。

>>> response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')
[u'My image 1',
 u'My image 2',
 u'My image 3',
 u'My image 4',
 u'My image 5']

文章标签：

前端开发

Python

关键词：

Scrapy用法

Scrapy选择器

Scrapy选择器用法

希希里之海

目录

相关文章

奔跑的数据

|

2月前

|

数据采集前端开发数据处理

Scrapy的Lambda函数用法：简化数据提取与处理的技巧

在现代爬虫开发中，**Scrapy** 是一个广泛使用的高效 Python 框架，适用于大规模数据爬取。本文探讨如何利用 Python 的 **Lambda 函数** 简化 Scrapy 中的数据提取与处理，特别是在微博数据爬取中的应用。通过结合 **代理IP**、**Cookie** 和 **User-Agent** 设置，展示了实际用法，包括代码示例和优化技巧，以提高爬虫的稳定性和效率。使用 Lambda 函数能显著减少代码冗余，提升可读性，有效应对复杂的数据清洗任务。

奔跑的数据

48 3 3

然然学长

|

7月前

|

数据采集前端开发中间件

python-scrapy框架（一）Spider文件夹的用法讲解

python-scrapy框架（一）Spider文件夹的用法讲解

然然学长

156 0 1

然然学长

|

7月前

|

数据采集 NoSQL 中间件

python-scrapy框架（四）settings.py文件的用法详解实例

python-scrapy框架（四）settings.py文件的用法详解实例

然然学长

71 0 0

然然学长

|

7月前

|

存储数据采集数据库

python-scrapy框架（三）Pipeline文件的用法讲解

python-scrapy框架（三）Pipeline文件的用法讲解

然然学长

144 0 0

然然学长

|

7月前

|

存储数据采集 JSON

python-scrapy框架（二）items文件夹的用法讲解

python-scrapy框架（二）items文件夹的用法讲解

然然学长

127 0 0

xssh5mnarpasc

|

前端开发 Python

Scrapy CSS选择器

Scrapy CSS选择器

xssh5mnarpasc

207 0 0

码农技术君

|

数据采集 XML 前端开发

python爬虫：scrapy框架xpath和css选择器语法

python爬虫：scrapy框架xpath和css选择器语法

码农技术君

237 0 0

python爬虫：scrapy框架xpath和css选择器语法

akemm3xu33y4a

|

数据采集 XML 前端开发

Scrapy框架| 选择器-Xpath和CSS的那些事

Scrapy框架| 选择器-Xpath和CSS的那些事

akemm3xu33y4a

224 0 0

码农技术君

|

数据采集 XML 前端开发

python爬虫：scrapy框架xpath和css选择器语法

python爬虫：scrapy框架xpath和css选择器语法

码农技术君

706 0 0

天降攻城狮

|

前端开发搜索推荐 Python

19、 Python快速开发分布式搜索引擎Scrapy精讲—css选择器

【http://www.bdyss.cn】【http://www.swpan.cn】 css选择器 1、 2、 3、 ::attr()获取元素属性，css选择器 ::text获取标签文本举例： extract_first('')获取过滤后的数据，返回字符串，有一个默认参数，也就是如果没.

天降攻城狮

867 0 0

热门文章

最新文章

Scrapy分布式、去重增量爬虫的开发与设计

CentOS7 yum的一次报错" 14: curl#56 - "Recv failure: Connection reset by peer" "

使用cProfile等工具来提高python的执行速度

四大触点，教你从“用户视角”构建数据分析体系

Spring-boot+Dubbo应用启停源码分析

Python爬虫入门教程 40-100 博客园Python相关40W博客抓取 scrapy

初识 scrapy 框架 - 安装

Scrapy1.4最新官方文档总结 4 爬虫

windows7 python3.4 安装scrapy

Scrapy进阶-命令行的工作原理（以runspider为例）

python-scrapy框架（四）settings.py文件的用法详解实例

python-scrapy框架（三）Pipeline文件的用法讲解

python-scrapy框架（二）items文件夹的用法讲解

python-scrapy框架（一）Spider文件夹的用法讲解

【专栏】随着技术发展，Scrapy将在网络爬虫领域持续发挥关键作用

Python爬虫面试：requests、BeautifulSoup与Scrapy详解

项目配置之道：优化Scrapy参数提升爬虫效率

介绍一下常见的爬虫框架或库，如`Scrapy`。

如何使用Scrapy提取和处理数据

深度剖析Selenium与Scrapy的黄金组合：实现动态网页爬虫

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云oss存储简介和如何使用