备案控制台

开发者社区开发与运维文章正文

Scrapy选择器的用法

2018-02-09 981

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 1.构造选择器：>>> response = HtmlResponse(url='http://example.com', body=body)>>> Selector(response=response).xpath('//span/text()').extract()[u'good'] 2.使用选择器（在response使用xpath或CSS查询）：.xpath() 及 .css() 方法返回一个类 SelectorList 的实例, 它是一个新选择器的列表。

1.构造选择器：

>>> response = HtmlResponse(url='http://example.com', body=body)
>>> Selector(response=response).xpath('//span/text()').extract()
[u'good']

2.使用选择器（在response使用xpath或CSS查询）：

.xpath() 及 .css() 方法返回一个类 SelectorList 的实例, 它是一个新选择器的列表。

>>> response.xpath('//title/text()')
[<Selector (text) xpath=//title/text()>]
>>> response.css('title::text')
[<Selector (text) xpath=//title/text()>]

xpath中 //选取标签，/选择属性， CSS中用 :: 选取属性。

调用 extract() 来获取标签内容，使用extract_frist()来获取第一个元素内容。

>>> response.css('title::text').extract()
[u'Example website']

使用@或attr()来获取属性。

>>> response.xpath('//base/@href').extract()
[u'http://example.com/']

>>> response.css('base::attr(href)').extract()
[u'http://example.com/']

获取指定内容，如image。

>>> response.xpath('//a[contains(@href, "image")]/@href').extract()
[u'image1.html',
 u'image2.html',
 u'image3.html',
 u'image4.html',
 u'image5.html']

>>> response.css('a[href*=image]::attr(href)').extract()
[u'image1.html',
 u'image2.html',
 u'image3.html',
 u'image4.html',
 u'image5.html']

结合正则表达式。

>>> response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')
[u'My image 1',
 u'My image 2',
 u'My image 3',
 u'My image 4',
 u'My image 5']

文章标签：

前端开发

Python

关键词：

Scrapy用法

Scrapy选择器

Scrapy选择器用法

希希里之海

目录

相关文章

奔跑的数据

|

4月前

|

数据采集前端开发数据处理

Scrapy的Lambda函数用法：简化数据提取与处理的技巧

在现代爬虫开发中，**Scrapy** 是一个广泛使用的高效 Python 框架，适用于大规模数据爬取。本文探讨如何利用 Python 的 **Lambda 函数** 简化 Scrapy 中的数据提取与处理，特别是在微博数据爬取中的应用。通过结合 **代理IP**、**Cookie** 和 **User-Agent** 设置，展示了实际用法，包括代码示例和优化技巧，以提高爬虫的稳定性和效率。使用 Lambda 函数能显著减少代码冗余，提升可读性，有效应对复杂的数据清洗任务。

奔跑的数据

67 3 3

然然学长

|

9月前

|

数据采集前端开发中间件

python-scrapy框架（一）Spider文件夹的用法讲解

python-scrapy框架（一）Spider文件夹的用法讲解

然然学长

200 0 1

然然学长

|

9月前

|

数据采集 NoSQL 中间件

python-scrapy框架（四）settings.py文件的用法详解实例

python-scrapy框架（四）settings.py文件的用法详解实例

然然学长

103 0 0

然然学长

|

9月前

|

存储数据采集数据库

python-scrapy框架（三）Pipeline文件的用法讲解

python-scrapy框架（三）Pipeline文件的用法讲解

然然学长

184 0 0

然然学长

|

9月前

|

存储数据采集 JSON

python-scrapy框架（二）items文件夹的用法讲解

python-scrapy框架（二）items文件夹的用法讲解

然然学长

149 0 0

xssh5mnarpasc

|

前端开发 Python

Scrapy CSS选择器

Scrapy CSS选择器

xssh5mnarpasc

217 0 0

码农技术君

|

数据采集 XML 前端开发

python爬虫：scrapy框架xpath和css选择器语法

python爬虫：scrapy框架xpath和css选择器语法

码农技术君

255 0 0

python爬虫：scrapy框架xpath和css选择器语法

akemm3xu33y4a

|

数据采集 XML 前端开发

Scrapy框架| 选择器-Xpath和CSS的那些事

Scrapy框架| 选择器-Xpath和CSS的那些事

akemm3xu33y4a

236 0 0

码农技术君

|

数据采集 XML 前端开发

python爬虫：scrapy框架xpath和css选择器语法

python爬虫：scrapy框架xpath和css选择器语法

码农技术君

721 0 0

天降攻城狮

|

前端开发搜索推荐 Python

19、 Python快速开发分布式搜索引擎Scrapy精讲—css选择器

【http://www.bdyss.cn】【http://www.swpan.cn】 css选择器 1、 2、 3、 ::attr()获取元素属性，css选择器 ::text获取标签文本举例： extract_first('')获取过滤后的数据，返回字符串，有一个默认参数，也就是如果没.

天降攻城狮

875 0 0

热门文章

最新文章

Scrapy分布式、去重增量爬虫的开发与设计

一辈子做程序员怎么了？

讨论阶段性给予客户交付物所引发的风险问题

js获取日期星期时间

<转>字节码指令

Ruby中求50之内的素数方法

编译安装lamp

编程求出下式中n的最大值

PDCA + GTD + 番茄工作法

C++命名空间

用Scrapy精准爬取BOSS直聘特定行业职位

在Scrapy爬虫中应用Crawlera进行反爬虫策略

Python网络爬虫：Scrapy框架的实战应用与技巧分享

Python网络爬虫：Scrapy框架的实战应用与技巧分享

Scrapy入门到放弃03：理解settings配置，监控scrapy引擎|8月更文挑战

小说爬虫-03 爬取章节的详细内容并保存将章节URL推送至RabbitMQ Scrapy消费MQ 对数据进行爬取后写入SQLite

小说爬虫-02 爬取小说详细内容和章节列表推送至RabbitMQ 消费ACK确认 Scrapy爬取 SQLite

小说爬虫-01爬取总排行榜分页翻页 Scrapy SQLite SQL 简单上手！

Scrapy的Lambda函数用法：简化数据提取与处理的技巧

Scrapy爬虫框架-通过Cookies模拟自动登录

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云oss简介和如何对接使用