Python爬虫:Scrapy链接解析器LinkExtractor返回Link对象

简介: Python爬虫:Scrapy链接解析器LinkExtractor返回Link对象

LinkExtractor

from scrapy.linkextractors import LinkExtractor

Link

from scrapy.link import Link

Link四个属性

url text fragment nofollow


如果需要解析出文本,需要在 LinkExtractor 的参数中添加参数:attrs


link_extractor = LinkExtractor(attrs=('href','text'))
links = link_extractor.extract_links(response)

使用示例

LinkExtractor
from scrapy.linkextractors import LinkExtractor
1
2
Link
from scrapy.link import Link
1
Link四个属性
url text fragment nofollow
1
2
如果需要解析出文本,需要在 LinkExtractor 的参数中添加参数:attrs
link_extractor = LinkExtractor(attrs=('href','text'))
links = link_extractor.extract_links(response)
1
2
3
使用示例
import scrapy
from scrapy.linkextractors import LinkExtractor
class DemoSpider(scrapy.Spider):
    name = 'spider'
    start_urls = [
        "https://book.douban.com/"
    ]
    def parse(self, response):
        # 参数是正则表达式
        link_extractor = LinkExtractor(allow="https://www.tianyancha.com/brand/b.*")
        links = link_extractor.extract_links(response)
        for link in links:
            print(link.text, link.url)
if __name__ == '__main__':
    cmdline.execute("scrapy crawl spider".split())


相关文章
|
1月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
87 6
|
1月前
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
1月前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
64 4
|
2月前
|
存储 缓存 Java
深度解密 Python 虚拟机的执行环境:栈帧对象
深度解密 Python 虚拟机的执行环境:栈帧对象
69 13
|
2月前
|
数据采集 JavaScript 前端开发
JavaScript逆向爬虫——使用Python模拟执行JavaScript
JavaScript逆向爬虫——使用Python模拟执行JavaScript
37 2
|
2月前
|
数据采集 Python
Python爬虫-爬取全国各地市的邮编链接
Python爬虫-爬取全国各地市的邮编链接
44 1
|
2月前
|
索引 Python
Python 对象的行为是怎么区分的?
Python 对象的行为是怎么区分的?
26 3
|
2月前
|
Python
深入解析 Python 中的对象创建与初始化:__new__ 与 __init__ 方法
深入解析 Python 中的对象创建与初始化:__new__ 与 __init__ 方法
21 1
|
2月前
|
缓存 Java 程序员
一个 Python 对象会在何时被销毁?
一个 Python 对象会在何时被销毁?
41 2
|
6月前
|
XML JavaScript 关系型数据库
Python XML 解析
Python XML 解析