Scrapy使用MailSender发送邮件

简介: Scrapy使用MailSender发送邮件

1、配置邮箱账号 163为例

settings.py

# 邮箱配置
MAIL_HOST = "smtp.163.com"
MAIL_FROM = "xxx@163.com"
MAIL_USER = "xxx@163.com"
MAIL_PASS = "xxx"   # 授权码
MAIL_PORT = 25

2、发送邮件的代码

# -*- coding: utf-8 -*-


import scrapy
from scrapy import cmdline
from scrapy.mail import MailSender


class SendEmailSpider(scrapy.Spider):
name = 'send_email'

start_urls = ['https://www.baidu.com/';]

def parse(self, response):
# 方式一:读取配置文件中的配置
# debug参数为True 不会发送邮件,仅仅打印日志
mailer = MailSender(
smtphost=self.settings["MAIL_HOST"],
mailfrom=self.settings["MAIL_FROM"],
smtpuser=self.settings["MAIL_USER"],
smtppass=self.settings["MAIL_PASS"],
smtpport=self.settings["MAIL_PORT"]
)

# 方式二:直接传入settings 对象
mailer = MailSender.from_settings(self.settings)

# 发送邮件
return mailer.send(
to=["xxx@qq.com"],
subject="这是邮件标题",
body="这是邮件内容"
)


if name == '__main__':
cmdline.execute("scrapy crawl send_email".split())

问题

1、问题一

以上代码如果不加return, 可以正常发送邮件

mailer.send(
to=["xxx@qq.com"],
subject="这是邮件标题",
body="这是邮件内容"
)

不过会报错

builtins.AttributeError: 'NoneType' object has no attribute 'bio_read'

2、问题二

如果按照文档的写法直接不传参数实例化MailSender

mailer = MailSender()

会报错

Unable to send mail: To=['xxx@qq.com'] Cc=[] Subject="这是邮件标题" Attachs=0- 
Connection was refused by other side: 61: Connection refused.

原因是MailSender的实例化参数是固定的默认值,并没有读取settings.py文件中设定的值,坑~~

构造函数源码如下

class MailSender(object):

def __init__(self, smtphost='localhost', mailfrom='scrapy@localhost',
smtpuser=None, smtppass=None, smtpport=25,
smtptls=False, smtpssl=False, debug=False):
self.smtphost = smtphost
self.smtpport = smtpport
self.smtpuser = _to_bytes_or_none(smtpuser)
self.smtppass = _to_bytes_or_none(smtppass)
self.smtptls = smtptls
self.smtpssl = smtpssl
self.mailfrom = mailfrom
self.debug = debug

如果采用此方式实例化MailSender 需要采用方式一手动读取配置

吐槽:搞不懂scrapy作者为啥要设置完全没有用的默认值, 也不报错,坑了一波人


3、问题三

如果按照文档的写法

mailer = MailSender.from_settings(settings)

直接就会报错,都没有定义

NameError: name 'settings' is not defined

我的第一感觉是把项目的settings.py 导入传进去

import settings

mailer = MailSender.from_settings(settings)

然后又报错了

TypeError: 'module' object is not subscriptable

查看文档参数说明才知道要传一个settings 对象

settings (scrapy.settings.Settings object)

所以需要按照方式二的形式,才能正确获取setting对象

吐槽:动态语言的函数定义并没有严格要求参数类型,没有把具体的参数类型写清楚,不看文档完全不知道传什么参数


参考

  1. https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/email.html
            </div>
目录
相关文章
|
Python
Scrapy使用MailSender发送邮件
Scrapy使用MailSender发送邮件
133 0
|
3天前
|
数据采集 存储 数据处理
Scrapy:Python网络爬虫框架的利器
在当今信息时代,网络数据已成为企业和个人获取信息的重要途径。而Python网络爬虫框架Scrapy则成为了网络爬虫工程师的必备工具。本文将介绍Scrapy的概念与实践,以及其在数据采集和处理过程中的应用。
26 1
|
3天前
|
数据采集 调度 Python
Scrapy爬虫中合理使用time.sleep和Request
Scrapy爬虫中合理使用time.sleep和Request
|
3天前
|
数据采集 中间件 Python
Scrapy爬虫:利用代理服务器爬取热门网站数据
Scrapy爬虫:利用代理服务器爬取热门网站数据
|
3天前
|
数据采集 存储 中间件
【专栏】随着技术发展,Scrapy将在网络爬虫领域持续发挥关键作用
【4月更文挑战第27天】Scrapy是Python的高效爬虫框架,以其异步处理、多线程和中间件机制提升爬取效率。它的灵活性体现在可定制化组件、支持多种数据库存储及与Selenium、BeautifulSoup等工具集成。Scrapy易于扩展,允许自定义下载器和解析器。在实践中,涉及项目配置、Spider类编写、数据抓取、存储与分析。面对动态网页和反爬机制,Scrapy可通过Selenium等工具应对,但需注意法规与道德规范。随着技术发展,Scrapy将在网络爬虫领域持续发挥关键作用。
|
3天前
|
数据采集 存储 JSON
Python爬虫面试:requests、BeautifulSoup与Scrapy详解
【4月更文挑战第19天】本文聚焦于Python爬虫面试中的核心库——requests、BeautifulSoup和Scrapy。讲解了它们的常见问题、易错点及应对策略。对于requests,强调了异常处理、代理设置和请求重试;BeautifulSoup部分提到选择器使用、动态内容处理和解析效率优化;而Scrapy则关注项目架构、数据存储和分布式爬虫。通过实例代码,帮助读者深化理解并提升面试表现。
25 0
|
3天前
|
数据采集 Web App开发 搜索推荐
项目配置之道:优化Scrapy参数提升爬虫效率
项目配置之道:优化Scrapy参数提升爬虫效率
|
3天前
|
数据采集 JavaScript 前端开发
深度剖析Selenium与Scrapy的黄金组合:实现动态网页爬虫
深度剖析Selenium与Scrapy的黄金组合:实现动态网页爬虫
|
8月前
|
数据采集 JSON 前端开发
Python爬虫进阶:使用Scrapy库进行数据提取和处理
在我们的初级教程中,我们介绍了如何使用Scrapy创建和运行一个简单的爬虫。在这篇文章中,我们将深入了解Scrapy的强大功能,学习如何使用Scrapy提取和处理数据。
|
3天前
|
数据采集 存储 调度
Scrapy:解锁网络爬虫新境界
在当今信息爆炸的时代,获取并处理大量网络数据是互联网行业中至关重要的一环。Python网络爬虫框架Scrapy作为一款高效、灵活的工具,为开发者提供了强大的能力来抓取、解析和存储各类网页信息。本文将介绍Scrapy的概念、主要特点以及实践经验,帮助读者掌握这一工具,并在实际项目中应用。