Python爬虫入门教程 52-100 Python3爬虫获取博客园文章定时发送到邮箱

简介: 写在前面关于获取文章自动发送到邮箱,这类需求其实可以写好几个网站,弄完博客园,弄CSDN,弄掘金,弄其他的,网站多的是呢~哈哈先从博客园开始,基本需求,获取python板块下面的新文章,间隔60分钟发送一次,时间太短估摸着没有多少新博客产出~抓取的页面就是这个https://www.

写在前面

关于获取文章自动发送到邮箱,这类需求其实可以写好几个网站,弄完博客园,弄CSDN,弄掘金,弄其他的,网站多的是呢~哈哈

先从博客园开始,基本需求,获取python板块下面的新文章,间隔60分钟发送一次,时间太短估摸着没有多少新博客产出~

抓取的页面就是这个

https://www.cnblogs.com/cate/python

需求整理

  1. 获取指定页面的所有文章,记录文章相关信息,并且记录最后一篇文章的时间
  2. 将文章发送到指定邮箱,更新最后一篇文章的时间

实际编码环节

查看一下需要导入的模块

模块清单

import requests
import time
import re
import smtplib
from email.mime.text import MIMEText
from email.utils import formataddr
from email.header import Header
from email.mime.application import MIMEApplication
from email.mime.multipart import MIMEMultipart

初始化基本数据

    # 初始化数据
    def __init__(self):
        self.start_url = "https://www.cnblogs.com/cate/python"
        self.headers = {
            "user-agent": "Mozilla/..... Safari/537.36",
            "referer": "https://www.cnblogs.com/cate/python/"
        }
        self.pattern = r'<div class="post_item_body">[\s\S.]*?<h3><a class="titlelnk" href="(.*?)" target="_blank">(.*?)</a></h3>[\s\S.]*?<div class="post_item_foot">[\s\S.]*?<a href=".*?" class="lightblue">(.*?)</a>([\s\S.]*?)<span class="article_comment">'
        self.last_blog_time = 0
        self.need_send_articles = []

参数说明

  • self.start_url 数据爬取地址
  • self.headers 头文件
  • self.pattern 正则表达式,用来匹配我们需要的数据内容的,你可以使用BS4,LXML,PyQuery等内容实现
  • self.last_blog_time 最后一篇博客的更新时间
  • self.need_send_articles 需要发送的博客地址

解析博客网页内容

涉及代码较多,我将关键点编写相应的注释

    # 解析网页内容
    def get_articles(self):
        try:
            # 正常的数据获取
            res = requests.get(self.start_url,headers=self.headers,timeout=3)
        except Exception as e:
            print("error %s"% e)
            time.sleep(3)
            return self.get_articles()  # 重新发起请求

        html = res.text
        # 这个地方的正则表达式是考验你正则功底的地方了
        all = re.findall(self.pattern,html)
        # 判断,如果没有新文章
        last_time = self.change_time(all[0][3].strip().replace("发布于 ", ""))

        if last_time <= self.last_blog_time:
            print("没有新文章更新")
            return

        for item in all:
            public_time = item[3]
            if public_time:
                # 格式化时间
                public_time = self.change_time(public_time.strip().replace("发布于 ",""))

                if(public_time > self.last_blog_time):
                    self.need_send_articles.append({
                        "url":item[0],
                        "title":item[1],
                        "author":item[2],
                        "time":public_time
                    })

        # 文章获取完毕,更新时间
        self.last_blog_time = last_time
        ##### 测试输出
        print(self.need_send_articles)
        print("现在文章的最后时间为",self.last_blog_time)
        ##### 测试输出

时间字符串转换成时间戳

采用时间戳可以直接比较大小,非常方便

   def change_time(self,need_change_time):
        '''
        # 时间的转换
        :param need_change_time:
        :return:返回时间戳
        '''
        time_array = time.strptime(need_change_time, "%Y-%m-%d %H:%M")
        time_stamp = int(time.mktime(time_array))
        return time_stamp

邮件发送环节

本篇博客采用的是QQ邮箱发送
关于QQ邮箱发送的一些参考文章,我给大家列一下,方便你查阅

参考文章
# https://blog.csdn.net/qiye005/article/details/80789666
# https://blog.csdn.net/Momorrine/article/details/79881251
# https://www.cnblogs.com/lovealways/p/6701662.html
# https://www.cnblogs.com/yufeihlf/p/5726619.html

因为我采用的是QQ邮箱,所以有的地方设定起来比较麻烦,发短信还花了2毛钱,建议你采用其它的邮箱,设置是一样的哦~~

发送邮件send_email函数

你看一下上面的文章之后,就可以对邮件发送进行相应的编写了,非常简单

QQ邮箱是SSL认证的邮箱系统,因此用QQ邮箱发送邮件,需要创建一个SMTP_SSL对象,而不是SMTP对象

    # 发送邮件
    def send_email(self,articles):
        smtp = smtplib.SMTP_SSL()  # 这个地方注意
        smtp.connect("smtp.qq.com",465)
        smtp.login("860866679@qq.com", "授权码")


        sender = '860866679@qq.com'
        receivers = ['找个自己的其他邮箱@163.com']  # 接收邮件,可设置为你的QQ邮箱或者其他邮箱

        # 完善发件人收件人,主题信息
        message = MIMEMultipart()
        message['From'] = formataddr(["博客采集器", sender])
        message['To'] = formataddr(["hi,baby", ''.join(receivers)])
        subject = '你有新采集到的文章清单'
        message['Subject'] = Header(subject, 'utf-8')
        # 正文部分
        html = ""
        for item in articles:
            html+=("<p><a href='{url}'>{title}</a>--文章作者{author}--发布时间{time}</p>".format(title=item["title"],url=item["url"],author=item["author"],time=item["time"]))

        textmessage = MIMEText('<p>新采集到的文章清单</p>' +html,
                               'html', 'utf-8')
        message.attach(textmessage)

        # 发送邮件操作
        smtp.sendmail(sender, receivers, message.as_string())
        smtp.quit()

邮箱收到邮件

当收到邮件的那一刻,你就可以感受到happy了~
image

部署到服务器

最后一个步骤,如果想要持续的获取,那么找一个服务器,然后部署就行啦,有兴趣的博友,继续研究下去吧~

image

更多内容,欢迎关注 https://dwz.cn/r4lCXEuL

.

相关文章
|
5天前
|
数据采集 存储 开发者
如何动态调整Python爬虫的Request请求延迟
如何动态调整Python爬虫的Request请求延迟
|
2天前
|
数据采集 NoSQL 关系型数据库
Python爬虫去重策略:增量爬取与历史数据比对
Python爬虫去重策略:增量爬取与历史数据比对
|
5天前
|
数据采集 存储 缓存
Python爬虫与代理IP:高效抓取数据的实战指南
在数据驱动的时代,网络爬虫是获取信息的重要工具。本文详解如何用Python结合代理IP抓取数据:从基础概念(爬虫原理与代理作用)到环境搭建(核心库与代理选择),再到实战步骤(单线程、多线程及Scrapy框架应用)。同时探讨反爬策略、数据处理与存储,并强调伦理与法律边界。最后分享性能优化技巧,助您高效抓取公开数据,实现技术与伦理的平衡。
33 4
|
4天前
|
数据采集 Web App开发 iOS开发
Python 爬虫如何伪装 Referer?从随机生成到动态匹配
Python 爬虫如何伪装 Referer?从随机生成到动态匹配
|
9天前
|
数据采集 Web App开发 文字识别
Python爬虫多次请求后被要求验证码的应对策略
Python爬虫多次请求后被要求验证码的应对策略
|
15天前
|
数据采集 搜索推荐 API
Python 原生爬虫教程:京东商品列表页面数据API
京东商品列表API是电商大数据分析的重要工具,支持开发者、商家和研究人员获取京东平台商品数据。通过关键词搜索、分类筛选、价格区间等条件,可返回多维度商品信息(如名称、价格、销量等),适用于市场调研与推荐系统开发。本文介绍其功能并提供Python请求示例。接口采用HTTP GET/POST方式,支持分页、排序等功能,满足多样化数据需求。
|
17天前
|
数据采集 存储 JSON
用Python爬虫抓取数据并保存为JSON的完整指南
用Python爬虫抓取数据并保存为JSON的完整指南
|
18天前
|
数据采集 存储 NoSQL
如何避免Python爬虫重复抓取相同页面?
如何避免Python爬虫重复抓取相同页面?
|
15天前
|
数据采集 API 数据格式
Python 原生爬虫教程:京东商品详情页面数据API
本文介绍京东商品详情API在电商领域的应用价值及功能。该API通过商品ID获取详细信息,如基本信息、价格、库存、描述和用户评价等,支持HTTP请求(GET/POST),返回JSON或XML格式数据。对于商家优化策略、开发者构建应用(如比价网站)以及消费者快速了解商品均有重要意义。研究此API有助于推动电商业务创新与发展。
|
16天前
|
数据采集 存储 监控
Python 原生爬虫教程:网络爬虫的基本概念和认知
网络爬虫是一种自动抓取互联网信息的程序,广泛应用于搜索引擎、数据采集、新闻聚合和价格监控等领域。其工作流程包括 URL 调度、HTTP 请求、页面下载、解析、数据存储及新 URL 发现。Python 因其丰富的库(如 requests、BeautifulSoup、Scrapy)和简洁语法成为爬虫开发的首选语言。然而,在使用爬虫时需注意法律与道德问题,例如遵守 robots.txt 规则、控制请求频率以及合法使用数据,以确保爬虫技术健康有序发展。
下一篇
oss创建bucket