梦想橡皮擦 2019-06-12 1102浏览量
关于获取文章自动发送到邮箱,这类需求其实可以写好几个网站,弄完博客园,弄CSDN,弄掘金,弄其他的,网站多的是呢~哈哈
先从博客园开始,基本需求,获取python板块下面的新文章,间隔60分钟发送一次,时间太短估摸着没有多少新博客产出~
抓取的页面就是这个
https://www.cnblogs.com/cate/python
import requests
import time
import re
import smtplib
from email.mime.text import MIMEText
from email.utils import formataddr
from email.header import Header
from email.mime.application import MIMEApplication
from email.mime.multipart import MIMEMultipart
# 初始化数据
def __init__(self):
self.start_url = "https://www.cnblogs.com/cate/python"
self.headers = {
"user-agent": "Mozilla/..... Safari/537.36",
"referer": "https://www.cnblogs.com/cate/python/"
}
self.pattern = r'<div class="post_item_body">[\s\S.]*?<h3><a class="titlelnk" href="(.*?)" target="_blank">(.*?)</a></h3>[\s\S.]*?<div class="post_item_foot">[\s\S.]*?<a href=".*?" class="lightblue">(.*?)</a>([\s\S.]*?)<span class="article_comment">'
self.last_blog_time = 0
self.need_send_articles = []
参数说明
涉及代码较多,我将关键点编写相应的注释
# 解析网页内容
def get_articles(self):
try:
# 正常的数据获取
res = requests.get(self.start_url,headers=self.headers,timeout=3)
except Exception as e:
print("error %s"% e)
time.sleep(3)
return self.get_articles() # 重新发起请求
html = res.text
# 这个地方的正则表达式是考验你正则功底的地方了
all = re.findall(self.pattern,html)
# 判断,如果没有新文章
last_time = self.change_time(all[0][3].strip().replace("发布于 ", ""))
if last_time <= self.last_blog_time:
print("没有新文章更新")
return
for item in all:
public_time = item[3]
if public_time:
# 格式化时间
public_time = self.change_time(public_time.strip().replace("发布于 ",""))
if(public_time > self.last_blog_time):
self.need_send_articles.append({
"url":item[0],
"title":item[1],
"author":item[2],
"time":public_time
})
# 文章获取完毕,更新时间
self.last_blog_time = last_time
##### 测试输出
print(self.need_send_articles)
print("现在文章的最后时间为",self.last_blog_time)
##### 测试输出
采用时间戳可以直接比较大小,非常方便
def change_time(self,need_change_time):
'''
# 时间的转换
:param need_change_time:
:return:返回时间戳
'''
time_array = time.strptime(need_change_time, "%Y-%m-%d %H:%M")
time_stamp = int(time.mktime(time_array))
return time_stamp
本篇博客采用的是QQ邮箱发送
关于QQ邮箱发送的一些参考文章,我给大家列一下,方便你查阅
参考文章
# https://blog.csdn.net/qiye005/article/details/80789666
# https://blog.csdn.net/Momorrine/article/details/79881251
# https://www.cnblogs.com/lovealways/p/6701662.html
# https://www.cnblogs.com/yufeihlf/p/5726619.html
因为我采用的是QQ邮箱,所以有的地方设定起来比较麻烦,发短信还花了2毛钱,建议你采用其它的邮箱,设置是一样的哦~~
你看一下上面的文章之后,就可以对邮件发送进行相应的编写了,非常简单
QQ邮箱是SSL认证的邮箱系统,因此用QQ邮箱发送邮件,需要创建一个SMTP_SSL对象,而不是SMTP对象
# 发送邮件
def send_email(self,articles):
smtp = smtplib.SMTP_SSL() # 这个地方注意
smtp.connect("smtp.qq.com",465)
smtp.login("860866679@qq.com", "授权码")
sender = '860866679@qq.com'
receivers = ['找个自己的其他邮箱@163.com'] # 接收邮件,可设置为你的QQ邮箱或者其他邮箱
# 完善发件人收件人,主题信息
message = MIMEMultipart()
message['From'] = formataddr(["博客采集器", sender])
message['To'] = formataddr(["hi,baby", ''.join(receivers)])
subject = '你有新采集到的文章清单'
message['Subject'] = Header(subject, 'utf-8')
# 正文部分
html = ""
for item in articles:
html+=("<p><a href='{url}'>{title}</a>--文章作者{author}--发布时间{time}</p>".format(title=item["title"],url=item["url"],author=item["author"],time=item["time"]))
textmessage = MIMEText('<p>新采集到的文章清单</p>' +html,
'html', 'utf-8')
message.attach(textmessage)
# 发送邮件操作
smtp.sendmail(sender, receivers, message.as_string())
smtp.quit()
当收到邮件的那一刻,你就可以感受到happy了~
最后一个步骤,如果想要持续的获取,那么找一个服务器,然后部署就行啦,有兴趣的博友,继续研究下去吧~
。
更多内容,欢迎关注 https://dwz.cn/r4lCXEuL
.
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。