微博爬虫程序的定时

简介: 微博爬虫程序的定时

写了几天《今日热搜》,可能部分读者感到这个公众号咋啦?改娱乐号了?不不不!主责主业还是在编代码,主打还是Python,请大家继续关注,之所以写了几天《今日热搜》,是因为代码没的写了。

今天,我把微博爬虫的定时实现的Python代码发给大家。用的很简答,一个while语句加timesleep就搞定了,具体代码如下:


import datetimeimport pandas as pd import requestsimport bs4import timeimport os#爬虫程序def crawl(t):    da=t.split('-')[0]    ti=t.split('-')[1]    #目标网址    #print(f'weibo_{da}\weibo_{ti}.csv')    url='https://s.weibo.com/top/summary'    res=requests.get(url)    response=bs4.BeautifulSoup(res.text,'lxml')    #进行筛选保存操作    aa=response.select('tr > td > a')    num=response.select('tr > td > span')    #建立一个空的DataFrame    inidata=pd.DataFrame()    preurl='https://s.weibo.com'    for i,j in zip(aa[1:],num):        data=[[i.get_text(),preurl+i['href'],j.get_text()]]        inidata=inidata.append(data)    inidata.columns=('title','link','hot_number')    #将其保存成CSV文件    inidata.to_csv(f'weibo_{da}/weibo_{ti}.csv',index=False)
#每隔一段时间运行while True:    now = datetime.datetime.now()    ts= now.strftime('%Y%m%d-%H_%M_%S')    da=ts.split('-')[0]    path=f'weibo_{da}'    isExists=os.path.exists(path)    if not isExists:        os.makedirs(path)     else:        pass    crawl(ts)    print(ts)    time.sleep(900)

运行效果:


代码里用了当前时间进行命名,最终放在了一个云服务器上进行爬取,每日自动运行。明天,给大家讲一下关于这么多文件的后续处理。Bye!

相关文章
|
数据采集 存储 JSON
使用Perl脚本编写爬虫程序的一些技术问题解答
使用Perl脚本编写爬虫程序的一些技术问题解答
|
6月前
|
数据采集 人工智能 数据可视化
Scala多线程爬虫程序的数据可视化与分析实践
Scala多线程爬虫程序的数据可视化与分析实践
|
3月前
|
数据采集 Web App开发 测试技术
如何避免反爬虫程序检测到爬虫行为?
这段内容介绍了几种避免被反爬虫程序检测的方法:通过调整请求频率并遵循网站规则来模拟自然访问;通过设置合理的User-Agent和其他请求头信息来伪装请求;利用代理IP和分布式架构来管理IP地址;以及采用Selenium等工具模拟人类的浏览行为,如随机点击和滚动页面,使爬虫行为更加逼真。这些技巧有助于降低被目标网站识别的风险。
|
2月前
|
数据采集 数据挖掘 Python
微博热搜的爬虫实现
微博热搜的爬虫实现
49 2
|
3月前
|
数据采集 存储 自然语言处理
基于网络爬虫的微博热点分析,包括文本分析和主题分析
本文介绍了一个基于Python网络爬虫的微博热点分析系统,使用requests和pandas等库收集和处理数据,结合jieba分词、LDA主题分析和snownlp情感分析技术,对微博文本进行深入分析,并利用matplotlib进行数据可视化,以洞察微博用户的关注点和情感倾向。
167 0
基于网络爬虫的微博热点分析,包括文本分析和主题分析
|
4月前
|
机器学习/深度学习 数据采集 自然语言处理
Python实现循环神经网络SimpleRNN、LSTM进行淘宝商品评论情感分析(含爬虫程序)
Python实现循环神经网络SimpleRNN、LSTM进行淘宝商品评论情感分析(含爬虫程序)
Python实现循环神经网络SimpleRNN、LSTM进行淘宝商品评论情感分析(含爬虫程序)
|
5月前
|
数据采集 XML 存储
技术经验分享:C#构造蜘蛛爬虫程序
技术经验分享:C#构造蜘蛛爬虫程序
35 0
|
6月前
|
数据采集 缓存 算法
使用Python打造爬虫程序之Python中的并发与异步IO:解锁高效数据处理之道
【4月更文挑战第19天】本文探讨了Python中的并发与异步IO,区分了并发(同时处理任务)与并行(同时执行任务)的概念。Python的多线程受限于GIL,适合IO密集型任务,而多进程适用于CPU密集型任务。异步IO通过非阻塞和回调/协程实现高效IO,Python的asyncio库提供了支持。应用场景包括Web开发和网络爬虫等。实践指南包括理解任务类型、使用asyncio、避免阻塞操作、合理设置并发度和优化性能。理解并运用这些技术能提升Python程序的效率和性能。
|
6月前
|
数据采集 XML 数据挖掘
使用Python打造爬虫程序之HTML解析大揭秘:轻松提取网页数据
【4月更文挑战第19天】本文介绍了HTML解析在爬虫技术中的重要性,并通过Python的BeautifulSoup库展示了如何解析和提取数据。文章涵盖了HTML文档结构、使用BeautifulSoup的基本方法,如`find_all()`、选择器(标签、类、ID选择器)以及提取文本、属性和链接。此外,还讨论了遍历和处理嵌套元素的技巧。
|
6月前
|
数据采集 JavaScript 前端开发
使用Python打造爬虫程序之破茧而出:Python爬虫遭遇反爬虫机制及应对策略
【4月更文挑战第19天】本文探讨了Python爬虫应对反爬虫机制的策略。常见的反爬虫机制包括User-Agent检测、IP限制、动态加载内容、验证码验证和Cookie跟踪。应对策略包括设置合理User-Agent、使用代理IP、处理动态加载内容、验证码识别及维护Cookie。此外,还提到高级策略如降低请求频率、模拟人类行为、分布式爬虫和学习网站规则。开发者需不断学习新策略,同时遵守规则和法律法规,确保爬虫的稳定性和合法性。