python3 asyncio异步新浪微博爬虫WeiboSpider

简介: 使用python 异步io开发的新浪微博爬虫,基于aiohttp。

一些废话

之前写的用python3+urllib写的多线程微博(传送门),后面发现登录账号频繁被403,所以解决登录问题迫在眉睫。而且python的“多线程”并不那么多线程,最近因为刚需,需要稳定的微博爬虫,所以琢磨了一下使用selenium+aiohttp+redis写了一个使用asyncio的新浪爬虫。

简介

这里不多废话,大概介绍一下怎么做的。大致是:

登录

通过weibo.com登录界面登录,因为weibo.cn登录如果需要验证的话是要类似于解锁那样验证的,不好做。

而weibo.com只要输入验证码,而验证码可以通过yundama来验证,yundama也不贵,验证一次大概一分钱吧,登录成功后,在去访问weibo.cn,新浪会自行转换weibo.com的cookies到weibo.cn的cookies

然后把cookies保存在redis共享

抓取

使用了aiohttp,毕竟python的协程比多线程更给力,爬虫就是个频繁io的过程,自然用协程比多线程快了不少。

解析用的是bs4,解析后的数据放到kafka上,想存哪存哪~

talk is cheap, show you the code

这里就不说具体怎么做和使用了,README.md上有使用不走,感兴趣的看源码去吧。

github:https://github.com/zhujiajunup/WeiboSpider

目录
相关文章
|
6天前
|
数据采集 存储 JSON
Python爬虫开发:BeautifulSoup、Scrapy入门
在现代网络开发中,网络爬虫是一个非常重要的工具。它可以自动化地从网页中提取数据,并且可以用于各种用途,如数据收集、信息聚合和内容监控等。在Python中,有多个库可以用于爬虫开发,其中BeautifulSoup和Scrapy是两个非常流行的选择。本篇文章将详细介绍这两个库,并提供一个综合详细的例子,展示如何使用它们来进行网页数据爬取。
|
11天前
|
数据采集 数据可视化 算法
【优秀python案例】基于Python的豆瓣电影TOP250爬虫与可视化设计与实现
本文设计并实现了一个基于Python的豆瓣电影TOP250爬虫与可视化系统,通过获取电影评分、评论并应用词云和饼图等可视化技术,为用户提供了电影评价的直观展示和深入分析。
【优秀python案例】基于Python的豆瓣电影TOP250爬虫与可视化设计与实现
|
8天前
|
数据采集 存储 JSON
Python爬虫
【8月更文挑战第11天】
27 14
|
1天前
|
数据采集 存储 中间件
Python进行网络爬虫:Scrapy框架的实践
【8月更文挑战第17天】网络爬虫是自动化程序,用于从互联网收集信息。Python凭借其丰富的库和框架成为构建爬虫的首选语言。Scrapy作为一款流行的开源框架,简化了爬虫开发过程。本文介绍如何使用Python和Scrapy构建简单爬虫:首先安装Scrapy,接着创建新项目并定义爬虫,指定起始URL和解析逻辑。运行爬虫可将数据保存为JSON文件或存储到数据库。此外,Scrapy支持高级功能如中间件定制、分布式爬取、动态页面渲染等。在实践中需遵循最佳规范,如尊重robots.txt协议、合理设置爬取速度等。通过本文,读者将掌握Scrapy基础并了解如何高效地进行网络数据采集。
20 6
|
10天前
|
数据采集 前端开发 JavaScript
CSS与Python爬虫
【8月更文挑战第9天】
16 8
|
5天前
|
调度 数据库 UED
Python使用asyncio包实现异步编程方式
异步编程是一种编程范式,用于处理程序中需要等待异步操作完成后才能继续执行的情况。 异步编程允许程序在执行耗时的操作时不被阻塞,而是在等待操作完成时继续执行其他任务。 这对于处理诸如文件 I/O、网络请求、定时器等需要等待的操作非常有用。
|
6天前
|
数据采集 数据挖掘 数据处理
Python爬虫开发:爬取简单的网页数据
本文详细介绍了如何使用Python爬取简单的网页数据,以掘金为例,展示了从发送HTTP请求、解析HTML文档到提取和保存数据的完整过程。通过这个示例,你可以掌握基本的网页爬取技巧,为后续的数据分析打下基础。希望本文对你有所帮助。
|
6天前
|
数据采集 数据挖掘 数据处理
Python爬虫开发:爬取简单的网页数据
在数据分析中,数据的获取是第一步。随着互联网的普及,网络爬虫成为获取数据的重要手段。本文将详细介绍如何使用Python爬取简单的网页数据。
|
10天前
|
Web App开发 数据采集 C#
Python怎么使用爬虫获取网页内容
本文详细介绍了网页的基本概念及其构成,包括HTML文件的结构与作用,并演示了如何手动下载网页及使用Python编程语言实现网页内容的自动化下载。
|
11天前
|
数据采集 数据可视化 数据挖掘
【优秀python案例】基于python爬虫的深圳房价数据分析与可视化实现
本文通过Python爬虫技术从链家网站爬取深圳二手房房价数据,并进行数据清洗、分析和可视化,提供了房价走势、区域房价比较及房屋特征等信息,旨在帮助购房者更清晰地了解市场并做出明智决策。