爬取微博用户数据

简介: 前言查找的过程核心总结前言微博数据基本上可以说是社交圈里面最大的了。但是单纯的使用urllib,是不足以获取数据的。今天来使用Cookie的方式绕开微博权限验证这一关卡, 爬取一下数据。

前言

微博数据基本上可以说是社交圈里面最大的了。但是单纯的使用urllib,是不足以获取数据的。

今天来使用Cookie的方式绕开微博权限验证这一关卡, 爬取一下数据。

查找的过程

打开ChromeF12之后,刷新页面,真的是眼花缭乱的数据流啊,飞流直下。找了好久,发现大部分数据都是通过JavaScript脚本渲染到页面上的。

这也就是为什么单纯的使用urllib抓不到的原因了。因为这是动态页面,而Urllib则是抓取静态页面。明白了这一点,就找到了方向了。

那就是找到数据源接口。后来经过我的仔细审核,发现了类似于这样的一个URL。

http://weibo.com/p/aj/v6/mblog/mbloglist?ajwvr=6&domain=103505&is_search=0&visible=0&is_hot=1&is_tag=0&profile_ftype=1&page=2&pagebar=0&pl_name=Pl_Official_MyProfileFeed__23&id=1035051198367585&script_uri=/kqdpku&feed_type=0&pre_page=2&domain_op=103505&__rnd=1495367966928

接口数据源

然后发现服务器端返回的数据内容是JSON格式的。大致内容如下;
关联页码的服务器端返回的数据

然后这姑且算是找到一个人的数据了吧。那么问题接着来了,如果我想看其他人的页面怎么办呢?

思路有如下两个:

  • 一是按照刚才的方法,一个个的去查找。(费时费力,不赞同)
  • 二是走捷径,对比URL,我们会发现一个domain的参数,而对应的值就是目标博主的ID。
    比如我要看刘强东的主页,http://weibo.com/p/1003061866402485/home?from=page_100306&mod=TAB&is_hot=1#place
    里面的from参数的page值后面的数据就是我们需要的domain值了。拿过来就可以直接使用。

核心

经过了刚才的各种铺垫,下面直接上代码。体验一把吧。

# coding: utf8

# @Author: 郭 璞
# @File: login.py                                                                 
# @Time: 2017/5/21                                   
# @Contact: 1064319632@qq.com
# @blog: http://blog.csdn.net/marksinoberg
# @Description: 新浪微博登录测试

import requests
import json
from bs4 import BeautifulSoup
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36',
    'Host': 'weibo.com'
}

Cookies = {
    "Cookie": "SCF=Asl3BNSxfmhmaP2cIVfnvOp-mmfHwOPYfdoMZIz6y4WtkH4xK0jdB0Hr0Tll4RzJ0xUHIi5HOLBAjEASrqSGDiQ.; SUB=_2A250JQA2DeThGeNI41UX8ifJyziIHXVXU3b-rDV8PUNbmtBeLWbGkW9yh-AUBKZFFYCHZ2zA0zH1I-l4dg..; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W5yNOfs44nTEDRpARDUs7Yl5JpX5K2hUgL.Fo-c1hMceo.fehB2dJLoIcBLxK-LBo5L12qLxK-LBo5L12qLxK-LBo5L12qLxK-LBo5L12qLxK-LBo5L12qpi--fi-z7iKysi--fi-z7iKysi--Ni-z0i-8si--Ni-zpi-z0i--fiKLFi-2Ei--fi-82iK.7; SUHB=0HTxO_F0SbtSsP; ALF=1526899685; SSOLoginState=1495363686; YF-V5-G0=8d4d030c65d0ecae1543b50b93b47f0c; _s_tentry=my.sina.com.cn; Apache=9206065364153.127.1495363942807; SINAGLOBAL=9206065364153.127.1495363942807; ULV=1495363942825:1:1:1:9206065364153.127.1495363942807:; YF-Page-G0=fc0a6021b784ae1aaff2d0aa4c9d1f17; YF-Ugrow-G0=ea90f703b7694b74b62d38420b5273df; wvr=6; wb_publish_fist100_5687629504=1; UOR=blog.csdn.net,widget.weibo.com,www.sina.com.cn"
}


# 刘强东
url = 'http://weibo.com/p/aj/v6/mblog/mbloglist?ajwvr=6&domain=103505&is_search=0&visible=0&is_hot=1&is_tag=0&profile_ftype=1&page=2&pagebar=0&pl_name=Pl_Official_MyProfileFeed__23&id=1035051198367585&script_uri=/kqdpku&feed_type=0&pre_page=1&domain_op=100306&__rnd=1495367966928'
response = requests.get(url=url, headers=headers, cookies=Cookies)

data = json.loads(response.text)

result = data['data']

soup = BeautifulSoup(result, 'html.parser')

blogs = soup.find_all('div', {'class': 'WB_detail'})
for blog in blogs[0:8]:
    print("微博发文:", blog.find_all('div')[2].get_text())
    # 为了减少控制台内容输出,这里注释掉即可
    # print("配图:", blog.find_all('div', {'class': 'media_box'}))
    print('======='*36)

# WB_innerwrap

运行结果如何呢?

C:\Users\biao\Desktop\network\env\Scripts\python.exe C:/Users/biao/Desktop/network/code/sina/login.py
微博发文: 
                                                                                                    骗人,南通没有普洱!//@普洱玫瑰汤:啊哈,我也是南通人呢。                                            
===========================================================
微博发文: 
                                                                                                    回复@流氓无产者刘爷:即使那样死了,无耻的看客们还要说不过瘾哩。//@流氓无产者刘爷:不仅不应该收费,还应该累死饿死是不?还应该绑着炸弹跟恐怖分子对炸去是不?还应该拎着菜刀跟汉奸对砍去是不?说话之前掂量掂量自己,考虑考虑别人不行么?                                            
===========================================================
微博发文: 
                                                                                                    给队里多买点。                                            
===========================================================
微博发文: 
                                                                                                    聪明。//@遇见那兵荒马乱:还是那天红场阅兵那天您阅的未名湖吗?                                            
===========================================================
微博发文: 
                                                                                                    你这眼神啊!//@鐵匠--孫:上面怎么还有肉渣渣,还是馋嘴                                            
===========================================================
微博发文: 
                                                                                                    这哥俩才超过五百。                                            
===========================================================
微博发文: 
                                                                                                    顺也是一种孝,但不可机械教条。//@夜半有人私语时:以前只知道“以顺行孝”,原来也可以“以谏行孝”。谢谢孔老师。                                            
===========================================================
微博发文: 
                                                                                                    美梦与歹命。我回答了 @NEW七七 的问题,问题价值¥433.00,大家快来花1元围观~ O微博问答 ​​​​                                            
===========================================================
Process finished with exit code 0

如此,微博数据也能搞到手了。

总结

使用Cookie绕开登录选项,确实是一个比较好的捷径。但是由于时效的问题,治标不治本。

从上面的结果也可以看出,这里简单的打印出了前几条数据内容。也算是抛砖引玉了。而且对比网页源码之后,我发现了更多好玩的数据源。图片,短视频,都会是很好的素材。

然后对XX进行文本分析,做成词云啊,或者做一下社交网络分析啊等等。

今天其实真的是太闲了,所以才搞了一下微博数据的爬取。文章内容,排版都挺失败的。(⊙﹏⊙)b

目录
相关文章
|
5月前
|
数据采集 存储 JSON
豆瓣电影信息爬虫实战-2024年6月
使用Python和`requests`、`PyQuery`库,本文教程教你如何编写一个豆瓣电影列表页面的爬虫,抓取电影标题、导演、主演等信息。首先确保安装所需库,然后了解技术栈,包括Python、Requests、PyQuery和正则表达式。爬虫逻辑包括发送HTTP请求、解析HTML、提取数据。代码示例展示了如何实现这一过程,最后运行爬虫并将结果保存为JSON文件。注意遵守网站使用条款和应对反爬策略。
143 2
|
5月前
|
JSON 数据格式 网络架构
技术心得记录:快手的小视频爬取
技术心得记录:快手的小视频爬取
|
6月前
|
JSON 前端开发 Java
基于Java爬取微博数据(三) 微博主页用户数据
【5月更文挑战第13天】基于Java爬取微博数据(三) 微博主页用户数据
|
6月前
|
数据采集 前端开发 数据挖掘
Fizzler库+C#:从微博抓取热点的最简单方法
本文介绍如何使用Fizzler库和C#构建微博热点信息爬虫。通过Fizzler的CSS选择器定位关键信息,提取热点标题和排名,实现微博内容的智能挖掘。示例代码展示单线程和多线程采集方法,并涉及代理IP使用。
Fizzler库+C#:从微博抓取热点的最简单方法
|
6月前
爬取电影数据
爬取电影数据
60 0
|
数据采集 API 数据安全/隐私保护
利用RoboBrowser库和爬虫代理实现微博视频的爬取
微博是一个社交媒体平台,用户可以在上面发布和分享各种内容,包括文字、图片、音频和视频。微博视频是微博上的一种重要的内容形式,有时我们可能想要下载微博视频到本地,以便于观看或分析。但是,微博视频并没有提供直接的下载链接,而是通过一些加密和混淆的方式,将视频嵌入到网页中。因此,如果我们想要爬取微博视频,就需要使用一些特殊的技术和工具。
217 0
利用RoboBrowser库和爬虫代理实现微博视频的爬取
|
数据采集 XML 存储
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据
这个案例展示了如何使用 Scrapy 框架构建一个简单的爬虫项目,从网页中提取数据并保存到文件中。通过配置、编写爬虫代码、定义数据模型和数据处理管道,你可以灵活地构建各种爬虫应用。
311 0
构建一个简单的电影信息爬虫项目:使用Scrapy从豆瓣电影网站爬取数据
|
存储 数据采集 关系型数据库
python爬虫爬取房源信息
写这篇博客的原因是在我爬取房产这类数据信息的时候,发现csdn中好多博主写的关于此类的文章代码已经不适用,因为好多房产网站代码已经更改,使用老的代码明显爬取不到所需要的房产信息。......
243 1
python爬虫爬取房源信息
|
存储 数据采集
爬虫实例——爬取豆瓣网 top250 电影的信息
本节通过一个具体的实例来看下编写爬虫的具体过程。以爬取豆瓣网 top250 电影的信息为例,top250 电影的网址为:https://movie.douban.com/top250。在浏览器的地址栏里输入 https://movie.douban.com/top250,我们会看到如下内容:
253 0