开发者学堂课程【Python网络爬虫实战:抓包分析技术精讲】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/531/detail/7146
抓包分析技术精讲
内容介绍:
一、Fiddler安装与使用简介
二、使用Fiddler抓取HTTPS协议的网页
三、使用抓包分析获取腾讯视频评论数据
一、Fiddler安装与使用简介
Fiddler是一款使用起来非常方便的抓包工具,安装起来也很方便,但安装好之后需要进行相应配置。
抓包原理:
安装后配置不好没有数据。
配置:
1.在火狐浏览器中点击选项进入之后搜索网络
2.找到网络代理后点击设置
设置为下图所示
然后就配置完成了
二、使用Fiddler抓取HTTPS协议的网页
Fiddler如果不配置是不支持抓取https的网页的,接下来介绍如何让Fiddler支持抓取https的网页。
如果配置的时候,出现各种莫名奇妙的问题,可以参照解决:https://weibo.com/ttarticle/p/show
id=2309404103263770292716
在Fiddler中找到Tool点击Telerik Fiddler Options
把下列选项全部勾选
点击Actions中的Export Root Certificate to Desktop
点击后将证书导出到桌面
接下来需要将证书安装到浏览器中,点击浏览器选项输入证书搜索
点击查看证书中的证书机构并导入
导入之后点击确定即完成证书的导入。
重新进入就可以抓取HTTPS的数据。
使用抓包分析获取腾讯视频评论数据
目标站点: https://v.qq.com
目标数据:某部电影或电视剧的评论数据
要求:实现自动加载新评论
import urllib.request
import re
cid="6375489932584768380"
for i in range(0,100):
print(”第"+str(i+1)+”页的评论数据")
url="htpst//idec.coralgg.com/verticle/2461939412/comment/v2?calback=varticle2461939412commentv2&orinum=
10&oriorder=o&pageflag=1&cursor=”
+str(cid)+
”&scorecursor=0&oriepnum-2&reporder-o&reppageflag-1&source-9&_ =1521657428371
data=urllib.request.urlopen(url).read().decode("utf-8","ignor
e
")
pat1=' "content" : "(.*?) "'
comment=re.compile (pat1,re.s) . findall(data)
for item in comment :
print(str(item))
print("------")
pat2='"last" : " (.*?)"'
cid=re.compile(pat2,re.S).findall(data)[
0
]