圣诞节要到了,想好晚上要和ta要去看什么电影吗?
我们就用python爬虫去猫眼电影看看Top100都有哪些电影~~
分析老规矩四步走:
1.确定真实的url;
2.发送网络请求;
3.解析我们所需数据;
4.保存数据。
1.首先我们打开猫眼电影网站Top100。可以从页面看到的信息有电影名称、上映时间、演员列表和评分。没错,这些信息我全要!
https://maoyan.com/board/4?offset=0
2.第一步,确定真实的url;首先我们F12打开开发者模式找到链接。
3.第二步,模拟浏览器发送请求。代码如下:
4.可以看到已经获取到了当前页面的全部数据,我们来输入电影名字测试一下,也可以成功获取到数据。
5.第三步解析数据,我们打开浏览器开发者模式找到我们所需数据具体位置
5.1如上图所示,我们需要电影信息需要首先找到这些信息所在位置,分析可知这些信息都在dd标签内部。十个dd标签有都在dl父标签内部。所以我们首先需要确定的是dl的位置。
5.2确定好dd的位置之后我们就可以遍历其中的电影信息。各信息位置如下:
5.3电影信息代码和运行结果如下:
6.爬虫第四步保存数据,这里我们使用的是csv来保存数据到datda.csv文件中。
来看一下运行结果。
好了。到此为止已经爬取成功第一页电影信息。
后续几页查看网页链接发现只有后面参数有变化,规律如下。
所以只需添加循环对offset参数进行遍历即可。详见源码!
为了更友好的人机交互后续对部分代码也已经进行了优化。
有兴趣了解的小伙伴微信公众号'印象python'回复'TOP100'即可查看全部源码。