即不充值影视Vip，也不去电影院，为何Python爬虫师是这种人？-阿里云开发者社区

即不充值影视Vip，也不去电影院，为何Python爬虫师是这种人？

2018-07-18 4332

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

全局流量管理 GTM，标准版 1个月

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

云解析 DNS，旗舰版 1个月

简介：

Python多线程爬取电资源的迅雷下载地址，可以再写一个迅雷下载程序进去，不过不建议这样，因为这样所占的内存太大了。

也许有些对Python爬虫并不是很了解的朋友，来此看小编的博文得不到收获，那么我先介绍一下爬虫的原理。

无数的网页地址（url）编织成一张网，称之为网络。爬虫工作时会精心选取一些URL作为起点，（Python）从这些起点出发，（学习群）抓（125240963）取并解析所抓取到的页面，将页面中所需要的信息提取出来，同时获得的新的URL插入到队列中作为下一次爬取的起点。这样不断地循环，直到获取你想得到的所有的信息。
此Python爬虫程序实现第一步，分析电影天堂网站的首页结构。
解析首页地址提取分类信息
在此函数中，第一步就是把网页的html源码下载下来，由XPath解析出其中的菜单分类信息，并创建相应的文件目录。
解析每个分类的主页
打开所有分类的首页可以看到全部有一个相同的结构，首先解析出包含资源URL的节点，然后将名称和URL提取出来。
解析资源地址保存到文件中
把提取出来的信息保存到一个文件夹中即可，为了能够提高爬虫程序的运行效率，利用了Python多线程进行抓取，在此为所有的分类主页各开辟了一个线程，极大地提升爬虫的效率。
爬取的结果
文件夹分类