开发者社区> 青衫无名> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

一个实现批量抓取淘女郎写真图片的爬虫

简介:
+关注继续查看

淘女郎,也被很多人称作“网络模特”,就是专门给淘宝、天猫等线上商家拍摄图片的平面模特。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

我们将用Python3和Selenium Webdriver抓取每一个美眉的个人主页内的写真图片,把每一个美眉的写真图片按照文件夹保存到本地。

先说一下网页爬取的一般步骤:

1.查看目标网站页面的源代码,找到需要爬取的内容 
2.用正则或其他如xpath/bs4的工具获取爬取内容 
3.写出完整的python代码,实现爬取过程

查看网站源码,火狐浏览器右键-查看源代码即可获取

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
代码编写的关键步骤:

①需要用到的模块

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
②解析目标网页的 Html 源码 bsObj = BeautifulSoup(driver.page_source, parser)

③用正则表达式获取美女图片
imagesUrl = re.findall('\/\/gtd\.alicdn\.com\/sns_logo.*\.jpg',driver.page_source)
④解析出个人主页地址等信息
girlsUrl = bsObj.find_all("a",{"href":re.compile("\/\/.*\.htm\?(userId=)\d*")})
⑤获取所有美女的图片url
girlsHURL = [('http:' + i['href']) for i in girlsUrl]
⑥判断路径文件夹是否创建,如果未创建则创建文件夹保存图片


def mkdir(path):

    # 判断路径是否存在

    isExists = os.path.exists(path)

    # 判断结果

    if not isExists:

        # 如果不存在则创建目录

        print("    [*]新建了文件夹", path)

        # 创建目录操作函数

        os.makedirs(path)

    else:

        # 如果目录存在则不创建,并提示目录已存在

        print('    [+]文件夹', path, '已创建')





 if __name__ == '__main__':

    if not os.path.exists(outputDir):

        os.makedirs(outputDir)

    main()

Python执行文件后抓取的效果如下图所示:

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy




原文发布时间为:2016-11-01
本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
python爬虫入门教程:爬取网页图片
python爬虫入门教程:爬取网页图片
0 0
【重写爬虫案例】百度图片、今日头条今日街拍爬取图片中遇到的问题
【重写爬虫案例】百度图片、今日头条今日街拍爬取图片中遇到的问题
0 0
python爬虫使用requests模块与urllib模块储存图片数据对比
python爬虫使用requests模块与urllib模块储存图片数据对比
0 0
知乎高颜值图片抓取到本地(Python3 爬虫.人脸检测.颜值检测)
本文代码有参考其他文章 原文链接:https://zhuanlan.zhihu.com/p/34425618
0 0
Python爬虫入门教程 25-100 知乎文章图片爬取器之一
1. 知乎文章图片爬取器之一写在前面 今天开始尝试爬取一下知乎,看一下这个网站都有什么好玩的内容可以爬取到,可能断断续续会写几篇文章,今天首先爬取最简单的,单一文章的所有回答,爬取这个没有什么难度。
762 0
Python爬虫入门教程 26-100 知乎文章图片爬取器之二
1. 知乎文章图片爬取器之二博客背景 昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中去。
2252 0
Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取
1.煎蛋网XXOO-写在前面 很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措施也很多,今天我用selenium在揍他一波。
1857 0
Python爬虫入门教程 8-100 蜂鸟网图片爬取之三
1. 蜂鸟网图片-啰嗦两句 前几天的教程内容量都比较大,今天写一个相对简单的,爬取的还是蜂鸟,依旧采用aiohttp 希望你喜欢爬取页面https://tu.fengniao.com/15/ 本篇教程还是基于学习的目的,为啥选择蜂鸟,没办法,我瞎选的。
795 0
Python爬虫入门教程 7-100 蜂鸟网图片爬取之二
1. 蜂鸟网图片-简介 今天玩点新鲜的,使用一个新库 aiohttp ,利用它提高咱爬虫的爬取速度。 安装模块常规套路 pip install aiohttp 运行之后等待,安装完毕,想要深造,那么官方文档必备 :https://aiohttp.readthedocs.io/en/stable/ 接下来就可以开始写代码了。
894 0
+关注
文章
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
Python第五讲——关于爬虫如何做js逆向的思路
立即下载
微信广告引擎与播放节奏算法实践
立即下载
海量数据场景下的淘宝搜索智能—算法及实践
立即下载