单页面抓图并且保存的爬虫

简介:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
#这个文件的目的是抓取http://baike.baidu.com/view/2975166.htm这个百度百科上的所有图片,并且保存在电脑里。#
# -*- coding: cp936 -*-
import  os
from  bs4  import  BeautifulSoup
import  re
import  requests
url = "http://baike.baidu.com/view/2975166.htm" 
#这个网站就是python开发者那个大白胖子的百度百科#
AAA = requests.get(url)
BBB = AAA.text
#BBB是目标网站的源代码文本,注意是文本!不然BS4不识别#
soup = BeautifulSoup(BBB, "html.parser" ,from_encoding = "utf-8" )
#这一步用BS4解析,他比正则表达式效果更好一点#
links = soup.find_all( "img" )
#定位所有以img开头,并且以/img结尾的语句#
i = 1
for  each  in  links:
   print ( str (i) + "is OK!" )
   pic = requests.get(each[ "src" ])
   #注意!这里用的是each["src"],因为requests.get是询问一个网址,["src"]这是一个网址#
   f = open ( "e:/pythonaaa/a/" + str (i) + ".jpg" , "wb" )
   f.write(pic.content)
   #保存图片的内容#
   i = i + 1
f.close()


这个程序在默认的idle 3.5里好用,在pycharm 启动3.5模式的状态下却不行,提示requests.get有问题。我很奇怪。单页面抓图基本就是这么一个模式,也基本上屡试不爽。只要换换要抓的网页url,然后起名的时候别起1,换一个数字,就OK了。



 本文转自 苏幕遮618 51CTO博客,原文链接:http://blog.51cto.com/chenx1242/1730554

相关文章
|
1月前
|
数据采集 前端开发 JavaScript
Java网络爬虫实践:解析微信公众号页面的技巧
Java网络爬虫实践:解析微信公众号页面的技巧
|
9月前
|
数据采集 JavaScript Python
python爬虫示例,获取主页面链接,次级页面链接通过主页面元素获取从而避免js生成变动的值,保存数据分批次避免数据丢失
python爬虫示例,获取主页面链接,次级页面链接通过主页面元素获取从而避免js生成变动的值,保存数据分批次避免数据丢失
80 0
|
数据采集 消息中间件 大数据
爬虫识别-关键页面最小访问间隔-需求及思路|学习笔记
快速学习爬虫识别-关键页面最小访问间隔-需求及思路
114 0
|
数据采集 分布式计算 大数据
爬虫识别-关键页面最小访问间隔-效果及总结|学习笔记
快速学习爬虫识别-关键页面最小访问间隔-效果及总结
53 0
爬虫识别-关键页面最小访问间隔-效果及总结|学习笔记
|
数据采集 存储 大数据
爬虫识别-关键页面最小访问间隔-下|学习笔记
快速学习爬虫识别-关键页面最小访问间隔-下
72 0
|
数据采集 SQL 消息中间件
爬虫识别-关键页面数据读取|学习笔记
快速学习爬虫识别-关键页面数据读取
63 0
爬虫识别-关键页面数据读取|学习笔记
|
数据采集 消息中间件 前端开发
爬虫识别-关键页面访问量-需求及实现思路|学习笔记
快速学习爬虫识别-关键页面访问量-需求及实现思路
90 0
爬虫识别-关键页面访问量-需求及实现思路|学习笔记
|
数据采集 分布式计算 大数据
爬虫识别-关键页面访问量-实现代码及效果|学习笔记
快速学习爬虫识别-关键页面访问量-实现代码及效果。
76 0
|
数据采集 消息中间件 大数据
爬虫识别-关键页面的 cook 统计-需求及思路|学习笔记
快速学习爬虫识别-关键页面的 cook 统计-需求及思路
94 0
爬虫识别-关键页面的 cook 统计-需求及思路|学习笔记
|
数据采集 分布式计算 大数据
爬虫识别-关键页面的 cook 统计-代码实现及效果|学习笔记
快速学习爬虫识别-关键页面的 cook 统计-代码实现及效果
57 0