python写网络爬虫

简介:

注:本文旨在练习正则表达式的简单使用方法

#!/usr/bin/evn python

# -*- coding: cp936 -*-

import re                  #导入正则表达式模块
import urllib              #导入urllib模块,读取页面与下载页面需要用到

def getHtml(url):           #定义getHtml()函数,用来获取页面源代码
    page = urllib.urlopen(url)    #urlopen()根据url来获取页面源代码
    html = page.read()           #从获取的对象中读取内容
    return html

def getImage(html):  #定义getImage()函数,用来获取图片地址并下载
    reg = r'src="(.*?\.jpg)" width'   #定义匹配图片地址的url的正则表达式
    imgre = re.compile(reg)   #对正则表达式进行编译,运行效率更高
    imagelist = imgre.findall(html)  #使用findall()查找html中匹配正则表达式的图片url
    x = 0
    for imageurl in imagelist:
        urllib.urlretrieve(imageurl,'picture_%s.jpg' % x)  #urlretrieve()下载文件
        x +=1

uri = raw_input("请输入网址: ")
r = r'^http://'
if re.match(r,uri):
    html2 = getHtml(uri)
else:
    html2 = getHtml("http://" + uri)
getImage(html2)

运行脚本test.py

抓取到的图片如下:





本文转自 baiying 51CTO博客,原文链接:http://blog.51cto.com/baiying/1169299,如需转载请自行联系原作者
目录
相关文章
|
5天前
|
数据采集 数据挖掘 Python
Python:pandas做爬虫
Python:pandas做爬虫
17 0
|
8天前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
21 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
2天前
|
数据采集 存储 XML
构建高效的Python爬虫系统
【9月更文挑战第30天】在数据驱动的时代,掌握如何快速高效地获取网络信息变得至关重要。本文将引导读者了解如何构建一个高效的Python爬虫系统,从基础概念出发,逐步深入到高级技巧和最佳实践。我们将探索如何使用Python的强大库如BeautifulSoup和Scrapy,以及如何应对反爬措施和提升爬取效率的策略。无论你是初学者还是有经验的开发者,这篇文章都将为你提供宝贵的知识和技能,帮助你在信息收集的海洋中航行得更远、更深。
14 6
|
1天前
|
数据采集 数据挖掘 数据处理
Python中实现简单爬虫并处理数据
【9月更文挑战第31天】本文将引导读者理解如何通过Python创建一个简单的网络爬虫,并展示如何处理爬取的数据。我们将讨论爬虫的基本原理、使用requests和BeautifulSoup库进行网页抓取的方法,以及如何使用pandas对数据进行清洗和分析。文章旨在为初学者提供一个易于理解的实践指南,帮助他们快速掌握网络数据抓取的基本技能。
9 3
|
5天前
|
机器学习/深度学习 数据采集 网络安全
使用Python实现深度学习模型:智能网络安全威胁检测
使用Python实现深度学习模型:智能网络安全威胁检测
21 5
|
5天前
|
数据采集 Python
天天基金数据的Python爬虫
天天基金数据的Python爬虫
19 3
|
8天前
|
数据采集 存储 JavaScript
构建您的第一个Python网络爬虫:抓取、解析与存储数据
【9月更文挑战第24天】在数字时代,数据是新的金矿。本文将引导您使用Python编写一个简单的网络爬虫,从互联网上自动抓取信息。我们将介绍如何使用requests库获取网页内容,BeautifulSoup进行HTML解析,以及如何将数据存储到文件或数据库中。无论您是数据分析师、研究人员还是对编程感兴趣的新手,这篇文章都将为您提供一个实用的入门指南。拿起键盘,让我们开始挖掘互联网的宝藏吧!
|
5天前
|
数据采集 JSON 数据格式
Python:南京地铁每日客流数据的爬虫实现
Python:南京地铁每日客流数据的爬虫实现
14 1
|
5天前
|
数据采集 Python
Python:某市公交线路站点的爬虫实现
Python:某市公交线路站点的爬虫实现
|
5天前
|
数据采集 网络协议 调度
Python爬虫策略分析4
Python爬虫策略分析4
16 1
下一篇
无影云桌面