备案控制台

开发者社区大数据文章正文

python写网络爬虫

2017-11-12 816

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

#!/usr/bin/evn python

-- coding: cp936 --

import re #导入正则表达式模块
import urllib #导入urllib模块，读取页面与下载页面需要用到
def getHtml(url): #定义getHtml()函数，用来获取页面源代码
page = urllib.urlopen(url) #urlopen()根据url来获取页面源代码
html = page.read() #从获取的对象中读取内容
return html
def getImage(html): #定义getImage()函数，用来获取图片地址并下载
reg = r'src="(.*?.jpg)" width' #定义匹配图片地址的url的正则表达式
imgre = re.compile(reg) #对正则表达式进行编译，运行效率更高
imagelist = imgre.findall(html) #使用findall()查找html中匹配正则表达式的图片url
x = 0
for imageurl in imagelist:
urllib.urlretrieve(imageurl,'picture_%s.jpg' % x) #urlretrieve()下载文件
x +=1
uri = raw_input("请输入网址： ")
r = r'^http://'
if re.match(r,uri):
html2 = getHtml(uri)
else:
html2 = getHtml("http://" + uri)
getImage(html2)
运行脚本test.py

本文转自技术花妞妞 51CTO博客，原文链接:http://blog.51cto.com/xiaogongju/2061744

文章标签：

Python

数据采集

关键词：

Python爬虫

Python网络

Python网络爬虫

爬虫python

科技小能手

目录

相关文章

子午s

|

6天前

|

机器学习/深度学习人工智能算法

猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法

宠物识别系统使用Python和TensorFlow搭建卷积神经网络，基于37种常见猫狗数据集训练高精度模型，并保存为h5格式。通过Django框架搭建Web平台，用户上传宠物图片即可识别其名称，提供便捷的宠物识别服务。

子午s

115 55 55

爱专研的技术土狗

|

19天前

|

数据采集存储 XML

Python爬虫：深入探索1688关键词接口获取之道

在数字化经济中，数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台，其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术，合法合规地获取1688关键词接口，助力商家洞察市场趋势，优化营销策略。

爱专研的技术土狗

55 3 4

小白学大数据

|

1月前

|

数据采集 Web App开发监控

高效爬取B站评论：Python爬虫的最佳实践

高效爬取B站评论：Python爬虫的最佳实践

小白学大数据

213 2 3

小白学大数据

|

1月前

|

数据采集缓存定位技术

网络延迟对Python爬虫速度的影响分析

网络延迟对Python爬虫速度的影响分析

小白学大数据

50 1 1

子午s

|

15天前

|

机器学习/深度学习人工智能算法

【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别

宠物识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫（Abyssinian）', '孟加拉猫（Bengal）', '暹罗猫（Birman）', '孟买猫（Bombay）', '英国短毛猫（British Shorthair）', '埃及猫（Egyptian Mau）', '缅因猫（Maine Coon）', '波斯猫（Persian）', '布偶猫（Ragdoll）', '俄罗斯蓝猫（Russian Blue）', '暹罗猫（Siamese）', '斯芬克斯猫（Sphynx）', '美国斗牛犬

子午s

97 29 29

【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别

爱专研的技术土狗

|

4天前

|

数据采集 JSON API

如何利用Python爬虫淘宝商品详情高级版（item_get_pro）API接口及返回值解析说明

本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口（item_get_pro），获取商品的详细信息，包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容，强调了数据获取的合规性和安全性。

爱专研的技术土狗

38 13 13

爱专研的技术土狗

|

9天前

|

数据采集存储 API

利用Python爬虫获取1688关键词接口全攻略

本文介绍如何使用Python爬虫技术合法合规地获取1688关键词接口数据，包括环境准备、注册1688开发者账号、获取Access Token、构建请求URL、发送API请求、解析HTML及数据处理存储等步骤，强调遵守法律法规和合理使用爬虫技术的重要性。

爱专研的技术土狗

48 5 5

winx_19970108018

|

16天前

|

数据采集 JSON 开发者

Python爬虫京东商品详情数据接口

京东商品详情数据接口（JD.item_get）提供商品标题、价格、品牌、规格、图片等详细信息，适用于电商数据分析、竞品分析等。开发者需先注册账号、创建应用并申请接口权限，使用时需遵循相关规则，注意数据更新频率和错误处理。示例代码展示了如何通过 Python 调用此接口并处理返回的 JSON 数据。

winx_19970108018

44 5 5

mrq4nk6ni2neg

|

16天前

|

机器学习/深度学习人工智能算法

深度学习入门：用Python构建你的第一个神经网络

在人工智能的海洋中，深度学习是那艘能够带你远航的船。本文将作为你的航标，引导你搭建第一个神经网络模型，让你领略深度学习的魅力。通过简单直观的语言和实例，我们将一起探索隐藏在数据背后的模式，体验从零开始创造智能系统的快感。准备好了吗？让我们启航吧！

mrq4nk6ni2neg

42 3 3

小王老师呀

|

21天前

|

XML 数据采集数据格式

Python 爬虫必备杀器，xpath 解析 HTML

【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言，通过路径表达式选取节点或节点集。它不仅适用于 XML，也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择，如 `//p` 选择所有段落标签，`//a[@href='example.com']` 选择特定链接。在 Python 中，常用 lxml 库结合 XPath 进行网页数据抓取，支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用，如 `contains()` 用于模糊匹配。

小王老师呀

63 7 8

热门文章

最新文章

超简单的java爬虫

记爬虫小分队（四）

52. Python 爬虫（1）

使用云服务器ECS部署了自己的第一个爬虫

Python网络爬虫之爬取百度贴吧网址并保存

阿里云WAF爬虫风险管理升级，定义高效业务安全

简单爬虫-抓取博客园文章列表

Node.js制作图片下载爬虫的一般步骤

Python爬虫之Xpath学习

Python爬虫！单爬，批量爬，这都不是事！

Python 密码学实用指南（全）（2）

【python】习题 6-10周（下）

【python】习题 6-10周（中）

Python 入门指南（七）（4）

【python】习题 1-5周（中）

【python】习题 1-5周（上）

Python 入门指南（七）（2）

Python 入门指南（七）（1）

Python 入门指南（六）（4）

Python 入门指南（六）（3）

相关课程

更多

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

用Python画圣诞树

Python选择及循环结构

云端Python及基本操作

Python网络通信程序典型应用

容器的自定义网络

容器的共享网络模型

推荐镜像

更多

python-release

nodejs-release

debian-cd

下一篇