备案控制台

开发者社区大数据文章正文

python爬虫基础

2017-11-12 946

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

 
          #coding:utf-8
         
          #爬虫基础，需要两个模块urllib和re
         
          import 
          urllib,re 
         
          #获取网页源码
         
          def 
          get_html(): 
         
          page 
          = 
          urllib.urlopen(
          'http://www.baidu.com'
          ) 
         
          html 
          = 
          read(page)  
          #用read方式读取网页源代码 
         
          return 
          html 
         
          x
          =
          0 
         
          #匹配url的图片地址，然后下载   
         
          def 
          getimages(): 
         
          #编译成正则表达式对象，compile提高效率 
         
          image_re
          =
          re.
          compile
          (r
          'src="(.*?)" class='
          ) 
         
          #找到re匹配的所有字串，通过列表返回 
         
          image_list 
          = 
          re.findall(image_re,html) 
         
          for 
          image_url 
          in 
          image_list: 
         
          print 
          image_url 
         
          global 
          x 
          #全局变量，后面可以跟上一个或多个变量 
         
          #将url定位到的html下载到本地 
         
          urllib.urlretrieve(image_url,
          '/tmp/python/%s.jpg'
          %
          x)

本文转自王家东哥 51CTO博客，原文链接:http://blog.51cto.com/xiaodongge/1890232

文章标签：

Python

数据采集

关键词：

Python爬虫

爬虫python

Python基础

爬虫基础

Python爬虫基础

科技小能手

目录

相关文章

小白学大数据

|

3月前

|

数据采集 Web App开发数据安全/隐私保护

实战：Python爬虫如何模拟登录与维持会话状态

实战：Python爬虫如何模拟登录与维持会话状态

小白学大数据

344 1 1

小白学大数据

|

4月前

|

数据采集 Web App开发自然语言处理

新闻热点一目了然：Python爬虫数据可视化

新闻热点一目了然：Python爬虫数据可视化

小白学大数据

474 6 6

站大爷

|

5月前

|

数据采集数据挖掘测试技术

Go与Python爬虫实战对比：从开发效率到性能瓶颈的深度解析

本文对比了Python与Go在爬虫开发中的特点。Python凭借Scrapy等框架在开发效率和易用性上占优，适合快速开发与中小型项目；而Go凭借高并发和高性能优势，适用于大规模、长期运行的爬虫服务。文章通过代码示例和性能测试，分析了两者在并发能力、错误处理、部署维护等方面的差异，并探讨了未来融合发展的趋势。

站大爷

416 0 0

蒋星熠Jaxonic

|

3月前

|

数据采集监控数据库

Python异步编程实战：爬虫案例

🌟 蒋星熠Jaxonic，代码为舟的星际旅人。从回调地狱到async/await协程天堂，亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验，助你驾驭并发，在二进制星河中谱写极客诗篇。

蒋星熠Jaxonic

299 3 3

Python异步编程实战：爬虫案例

蓝易云

|

4月前

|

数据采集存储 XML

Python爬虫技术：从基础到实战的完整教程

最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.

蓝易云

789 19 19

小白学大数据

|

3月前

|

数据采集存储 JSON

Python爬虫常见陷阱：Ajax动态生成内容的URL去重与数据拼接

Python爬虫常见陷阱：Ajax动态生成内容的URL去重与数据拼接

小白学大数据

132 1 1

winx_19970108018

|

3月前

|

数据采集存储 JavaScript

解析Python爬虫中的Cookies和Session管理

Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储，用于标识用户；Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。

winx_19970108018

256 0 0

小白学大数据

|

4月前

|

数据采集存储 Web App开发

处理Cookie和Session：让Python爬虫保持连贯的"身份"

处理Cookie和Session：让Python爬虫保持连贯的"身份"

小白学大数据

224 0 2

小白学大数据

|

5月前

|

数据采集存储 JSON

地区电影市场分析：用Python爬虫抓取猫眼/灯塔专业版各地区票房

地区电影市场分析：用Python爬虫抓取猫眼/灯塔专业版各地区票房

小白学大数据

464 2 2

小白学大数据

|

4月前

|

数据采集 Web App开发前端开发

处理动态Token：Python爬虫应对AJAX授权请求的策略

处理动态Token：Python爬虫应对AJAX授权请求的策略

小白学大数据

335 0 0

热门文章

最新文章

[python爬虫] Selenium爬取新浪微博内容及用户信息

手把手教你搭建一个基于Java的分布式爬虫系统

爬虫抓取网站有什么技巧，要如何避免错误代码？

Python大作业——爬虫+可视化+数据分析+数据库（爬虫篇）

阿里云爬虫风险管理产品商业化，为云端流量保驾护航

利用爬虫技术自动化采集汽车之家的车型参数数据

新浪明星日志推荐系统——爬虫爬取数据（2）

python爬虫从入门到放弃（五）之正则的基本使用

python3 爬虫之爬取糗事百科

4、web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签

Python中的函数

专为编程小白设计的Python零基础入门教程，GitHub星标破W

4小时学完！15年技术大牛用247个实战案例剖析的Python教程

GitHub狂揽6700 Star，Python进阶必备的案例、技巧与工程实践

Python学习笔记

构建高效Python Web应用：异步编程与Tornado框架

Python网络安全与密码学

使用Python调用远程服务器上的依赖

Python AI 绘画

相关课程

更多

Python Web开发基础

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

推荐镜像

更多

python-release

下一篇

【DataEase】零代码数据可视化分析工具的安装部署保姆级教程