开发者社区大数据文章正文

小爬虫-一个网页上的.jpg图片下载下来

2014-08-07 815

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： import reimport urllibdef getHtml(html): page = urllib.urlopen(html) Html = page.

import re

import urllib

def getHtml ( html ):

page = urllib . urlopen ( html )

Html = page . read ()

return Html

def getImg ( Html ):

r = r'src="(.*?\.jpg)"' #正则r用来筛选图片的地址

img_re = re . compile ( r )

imgHtml = re . findall ( img_re , Html )

x = 0

for imght in imgHtml :

urllib . urlretrieve ( imght , " %s .jpg" % x ) #下载并保存图片

x += 1

html = getHtml ( "http://movie.douban.com/" )

getImg ( html )

文章标签：

数据采集

Python

关键词：

爬虫图片下载

爬虫网页

小金子

土木林森

数据采集存储 API

网络爬虫与数据采集：使用Python自动化获取网页数据

【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识，包括网络爬虫概念（请求网页、解析、存储数据和处理异常）和Python常用的爬虫库requests（发送HTTP请求）与BeautifulSoup（解析HTML）。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用，如获取新闻数据和商品信息。

土木林森

2522 2 2

游客762btuqu5wybw666

数据采集数据挖掘 Python

使用Python构建简单的Web爬虫：实现网页内容抓取与分析

本文将介绍如何使用Python编写一个简单的Web爬虫，实现对特定网页内容的抓取与分析。通过学习本文，读者将了解到如何利用Python的requests和Beautiful Soup库来获取网页内容，并通过示例演示如何解析HTML结构，提取所需信息。此外，我们还将讨论一些常见的爬虫挑战以及如何避免被网站封禁的策略。

游客762btuqu5wybw666

723 1 1

小白学大数据

12月前

数据采集存储 C++

Python异步爬虫（aiohttp）加速微信公众号图片下载

小白学大数据

687 0 0

小白学大数据

数据采集存储前端开发

Python爬虫自动化：批量抓取网页中的A链接

小白学大数据

726 4 5

小白学大数据

数据采集 Web App开发 JavaScript

Python爬虫解析动态网页：从渲染到数据提取

小白学大数据

1044 0 1

小白学大数据

数据采集前端开发 JavaScript

Objective-C爬虫：实现动态网页内容的抓取

小白学大数据

645 3 3

小白学大数据

数据采集 Web App开发 JavaScript

Python爬虫如何获取JavaScript动态渲染后的网页内容？

小白学大数据

1603 6 8

蚝油菜花

数据采集人工智能监控

Crawl4LLM：你的模型还在吃垃圾数据？CMU博士开源AI爬虫，自动筛选高价值网页，数据抓取质量飙升300%

Crawl4LLM 是清华大学和卡内基梅隆大学联合开发的智能爬虫系统，通过网页价值评估和优先级队列技术，显著提升大语言模型预训练数据采集效率。

蚝油菜花

846 4 5

小白学大数据

数据采集 Web App开发 JavaScript

Jsoup 爬虫：轻松搞定动态加载网页内容

小白学大数据

799 0 0

爱专研的技术土狗

数据采集前端开发 JavaScript

除了网页标题，还能用爬虫抓取哪些信息？

爬虫技术可以抓取网页上的各种信息，包括文本、图片、视频、链接、结构化数据、用户信息、价格和库存、导航菜单、CSS和JavaScript、元数据、社交媒体信息、地图和位置信息、广告信息、日历和事件信息、评论和评分、API数据等。通过Python和BeautifulSoup等工具，可以轻松实现数据抓取。但在使用爬虫时，需遵守相关法律法规，尊重网站的版权和隐私政策，合理控制请求频率，确保数据的合法性和有效性。

爱专研的技术土狗

1083 1 1

小爬虫-一个网页上的.jpg图片下载下来

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

小爬虫-一个网页上的.jpg图片下载下来

热门文章

最新文章

相关课程

相关电子书