2.python爬虫基础——Urllib库

简介: #python中Urllib库实战#系统学习urllib模块,从urllib基础开始。学习urlretrieve(),urlcleanup(),info(),getcode(),geturl()import urllib.
#python中Urllib库实战
#系统学习urllib模块,从urllib基础开始。学习urlretrieve(),urlcleanup(),info(),getcode(),geturl()
import urllib.request
#urlretrieve() 直接将一个网页爬到本地
urllib.request.urlretrieve("http://www.hellobi.com",filename="/Users/xubin/myapp/pythonfile/urlretrieve.html")

#urlcleanup() 将urlretrieve产生的缓存,清空
urllib.request.urlcleanup()

#info()  将一些基础的环境信息展示粗来
file=urllib.request.urlopen("http://www.hellobi.com")
print(file.info())

#getcode() 获取访问url的状态码,返货200,
print(file.getcode())

#geturl()  获取爬取得网址
print(file.geturl())

#超时设置
#爬取一个网页,需要时间。访问网页,网页长时间未响应,系统判断网页超时了,无法打开网页。
#服务器反应快设置2秒没反应未超时,如果服务器反应慢设置100秒没反应未超时,timeout超时时间为2 100
file=urllib.request.urlopen("http://www.hellobi.com",timeout=1)

for i in range(0,10):
    try:
        file=urllib.request.urlopen("http://yum.iqianyue.com",timeout=0.1)
        data=file.read()
        print(len(data))
    except Exception as e:
        print("出现异常:"+str(e))

#自动模拟http请求
#客户端如果要与服务器端进行通信,需要通过http请求进行,http请求有很多种
#主要涉及post,get两种方式,比如登录,搜索某些信息的时候会用到
#一般登录某个网站的时候,需要post请求
#一般搜索某些信息的时候,需要get请求

#在百度上搜索关键词,用python实现,需要用到请求,get  get请求URL中有?
#https://www.baidu.com/s?wd=python
import urllib.request
import re
keywd="徐彬"
keywd=urllib.request.quote(keywd)
url="http://www.baidu.com/s?wd="+keywd    #注意不能用https
req=urllib.request.Request(url)
data=urllib.request.urlopen(req).read()
fh=open("/Users/xubin/myapp/pythonfile/百度python.html","wb")
fh.write(data)
fh.close()

#post请求  比如需要登录用户  需要提交post请求
#http://passport.csdn.net/account/login    用户名:username  密码:password
import urllib.request
import urllib.parse
url="https://passport.csdn.net/account/login"
mydata=urllib.parse.urlencode({"username":"bingoxubin","password":"19900127LLBingo"}).encode("utf-8")
req=urllib.request.Request(url,mydata)
data=urllib.request.urlopen(req).read()
fh=open("/Users/xubin/myapp/pythonfile/csdn登录界面.html","wb")
fh.write(data)
fh.close()


'''
#爬取oa上的所有照片,存到OA照片.docx中  #遇到问题,目前所学,只能爬取单页的内容
import re
import urllib.request

data=urllib.request.urlopen("oa.epoint.com.cn").read()
data=data.decode("utf-8")
pat=""
mydata=re.compile(pat).findall(data)
fh=open("/Users/xubin/myapp/pythonfile/OA照片.docx","w")
for i in range(0,len(mydata)):
    fh.write(mydata[i]+"\n")
fh.close()
'''
目录
相关文章
|
13小时前
|
数据采集 XML 数据格式
Python爬虫Xpath库详解#4
XPath详解,涉及获取所有节点,子节点,父节点,属性匹配,文本获取,属性获取,按序选择等。
5 0
|
13小时前
|
程序员 调度 数据库
Python中的异步编程:asyncio库和协程的深入解析
Python中的异步编程:asyncio库和协程的深入解析
|
18小时前
|
数据采集 存储 架构师
上进计划 | Python爬虫经典实战项目——电商数据爬取!
在如今这个网购风云从不间歇的时代,购物狂欢持续不断,一年一度的“6.18年中大促”、“11.11购物节”等等成为了网购电商平台的盛宴。在买买买的同时,“如何省钱?”成为了大家最关心的问题。 比价、返利、优惠券都是消费者在网购时的刚需,但在这些“优惠”背后已产生灰色地带。
|
19小时前
|
数据采集 XML 数据处理
Python爬虫实战:利用BeautifulSoup解析网页数据
本文将介绍如何利用Python中的BeautifulSoup库来解析网页数据,帮助读者更好地开发爬虫程序,实现自动化数据采集与处理。
|
1天前
|
数据采集 数据挖掘 API
主流电商平台数据采集API接口|【Python爬虫+数据分析】采集电商平台数据信息采集
随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序,抓取电商平台的商品信息、价格、评论等数据。 当然,如果是电商企业,跨境电商企业,ERP系统搭建,我们经常需要采集的平台多,数据量大,要求数据稳定供应,有并发需求,那就需要通过接入电商API数据采集接口,封装好的数据采集接口更方便稳定高效数据采集。
|
1天前
|
SQL 数据可视化 数据挖掘
利用Python中的Pandas库进行数据分析和可视化
Python语言中的Pandas库是一个功能强大的工具,可用于数据处理、清洗、分析和可视化。本文将介绍如何利用Pandas库对数据进行处理和分析,并结合Matplotlib库进行数据可视化,帮助读者快速掌握数据分析和可视化的基本方法。
12 3
|
2天前
|
数据可视化 数据挖掘 数据处理
Python中的数据可视化——探索Matplotlib库
在当今数据驱动的时代,数据可视化扮演着至关重要的角色,而Matplotlib作为Python中最流行的数据可视化库之一,为我们提供了强大的绘图功能和灵活性。本文将深入探讨Matplotlib库的基本用法和高级特性,帮助读者更好地利用Python进行数据可视化。
8 3
|
2天前
|
数据采集 数据处理 开发者
Python爬虫技术在数据收集与分析中的应用
随着互联网信息的爆炸式增长,数据收集与分析变得愈发重要。本文将介绍Python爬虫技术在实际项目中的应用,探讨其在数据收集、清洗和分析过程中的作用,以及如何利用Python相关库提高爬虫效率。
|
3天前
|
数据采集 人工智能 数据挖掘
Python数据分析:利用Pandas库处理缺失数据的技巧
在数据分析中,数据的完整性对结果的准确性至关重要。本文将介绍如何利用Python中强大的Pandas库来处理数据中的缺失值,帮助您更好地进行数据清洗和分析。
|
3天前
|
数据可视化 数据挖掘 大数据
Python中的数据分析与可视化库Matplotlib简介
在当前大数据时代,数据分析和可视化成为了技术领域的热门话题。Python作为一门流行的编程语言,拥有丰富的数据处理和可视化库,其中Matplotlib是其中的佼佼者。本文将介绍Matplotlib库的基本概念、功能特点以及在数据分析与可视化中的应用。
15 0