Python爬虫:利用urlparse获取“干净”的url

简介: Python爬虫:利用urlparse获取“干净”的url

urlparse 类似处理操作系统路径的 os.path 模块,能够很好的处理网址路径

导入模块

python3

from urllib.parse import urlparse, urljoin

python2

from urlparse import urlparse, urljoin

使用测试

url = "https://cdn.itjuzi.com/images/51202bf56a442ba934fe15d34a3f2976.png?imageView2/0/w/58/q/100"
ret = urlparse(url)
print ret
# ParseResult(scheme='https', netloc='cdn.itjuzi.com', 
# path='/images/51202bf56a442ba934fe15d34a3f2976.png',
# params='', query='imageView2/0/w/58/q/100', fragment='')
link = urljoin(ret.scheme+"://"+ret.netloc, ret.path)
print link
# https://cdn.itjuzi.com/images/51202bf56a442ba934fe15d34a3f2976.png

封装成函数

def get_clean_url(url):
    """
    获取干净的url链接
    :param
        url: {str} url链接
    :return: {str} 干净的url链接
    """
    ret = urlparse(url)
    link = urljoin(ret.scheme + "://" + ret.netloc, ret.path)
    return link
print(get_clean_url(url))
# https://cdn.itjuzi.com/images/51202bf56a442ba934fe15d34a3f2976.png


相关文章
|
数据采集 Python
python 如何url解码
【4月更文挑战第14天】
460 1
|
Python
Python-URL编码和URL解码方法
Python-URL编码和URL解码方法
343 0
|
Python
Python使用quote、unquote、urlencode、urldecode对url编码解码
Python使用quote、unquote、urlencode、urldecode对url编码解码
527 0
|
Python
Python编程:URL网址链接中的中文编码与解码
Python编程:URL网址链接中的中文编码与解码
533 0
|
Python
Python编程:URL网址链接中的中文编码与解码
Python编程:URL网址链接中的中文编码与解码
403 0
|
3月前
|
数据采集 机器学习/深度学习 人工智能
Python:现代编程的首选语言
Python:现代编程的首选语言
290 102
|
3月前
|
数据采集 机器学习/深度学习 算法框架/工具
Python:现代编程的瑞士军刀
Python:现代编程的瑞士军刀
314 104
|
3月前
|
人工智能 自然语言处理 算法框架/工具
Python:现代编程的首选语言
Python:现代编程的首选语言
261 103
|
3月前
|
机器学习/深度学习 人工智能 数据挖掘
Python:现代编程的首选语言
Python:现代编程的首选语言
193 82