备案控制台

开发者社区彭世瑜的博客文章正文

Python爬虫：利用urlparse获取“干净”的url

2022-09-02 166

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python爬虫：利用urlparse获取“干净”的url

urlparse 类似处理操作系统路径的 os.path 模块，能够很好的处理网址路径

导入模块

python3

from urllib.parse import urlparse, urljoin

python2

from urlparse import urlparse, urljoin

使用测试

url = "https://cdn.itjuzi.com/images/51202bf56a442ba934fe15d34a3f2976.png?imageView2/0/w/58/q/100"
ret = urlparse(url)
print ret
# ParseResult(scheme='https', netloc='cdn.itjuzi.com', 
# path='/images/51202bf56a442ba934fe15d34a3f2976.png',
# params='', query='imageView2/0/w/58/q/100', fragment='')
link = urljoin(ret.scheme+"://"+ret.netloc, ret.path)
print link
# https://cdn.itjuzi.com/images/51202bf56a442ba934fe15d34a3f2976.png

封装成函数

def get_clean_url(url):
    """
    获取干净的url链接
    :param
        url: {str} url链接
    :return: {str} 干净的url链接
    """
    ret = urlparse(url)
    link = urljoin(ret.scheme + "://" + ret.netloc, ret.path)
    return link
print(get_clean_url(url))
# https://cdn.itjuzi.com/images/51202bf56a442ba934fe15d34a3f2976.png

文章标签：

CDN

Python

数据采集

关键词：

Python爬虫

爬虫python

爬虫URL

Python url

URL python

码农技术君

目录

相关文章

爱专研的技术土狗

|

2月前

|

数据采集存储 XML

Python爬虫：深入探索1688关键词接口获取之道

在数字化经济中，数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台，其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术，合法合规地获取1688关键词接口，助力商家洞察市场趋势，优化营销策略。

爱专研的技术土狗

128 3 4

小白学大数据

|

3月前

|

数据采集 Web App开发监控

高效爬取B站评论：Python爬虫的最佳实践

高效爬取B站评论：Python爬虫的最佳实践

小白学大数据

588 2 3

小白学大数据

|

3月前

|

数据采集缓存定位技术

网络延迟对Python爬虫速度的影响分析

网络延迟对Python爬虫速度的影响分析

小白学大数据

83 1 1

小白学大数据

|

2天前

|

数据采集存储数据挖掘

深入剖析 Python 爬虫：淘宝商品详情数据抓取

深入剖析 Python 爬虫：淘宝商品详情数据抓取

小白学大数据

33 3 3

小白学大数据

|

5天前

|

存储数据采集数据库

Python爬虫实战：股票分时数据抓取与存储

Python爬虫实战：股票分时数据抓取与存储

小白学大数据

94 5 5

winx_19970108018

|

1月前

|

数据采集 JSON 数据格式

Python爬虫：京东商品评论内容

京东商品评论接口为商家和消费者提供了重要工具。商家可分析评论优化产品，消费者则依赖评论做出购买决策。该接口通过HTTP请求获取评论内容、时间、点赞数等数据，支持分页和筛选好评、中评、差评。Python示例代码展示了如何调用接口并处理返回的JSON数据。应用场景包括产品优化、消费者决策辅助、市场竞争分析及舆情监测。

winx_19970108018

102 5 5

API小知识

|

1月前

|

数据采集供应链 API

Python爬虫与1688图片搜索API接口：深度解析与显著收益

在电子商务领域，数据是驱动业务决策的核心。阿里巴巴旗下的1688平台作为全球领先的B2B市场，提供了丰富的API接口，特别是图片搜索API（`item_search_img`），允许开发者通过上传图片搜索相似商品。本文介绍如何结合Python爬虫技术高效利用该接口，提升搜索效率和用户体验，助力企业实现自动化商品搜索、库存管理优化、竞品监控与定价策略调整等，显著提高运营效率和市场竞争力。

API小知识

92 3 3

小白学大数据

|

2月前

|

数据采集存储缓存

如何使用缓存技术提升Python爬虫效率

如何使用缓存技术提升Python爬虫效率

小白学大数据

70 2 2

爱专研的技术土狗

|

2月前

|

数据采集 JSON API

如何利用Python爬虫淘宝商品详情高级版（item_get_pro）API接口及返回值解析说明

本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口（item_get_pro），获取商品的详细信息，包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容，强调了数据获取的合规性和安全性。

爱专研的技术土狗

138 13 13

小白学大数据

|

2月前

|

数据采集 Web App开发监控

Python爬虫：爱奇艺榜单数据的实时监控

Python爬虫：爱奇艺榜单数据的实时监控

小白学大数据

97 3 3

热门文章

最新文章

Social Media Agent：告别文案焦虑！AI自动生成高转化帖子，输入URL快速生成爆款文案

Python 中调用 DeepSeek-R1 API的方法介绍，图文教程

金融波动率的多模型建模研究：GARCH族与HAR模型的Python实现与对比分析

【新手必看】PyCharm2025 免费下载安装配置教程+Python环境搭建、图文并茂全副武装学起来才嗖嗖的快,绝对最详细!

Chainlit：一个开源的异步Python框架，快速构建生产级对话式 AI 应用

[oeasy]python062_在python中完成输入和输出_input_print

【03】做一个精美的打飞机小游戏，规划游戏项目目录-分门别类所有的资源-库-类-逻辑-打包为可玩的exe-练习python打包为可执行exe-优雅草卓伊凡-持续更新-分享源代码和游戏包供游玩-1.0.2版本

【01】整体试验思路，如何在有UID的情况下获得用户手机号信息，python开发之理论研究试验，如何通过抖音视频下方的用户的UID获得抖音用户的手机号-本系列文章仅供学习研究-禁止用于任何商业用途-仅供学习交流-优雅草卓伊凡

如何在Python中高效实现CSV到JSON的数据转换

Python GIL（全局解释器锁）机制对多线程性能影响的深度分析

深入剖析 Python 爬虫：淘宝商品详情数据抓取

Java爬虫获取微店快递费用item_fee API接口数据实现

Java爬虫获取微店店铺所有商品API接口设计与实现

Python爬虫实战：股票分时数据抓取与存储

SurfGen爬虫：解析HTML与提取关键数据

深度解析：使用ChromeDriver和webdriver_manager实现无头浏览器爬虫

深入理解Docker：为你的爬虫项目提供隔离环境

Python爬虫：京东商品评论内容

jsdom爬虫程序中eBay主页内容爬取的异步处理

Python爬虫与1688图片搜索API接口：深度解析与显著收益

相关课程

更多

Python语言基础 - 语法入门

Python Web开发基础

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

用Python画圣诞树

Python选择及循环结构

云端Python及基本操作

Python网络通信程序典型应用

Python新手入门（Anolis OS）

Python新手入门

推荐镜像

更多

python-release

nodejs-release

debian-cd

下一篇

阿里云无影云电脑免费试用，最长可试用3个月