备案控制台

开发者社区彭世瑜的博客文章正文

Python爬虫：urlencode带参url的拼接

2022-09-02 253

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python爬虫：urlencode带参url的拼接

如果连接直接这样写，看上去很直观，不过参数替换不是很方便，而且看着不舒服

https://www.mysite.com/?sortField=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&pageIndex=3&pageSize=20

可以使用如下方式美化代码

from urllib import urlencode
url = "https://www.mysite.com/"
parameter = {
    "pageSize": 20,
    "sortField": "人工智能",
    "pageIndex": 3
}
data = urlencode(parameter)
print(url + "?" + data)
# https://www.mysite.com/?sortField=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&pageIndex=3&pageSize=20

当然可以封装成小函数，以便复用

from urllib import urlencode
def get_url(url, parameters):
    """
    拼接url与所带参数
    :param url: {str} 链接
    :param parameters: {dict} 参数
    :return: {str} 拼接后的url
    """
    data = urlencode(parameters)
    return url + "?" + data
if __name__ == '__main__':
    url = "https://www.mysite.com/"
    parameters = {
        "pageSize": 20,
        "sortField": "人工智能",
        "pageIndex": 3
    }
    print(get_url(url, parameters))
# https://www.mysite.com/?sortField=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&pageIndex=3&pageSize=20

文章标签：

Python

数据采集

关键词：

Python爬虫

爬虫python

URL拼接

URL python

Python url

码农技术君

目录

相关文章

东方睿赢

|

4天前

|

数据采集存储中间件

Scrapy，作为一款强大的Python网络爬虫框架，凭借其高效、灵活、易扩展的特性，深受开发者的喜爱

【6月更文挑战第10天】Scrapy是Python的高效爬虫框架，以其异步处理、多线程及中间件机制提升爬取效率。它提供丰富组件和API，支持灵活的数据抓取、清洗、存储，可扩展到各种数据库。通过自定义组件，Scrapy能适应动态网页和应对反爬策略，同时与数据分析库集成进行复杂分析。但需注意遵守法律法规和道德规范，以合法合规的方式进行爬虫开发。随着技术发展，Scrapy在数据收集领域将持续发挥关键作用。

东方睿赢

30 4 4

Onebound19970109110

|

7天前

|

数据采集存储 Web App开发

Python爬虫实战：从入门到精通

Python是开发网络爬虫的首选语言，因其简洁语法和丰富库如requests, BeautifulSoup, Scrapy。爬虫涉及HTTP交互、HTML解析及法律道德问题。以下是爬取豆瓣电影Top250的步骤：确定目标，分析网站，安装必要库（requests, BeautifulSoup），编写代码抓取电影名称、评分和简介，处理异常并优化，如设置请求间隔、使用代理IP和遵循Robots协议。

Onebound19970109110

13 0 0

小白学大数据

|

10天前

|

数据采集 JSON API

自动化Reddit图片收集：Python爬虫技巧

自动化Reddit图片收集：Python爬虫技巧

小白学大数据

30 5 5

奔跑的数据

|

16天前

|

数据采集存储 C++

单线程 vs 多进程：Python网络爬虫效率对比

本文探讨了Python网络爬虫中的单线程与多进程应用。单线程爬虫实现简单，但处理速度慢，无法充分利用多核CPU。而多进程爬虫通过并行处理提高效率，更适合现代多核架构。代码示例展示了如何使用代理IP实现单线程和多进程爬虫，显示了多进程在效率上的优势。实际使用时还需考虑代理稳定性和反爬策略。

奔跑的数据

42 0 0

单线程 vs 多进程：Python网络爬虫效率对比

愿天堂没有BUG（公众号同名）

|

17天前

|

数据采集存储中间件

Python高效爬虫——scrapy介绍与使用

Scrapy是一个快速且高效的网页抓取框架，用于抓取网站并从中提取结构化数据。它可用于多种用途，从数据挖掘到监控和自动化测试。相比于自己通过requests等模块开发爬虫，scrapy能极大的提高开发效率，包括且不限于以下原因： 1. 它是一个异步框架，并且能通过配置调节并发量，还可以针对域名或ip进行精准控制 2. 内置了xpath等提取器，方便提取结构化数据 3. 有爬虫中间件和下载中间件，可以轻松地添加、修改或删除请求和响应的处理逻辑，从而增强了框架的可扩展性 4. 通过管道方式存储数据，更加方便快捷的开发各种数据储存方式

愿天堂没有BUG（公众号同名）

35 2 2

ma_no_lo

|

18天前

|

数据采集 XML 前端开发

Python爬虫：BeautifulSoup

这篇内容介绍了Python中BeautifulSoup库的安装和使用。首先，通过在命令行输入`pip install bs4`进行安装，或使用清华源加速。接着讲解BeautifulSoup的基本概念，它是一个用于数据解析的工具，便于处理HTML和XML文档。与正则表达式不同，BeautifulSoup提供更方便的方式来查找和操作标签及其属性。文章详细阐述了BeautifulSoup的两个主要方法：`find`和`find_all`。`find`方法用于查找单个指定标签，可结合属性字典进行精确选择；`find_all`则返回所有匹配标签的列表。通过这些方法，可以方便地遍历和提取网页元素。

ma_no_lo

25 0 0

ma_no_lo

|

18天前

|

数据采集前端开发 JavaScript

Python爬虫入门

网络爬虫是自动抓取网页数据的程序，通过URL获取网页源代码并用正则表达式提取所需信息。反爬机制是网站为防止爬取数据设置的障碍，而反反爬是对这些机制的对策。`robots.txt`文件规定了网站可爬取的数据。基础爬虫示例使用Python的`urllib.request`模块。HTTP协议涉及请求和响应，包括状态码、头部和主体。`Requests`模块是Python中常用的HTTP库，能方便地进行GET和POST请求。POST请求常用于隐式提交表单数据，适用于需要发送复杂数据的情况。

ma_no_lo

21 1 1

1941623231718325

|

28天前

|

数据采集数据挖掘 Python

使用Python构建简单网页爬虫的技术指南

【5月更文挑战第17天】使用Python构建简单网页爬虫的教程，涉及`requests`和`BeautifulSoup4`库。首先安装所需库，然后发送HTTP GET请求获取HTML内容。利用`BeautifulSoup`解析HTML，找到目标元素，如`<h2>`标签内的新闻标题。处理相对链接，将它们转化为绝对URL。添加异常处理以应对网络问题，同时遵循网站的`robots.txt`规则。此爬虫适用于数据分析和市场研究等场景。

1941623231718325

94 7 7

小白学大数据

|

30天前

|

数据采集 Web App开发数据处理

Lua vs. Python：哪个更适合构建稳定可靠的长期运行爬虫？

Lua vs. Python：哪个更适合构建稳定可靠的长期运行爬虫？

小白学大数据

206 4 4

小白学大数据

|

30天前

|

数据采集 Web App开发 Java

Python 爬虫：Spring Boot 反爬虫的成功案例

Python 爬虫：Spring Boot 反爬虫的成功案例

小白学大数据

130 0 0

热门文章

最新文章

Java获取URL中的顶级域名domain的工具类

day19-URL+视图+模板+ORM

用IHttpModule做自己的URL重写

url传递中文的解决方案

用Apache HttpClient实现URL重定向

IIS7中的ASP.NET的URL重写配置代码

asp.net url重写相关技术问题整理

Pyramid中如何配置多种URL匹配同一个View

【shiro】关于shiro匹配URL的小用法

在ASP.NET MVC 中获取当前URL、controller、action

Python中的并发编程：多线程与多进程技术探究

python排序算法及优化学习笔记1

Python控制流语句详解

Python数据可视化实战指南

Python灰帽子网络安全实践

python数据分析和可视化【3】体检数据分析和小费数据分析

【Python 基础补充 range()】一文带你了解range()函数的作用

掌握Python中的集合推导式

探索Python集合推导式的进阶应用

深入剖析Python集合推导式的独特之处

相关课程

更多

Python Web开发基础

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

Python新手入门

Python入门

Python选择及循环结构

Python新手入门（Anolis OS）

Python网络通信程序典型应用

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考