【python实操】年轻人,想会写抢购脚本和爬虫?试试多线程吧(附爬虫完整源代码)

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 【python实操】年轻人,想会写抢购脚本和爬虫?试试多线程吧(附爬虫完整源代码)
  • 作者:20岁爱吃必胜客(坤制作人),近十年开发经验, 跨域学习者,目前于海外某世界知名高校就读计算机相关专业。
  • 荣誉:阿里云博客专家认证、腾讯开发者社区优质创作者,在CTF省赛校赛多次取得好成绩。
  • 跨领域学习,喜欢摄影、弹吉他、咏春拳。文章深入浅出、语言风趣;爱吃必胜客社区创立者,旨在“发现美 欣赏美




⭐️前言

Python 多线程(multi-threading)是一种利用多个线程同时执行任务的技术,它旨在提高程序的运行效率和性能。

⭐️分析

Python 中多线程的实现主要基于 threading 模块。在该模块中,我们可以通过创建一个 Thread 对象来启动一个新线程,并通过 start() 方法来启动该线程的执行。与此相应的,我们还需要定义一个所谓的“线程函数”(Thread Function),即我们希望新线程执行的函数。通常情况下,该函数的形式为:

def thread_func(args):
    # 线程要执行的操作

其中 args 是线程函数接收的参数,而具体的线程操作就在函数体内实现了。

🌟 其他模块

除了 threading 模块外,Python 还提供了一些相关的库和方法,如 Queue、Lock 和 RLock等,可以对多线程编程进行更深入和细节的控制和处理

🌟 注意GIL

需要注意的是,由于 Python 的全局解释器锁(Global Interpreter Lock, GIL)的存在,使得在使用多线程时,无法真正实现并行计算,只能通过线程间的切换来模拟多个线程同时运行。因此,在考虑使用多线程技术来优化程序性能时,需要详细评估程序结构和运行环境,以便选择合适的算法和工具进行优化

⭐️ 多线程用来做什么

Python 多线程常用于以下几种情况:

  1. 网络编程:Python 中的 socket 模块支持多线程,可以实现多个客户端与服务器的并发通信
  2. IO 密集型任务:对于 CPU 耗时相对较短,但需要频繁读写数据的任务,如文件操作、爬虫等,使用多线程可以提高程序的运行效率。
  3. 并发控制:利用多线程可以实现对共享资源的并发访问和管理,如访问数据库等。
  4. 可视化界面:在 Python 的 GUI 编程中,通过多线程技术能够让用户界面保持响应,使得程序更加友好和易用

需要注意的是,在选择使用多线程时,需要仔细评估程序结构和运行环境,避免出现线程安全问题和性能瓶颈。

🌟 多线程应用示例

以下是两个常见的 Python 多线程应用示例:

  1. 多线程下载文件

该示例演示如何使用 Python 多线程技术下载多个文件,从而加快下载速度。在该示例中,我们使用 threading 模块创建多个线程每个线程负责下载一个文件

import requests
import threading
def download(url, filename):
    # 下载文件
    content = requests.get(url).content
    with open(filename, "wb") as f:
        f.write(content)
if __name__ == '__main__':
    urls = ["http://example.com/file1", "http://example.com/file2", "http://example.com/file3"]
    filenames = ["file1.txt", "file2.txt", "file3.txt"]
    threads = []
    for i in range(3):
        t = threading.Thread(target=download, args=(urls[i], filenames[i]))
        threads.append(t)
    # 启动多线程
    for t in threads:
        t.start()
    # 等待所有线程完成
    for t in threads:
        t.join()
  1. 解析 HTML 页面

该示例演示如何使用 Python 多线程技术加快解析 HTML 页面的速度。在该示例中,我们使用 threading 模块创建多个线程,每个线程负责下载并解析一个页面,最后将结果合并为一个列表。

import requests
import threading
from bs4 import BeautifulSoup
def parse_page(url):
    # 下载页面
    content = requests.get(url).content
    soup = BeautifulSoup(content, "html.parser")
    # 解析页面
    results = soup.find_all("div", class_="result")
    return results
if __name__ == '__main__':
    urls = ["http://example.com/page1", "http://example.com/page2", "http://example.com/page3"]
    threads = []
    for url in urls:
        t = threading.Thread(target=parse_page, args=(url,))
        threads.append(t)
    # 启动多线程
    for t in threads:
        t.start()
    # 合并结果
    results = []
    for t in threads:
        results += t.join()

需要注意的是,在选择使用多线程时,需要仔细评估程序结构和运行环境

实例爬虫-完整源代码

以下是一个简单的爬虫示例,使用Python中的requestsBeautifulSoup库来获取网页内容并提取其中的信息。这个爬虫程序可以从豆瓣电影Top250页面中提取电影名称、评分、导演和演员等信息,并将其保存到一个CSV文件中。

import requests
from bs4 import BeautifulSoup
import csv
# 定义要爬取的页面URL
url = 'https://movie.douban.com/top250'
# 发送HTTP请求获取页面内容
response = requests.get(url)
# 使用BeautifulSoup解析HTML页面
soup = BeautifulSoup(response.text, 'html.parser')
# 遍历每个电影条目,并提取电影信息
movies = []
for li in soup.find_all('li', class_='item'):
    # 获取电影名称
    name = li.find('span', class_='title').text
    # 获取电影评分
    rating = li.find('span', class_='rating_num').text
    # 获取电影导演和演员
    info = li.find('div', class_='bd').p.text.strip().split('\n')[0]
    # 提取导演和演员信息
    director = info.split(':')[0]
    actors = [x.strip() for x in info.split(':')[1].split('/')]
    # 将电影信息添加到列表中
    movies.append([name, rating, director, actors])
# 将电影信息保存到CSV文件中
with open('douban_movies.csv', 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['电影名称', '评分', '导演', '演员'])
    writer.writerows(movies)
print('豆瓣电影Top250信息已保存到douban_movies.csv文件中。')

这个爬虫程序首先使用requests库发送HTTP请求并获取到网页的HTML内容然后使用BeautifulSoup库解析HTML页面然后遍历每个电影条目,并提取电影名称、评分、导演和演员等信息最后把提取的电影信息保存到CSV文件中。

需要注意的是,爬虫程序必须遵守网站的爬虫规定,不得进行未经授权的数据采集或过度频繁的访问。违反网站的爬虫规定可能会导致IP封锁或其他法律问题。建议在进行爬虫程序之前仔细阅读目标网

import requests
from lxml import etree
import csv
import time
class DoubanSpider(object):
    def __init__(self):
        self.header = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
        }
    # 发请求 获响应
    def get_source(self, com_url):
        res = requests.get(com_url, headers=self.header)
        html = res.content.decode('utf-8')
        return html
    # 解析数据
    def parsed_source(self, html):
        tree = etree.HTML(html)
        divs = tree.xpath('//div[@class="info"]')
        # print(divs)
        lis_data = []
        for div in divs:
            d = {}
            # 标题
            title = div.xpath('./div[@class="hd"]/a/span/text()')[0].strip()
            # print(title)
            # 评分
            score = div.xpath('./div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()')[0].strip()
            # print(score)
            # 评价人数
            evaluate = div.xpath('./div[@class="bd"]/div[@class="star"]/span[last()]/text()')[0].strip()
            # print(evaluate)
            # 引用
            quote = div.xpath('./div[@class="bd"]/p[@class="quote"]/span/text()')
            if quote:
                quote = quote[0]
            else:
                quote = ''
            # 电影链接url
            link_url = div.xpath('./div[@class="hd"]/a/@href')[0].strip()
            # print(link_url)
            # 根据key值提取数据
            d['title'] = title
            d['score'] = score
            d['evaluate'] = evaluate
            d['quote'] = quote
            d['link_url'] = link_url
            lis_data.append(d)
        # print(lis_data)
        return lis_data
    # 保存数据
    def save_source(self, move_data, header):
        with open('movie_data.csv', 'a', encoding='utf-8-sig', newline='') as f:
            w = csv.DictWriter(f, header)
            # 写入表头
            w.writeheader()
            # writerows 一次性写入多行数据
            w.writerows(move_data)
    # 主函数
    def main(self):
        start = int(input('输入要爬取的起始页:'))
        end = int(input('输入要爬取的末尾页:'))
        for i in range(start, end+1):
            time.sleep(2)
            page = (i-1) * 25
            com_url = 'https://movie.douban.com/top250?start=' + str(page)
            h = self.get_source(com_url)
            # print(h)
            print('爬虫机器人正在爬取第%d页' % i)
            move_data = self.parsed_source(h)
            # 设置表头
            header = ['title', 'score', 'evaluate', 'quote', 'link_url']
            # print(move_data)
            self.save_source(move_data, header)
if __name__ == '__main__':
    # 实例化对象
    Spider = DoubanSpider()
    # 主函数调用
    Spider.main()

🌟 我的故事

python学习之路任重而道远,要想学完说容易也容易,说难也难。 很多人说python最好学了,但扪心自问,你会用python做什么了?

刚开始在大学学习c语言,写一个飞行棋的小游戏,用dos界面来做,真是出力不讨好。 地图要自己一点一点画出来,就像这样:

================
|       |
|       |
|===============
从此讨厌编程,不想继续学下去。每次作业应付。
算法考试,数据结构考试随便背代码,只求通过。
最后呢?我学会变成了吗?只能对一些概念侃侃而谈,但真的会几行代码,能写出实用工具吗?
答案变得模糊。
所以我们要从现在开始,学好python,不要再糊弄下去!!!

相关文章
|
7天前
|
存储 人工智能 运维
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
|
4天前
|
人工智能 Python
【02】做一个精美的打飞机小游戏,python开发小游戏-鹰击长空—优雅草央千澈-持续更新-分享源代码和游戏包供游玩-记录完整开发过程-用做好的素材来完善鹰击长空1.0.1版本
【02】做一个精美的打飞机小游戏,python开发小游戏-鹰击长空—优雅草央千澈-持续更新-分享源代码和游戏包供游玩-记录完整开发过程-用做好的素材来完善鹰击长空1.0.1版本
|
19天前
|
Python
自动化微信朋友圈:Python脚本实现自动发布动态
本文介绍如何使用Python脚本自动化发布微信朋友圈动态,节省手动输入的时间。主要依赖`pyautogui`、`time`、`pyperclip`等库,通过模拟鼠标和键盘操作实现自动发布。代码涵盖打开微信、定位朋友圈、准备输入框、模拟打字等功能。虽然该方法能提高效率,但需注意可能违反微信使用条款,存在风险。定期更新脚本以适应微信界面变化也很重要。
128 61
|
10天前
|
数据采集 供应链 API
Python爬虫与1688图片搜索API接口:深度解析与显著收益
在电子商务领域,数据是驱动业务决策的核心。阿里巴巴旗下的1688平台作为全球领先的B2B市场,提供了丰富的API接口,特别是图片搜索API(`item_search_img`),允许开发者通过上传图片搜索相似商品。本文介绍如何结合Python爬虫技术高效利用该接口,提升搜索效率和用户体验,助力企业实现自动化商品搜索、库存管理优化、竞品监控与定价策略调整等,显著提高运营效率和市场竞争力。
39 3
|
21天前
|
数据采集 存储 缓存
如何使用缓存技术提升Python爬虫效率
如何使用缓存技术提升Python爬虫效率
|
22天前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
1月前
|
数据采集 JSON API
如何利用Python爬虫淘宝商品详情高级版(item_get_pro)API接口及返回值解析说明
本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口(item_get_pro),获取商品的详细信息,包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容,强调了数据获取的合规性和安全性。
|
29天前
|
数据挖掘 vr&ar C++
让UE自动运行Python脚本:实现与实例解析
本文介绍如何配置Unreal Engine(UE)以自动运行Python脚本,提高开发效率。通过安装Python、配置UE环境及使用第三方插件,实现Python与UE的集成。结合蓝图和C++示例,展示自动化任务处理、关卡生成及数据分析等应用场景。
113 5
|
1月前
|
数据采集 存储 API
利用Python爬虫获取1688关键词接口全攻略
本文介绍如何使用Python爬虫技术合法合规地获取1688关键词接口数据,包括环境准备、注册1688开发者账号、获取Access Token、构建请求URL、发送API请求、解析HTML及数据处理存储等步骤,强调遵守法律法规和合理使用爬虫技术的重要性。
|
2月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
139 6