阅读本文需要5分钟
最近有个朋友老是给我发她的表情包,还得意洋洋地说, 你看:“我收集的新表情包, 你看, 这个好有意思”。
接着一场激烈的斗图战争就拉开序幕了, 最可恨的是, 我总是被嘲笑的一方。
不服气得我果断爬取某网站的表情包, 废话不多说, 上教程!!!
开发工具:
python版本:3.6
相关模块:
import re
import os
from queue import Queue
import requests
import threading
from lxml import etree
from urllib import request
环境搭建:
安装python并添加到环境变量, pip安装需要的相关模块
原理讲解:
首先找到目标网站, 然后分析网页源代码, 找到每个表情包 的 URL, 然后使用xpath方法来解析。注意,有些无用的小图标需要过滤掉, 方法是过滤图标的URL。这次为了加快下载速度, 使用了多线程下载。
代码展示:
1 获取表情包的URL:
2 通过1获取的URL进行下载表情包
3 开启线程开始下载, 注:线程越大, 下载速度越大(理论是,但是不建议太大), 此处 range(5),就是有5个获取URL的线程,同理range(8)就是有8个下载线程。
4 综上三部,来看看我们的成果, 几秒钟就下载了394个(为测试, 本狗只下载了部分)
哇哈哈哈, 请允许我在这里嘚瑟下, 因为再也不怕被嘲笑了!!
需要源代码 请回复 【表情包】 2019-5-17测试正常