开发者社区> python进阶者> 正文

一篇文章教会你用Python多线程获取小米应用商店App

简介: 一篇文章教会你用Python多线程获取小米应用商店App
+关注继续查看

【一、项目背景】

   小米应用商店给用户发现最好的安卓应用和游戏,安全可靠,可是要下载东西要一个一个的搜索太麻烦了。而已速度不是很快。

   今天用多线程爬取小米应用商店的游戏模块。快速获取。

【二、项目目标】

   目标 :应用分类 - 聊天社交  应用名称, 应用链接,显示在控制台供用户下载。

【三、涉及的库和网站】

1、网址:百度搜 - 小米应用商店,进入官网。

2、涉及的库:requests、threading 、queue 、json、time

3、软件:PyCharm

【四、项目分析】

1、确认是否为动态加载。

通过页面局部刷新, 右键查看网页源代码,搜索关键字未搜到  。断定此网站为动态加载网站,需要抓取网络数据包分析。

2、使用chrome浏览器,F12抓取网络数据包。

1)抓取返回json数据的URL地址(Headers中的Request URL)。

http://app.mi.com/categotyAllListApi?page={}&categoryId=2&pageSize=30

2)查看并分析查询参数(headers中的Query String Parameters)。

page: 1
categoryId: 2
pageSize: 30

发现只有page再变,0 1 2 3 ... ... ,这样我们就可以通过控制page的直拼接多个返回json数据的URL地址。

【五、项目实施】

1、我们定义一个class类继承object,然后定义init方法继承self,再定义一个主函数main继承self。准备导入库,url地址和请求头headers。

import requests
from threading import Thread
from queue import Queue
import json
import time
class  XiaomiSpider(object):
    def __init__(self):
      self.headers = {'User-Agent':'Mozilla/5.0'}
      self.url = 'http://app.mi.com/categotyAllListApi?page={}&categoryId=15&pageSize=30'
    def main(self):
        pass
if __name__ == '__main__':
    imageSpider =  XiaomiSpider()
    imageSpider.main()

2、定义队列,用来存放URL地址

self.url_queue = Queue()

3、URL入队列

def url_in(self):
    # 拼接多个URL地址,然后put()到队列中
    for i in range(67):
        self.url.format((str(i)))
        self.url_queue.put(self.url)

4、定义线程事件函数get_page(请求数据)

def get_page(self):
    # 先get()URL地址,发请求
    while True:
        # 当队列不为空时,获取url地址
        if not self.url_queue.empty():
            url = self.url_queue.get()
            html = requests.get(url,headers=self.headers).text
            self.parse_page(html)
        else:
            break

5、定义函数parse_page 解析json模块,提取应用名称,应用链接内容。

 # 解析函数
def parse_page(self,html):
    app_json = json.loads(html)
    for app in app_json['data']:
        # 应用名称
        name = app['displayName']
        # 应用链接
        link = 'http://app.mi.com/details?id={}'.format(app['packageName'])
        d = { '名称' : name,'链接' : link }
        print(d)

6、main方法, 定义t_list = [] 存放所有线程的列表。调用get_page多线程爬取。

def main(self):
    self.url_in()
    # 存放所有线程的列表
    t_list = []

    for i in range(10):
        t = Thread(target=self.get_page)
        t.start()
        t_list.append(t)

7、for循环遍历列表,统一回收线程。

# 统一回收线程
for p in t_list:
    p.join()

8、统计一下执行时间。

start = time.time()
spider = XiaomiSpider()
spider.main()
end = time.time()
print('执行时间:%.2f' % (end-start))

【六、效果展示】
   1、运行程序。点击运行,将游戏名称,下载链接,执行时间,显示在控制台。

   2、点击蓝色的网址可以直接去到下载页面下载应用,如下图所示。

【七、总结】

   1、不建议抓取太多数据,容易对服务器造成负载,浅尝辄止即可。

   2、Python多线程优点。使用线程可以把占据长时间的程序中的任务放到后台去处,程序的运行速度可能加快。

   3、单线程可以被抢占(中断),而已多线程就有了更多的选择。而已在其他线程正在运行时,线程可以暂时搁置(也称为睡眠)。可以释放一些珍贵的资源如内存占用。

   4、大家也可以尝试在爬取其他分类,按照操作步骤,自己尝试去做。自己实现的时候,总会有各种各样的问题,切勿眼高手低,勤动手,才可以理解的更加深刻。

   5、需要本文源码的小伙伴,后台回复“小米应用”四个字,即可获取。

看完本文有收获?请转发分享给更多的人

IT共享之家

入群请在微信后台回复【入群】

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
App自动化测试|Appium+Python自动化测试环境搭建(Windows)
App自动化测试|Appium+Python自动化测试环境搭建(Windows)
39 0
Python爬虫:爬取手机App数据,记得安装配置Charles
Python爬虫:爬取手机App数据,记得安装配置Charles
258 0
一篇清晰易懂的Python操控手机APP攻略!
一篇清晰易懂的Python操控手机APP攻略!
548 0
一篇文章教会你用Python抓取抖音app热点数据
一篇文章教会你用Python抓取抖音app热点数据
376 0
Python+Appium自动化测试(2)-appium连接真机启动app
app自动化测试的第一步,是启动被测app。appium环境搭建好后,我们就可以连接真机启动app了。环境为windows,Appium1.18.0,Android手机,被测app为今日头条app,让我们开始吧。
527 0
网站与APP抓包分析3 通过Python实现APP内容爬虫
Python,APP爬虫,题库,Fidder工具
1545 0
Python爬虫入门教程 49-100 Appium安装+操作51JOB_APP(模拟手机操作之一)手机APP爬虫
爬前准备工作 在开始安装Appium之前,你要先知道Appium是做什么的?Appium 是一个自动化测试开源工具,看到没,做测试用的,它有点类似Selenium,可以自动操作APP实现一系列的操作。
2482 0
Python爬虫入门教程 47-100 mitmproxy安装与安卓模拟器的配合使用-手机APP爬虫部分
1. 准备下载软件 介绍一款爬虫辅助工具mitmproxy ,mitmproxy 就是用于MITM的proxy,MITM中间人攻击。说白了就是服务器和客户机中间通讯多增加了一层。跟Fiddler和Charles最大的不同就是,mitmproxy可以进行二次开发,尤其可以对接python。
2429 0
Python爬虫入门教程 45-100 Charles抓取兔儿故事-下载小猪佩奇故事-手机APP爬虫部分
1. Charles抓取兔儿故事背景介绍 之前已经安装了Charles,接下来我将用两篇博客简单写一下关于Charles的使用,今天抓取一下兔儿故事里面关于小猪佩奇的故事。爬虫编写起来核心的重点是分析到链接,只要把链接分析到,剩下的就好办了。
1096 0
众筹app商城开发详细,众筹app商城系统开发(案例及方案),众筹商城系统源码功能
The new retail model refers to a model in which individuals and enterprises, relying on the Internet, upgrade and transform the production, circulation and sales process of goods by using advanced technology such as big data and artificial intelligence, and then reshape the business structure and ec
32 0
+关注
python进阶者
专注于分享Python网络爬虫、数据挖掘、数据分析、数据处理、数据可视化、大数据、人工智能、云计算、机器学习等工具资源、热点资讯、相关技术文章、学习视频和学习资料等~~~ 该社区将不定期分享各种技术干货、学习资料等。关注我们,您收获的不只是知识,还有经验与人脉!
文章
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
给运维工程师的Python实战课
立即下载
Python 脚本速查手册
立即下载
ACE 区域技术发展峰会:Flink Python Table API入门及实践
立即下载