开发者社区> 天外归云> 正文

Python爬网——获取安卓手机统计数据

简介: [本文出自天外归云的博客园] 1. 在安卓网上对热门机型进行爬网,取前五十: # -*- coding: utf-8 -*- import requests,re from bs4 import BeautifulSoup def get_rank_list(): s = requests.
+关注继续查看

[本文出自天外归云的博客园]

1. 在安卓网上对热门机型进行爬网,取前五十:

# -*- coding: utf-8 -*-
import requests,re
from bs4 import BeautifulSoup

def get_rank_list():
    s = requests.Session()
    rank_list = []
    for pageNum in xrange(1,10):
        url = "http://product.hiapk.com/mobile/p"+str(pageNum)+"-s1-list.html"
        r = s.get(url)
        soup = BeautifulSoup(r.content,"lxml")
        content = soup.find(id='content')
        if len(rank_list)<51:
            for item in content.findAll('dt'):
                phone_name = item.find('a').attrs['title']
                if (not re.search('iphone', phone_name, re.IGNORECASE)) and (len(rank_list)<51):
                    rank_list.append(phone_name)
                else:
                    break
        else:
            break
    return rank_list

if __name__ == '__main__':
    for phone in get_rank_list():
        print phone

2. 在talkingdata上对安卓手机统计数据进行分类爬取:

# -*- coding: utf-8 -*-
import requests,re,sys
from bs4 import BeautifulSoup

'''
    type:
        1-按品牌排名
        2-按机型排名
        3-按分辨率排名
        4-按操作系统排名
        5-按运营商排名
        6-按网络排名
'''
def rank_crawl(type):
    s = requests.Session()
    url = 'http://mi.talkingdata.com/terminals.html?terminalType='+str(type)
    r = s.get(url)
    soup = BeautifulSoup(r.content,"lxml")
    list_content = soup.find(id='list-content')
    rank_list = []
    for item in list_content.findAll('a'):
        rank_list.append(item.attrs['title'])
    return rank_list

if __name__ == '__main__':
    rank_all = {}
    rank_all['brand'] = rank_crawl(1)
    rank_all['model'] = rank_crawl(2)
    rank_all['resolution'] = rank_crawl(3)
    rank_all['system'] = rank_crawl(4)
    rank_all['operator'] = rank_crawl(5)
    rank_all['network'] = rank_crawl(6)
    for one in rank_all[sys.argv[1]]:
        print one.encode("gbk")

 

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
【Python+可视化】Python疫情并可视化处理数据(入门案例)
【Python+可视化】Python疫情并可视化处理数据(入门案例)
9 0
Python GDAL绘制遥感影像时间序列数据走势图
本文介绍基于Python中gdal模块,对大量多时相栅格图像,批量绘制像元时间序列折线图的方法~
12 0
【Python】【MySQL】Python将JSON数据以文本形式存放到MySQL的Text类型字段中
【Python】【MySQL】Python将JSON数据以文本形式存放到MySQL的Text类型字段中
20 0
为什么用Python爬取网页数据,在检查net work中很多和教程上不一样?
今天就来说说,我们为什么会出现这个问题,以及我们应该怎么做,才能解决这个问题?
14 0
Python|一行代码获取股票数据
着金融行业的发展,金融相关的数据变得越来越有价值。股票的历史数据就是一种非常重要的时间序列数据,本文介绍一个不需要自己动手写爬虫就能够获取各个公司的股票信息的Python库——yfinance。
20 0
python爬取数据中的headers和代理IP问题
python爬取数据中的headers和代理IP问题
24 0
python爬取叮咚买菜评价数据
python爬取叮咚买菜评价数据
18 0
【python】学好数据处理的第一步:数据信息的分析(持续更新~)
【python】学好数据处理的第一步:数据信息的分析(持续更新~)
19 0
如何用Python读取Amazon的Review数据
如何用Python读取Amazon的Review数据
22 0
+关注
天外归云
测试开发工程师,目前就职于网易。
文章
问答
视频
文章排行榜
最热
最新
相关电子书
更多
15分钟打造你自己的小程序更新版
立即下载
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
相关实验场景
更多