5行代码带你爬取 “2021福布斯排行榜“,看看中国都有哪些人?

简介: 5行代码带你爬取 “2021福布斯排行榜“,看看中国都有哪些人?

由于这是一个表格型的数据,也没什么反扒措施,为了节省时间,直接上pandas库吧,我只需要5行代码就行啦!


import pandas as pd
import csv
for i in range(1,16):  # 爬取全部页
    tb = pd.read_html(f'https://www.phb123.com/renwu/fuhao/shishi_{i}.html')[0] 
    tb.to_csv(r'福布斯排行榜.csv', mode='a', encoding='utf_8_sig', index=0)


结果如下:

image.png

太尴尬了,标题行都在,那就有14个表头了,我们读取一下,去掉重复行吧!


df = pd.read_csv("福布斯排行榜.csv",header=None)
df.drop_duplicates(inplace=True)
df.to_excel("福布斯排行榜.xlsx",index=None)


直接使用drop_duplicates()函数,实现去重操作,并重新保存了一个新文件。


好了,开始我们的数据探索吧!


df1 = pd.read_excel("福布斯排行榜.xlsx",header=1)
df1


结果如下:

image.png


1. 排行榜世界前10

x = df1.head(10)
x


结果如下:

image.png


2. 上榜人数最多的前10个国家

df1.groupby("国家/地区")["名字"].count().sort_values(ascending=False)[:10].to_frame().reset_index()


结果如下:

image.png


3. 排行榜中国前10

y = df1[df1["国家/地区"] == "中国"]
y.head(10)


结果如下:

image.png

其实不管是中国前十,还是世界前十,基本都是一些咱们耳熟能详的企业。不得不说,美国佬上榜的人数确实多。


好了,了解一下就好,在心里激励一下自己吧!成不了别人,更应该加油。就当作是周末的一个鸡汤吧!


相关文章
|
Web App开发 数据采集 iOS开发
|
2月前
|
数据采集 Python
天天基金数据的Python爬虫
天天基金数据的Python爬虫
50 3
|
2月前
|
数据采集 Python
爬虫练手:某网图书畅销榜排名数据
爬虫练手:某网图书畅销榜排名数据
30 0
|
3月前
|
数据采集 数据挖掘 Python
python爬虫去哪儿网上爬取旅游景点14万条,可以做大数据分析的数据基础
本文介绍了使用Python编写的爬虫程序,成功从去哪儿网上爬取了14万条旅游景点信息,为大数据分析提供了数据基础。
170 1
|
数据采集 编解码 Python
Python爬虫实战(4) | 爬取历年中国电影票房排行榜
看了看后台,发现之前写的几篇有关爬虫实战的文章特别受欢迎,阅读量都是好几千那种 然后回头发现自己好久没写爬虫了,刚好写了个小小的爬虫 demo ,今天分享给大家
|
关系型数据库 MySQL
如何快速实现一个榜单排名的需求
可以看到使用rank()函数的时候相同的点赞数会返回相同的排名,排名会产生跳跃,最终的排名不是连续的 dense_rank()
106 0
|
数据采集 数据可视化 数据挖掘
电影榜单分析系统
电影榜单分析系统
电影榜单分析系统
|
大数据 数据库
程序人生 - 祝贺登榜《大数据领域内容榜》NO.20
程序人生 - 祝贺登榜《大数据领域内容榜》NO.20
97 0
程序人生 - 祝贺登榜《大数据领域内容榜》NO.20
|
区块链
程序人生 - 祝贺登榜《区块链领域内容榜》NO.11
程序人生 - 祝贺登榜《区块链领域内容榜》NO.11
51 0
程序人生 - 祝贺登榜《区块链领域内容榜》NO.11
|
XML 数据采集 Web App开发
学习XPath助力爬取中秋各大电商平台数据
学习XPath助力爬取中秋各大电商平台数据
122 0
学习XPath助力爬取中秋各大电商平台数据