5行代码带你爬取 “2021福布斯排行榜“,看看中国都有哪些人?

简介: 5行代码带你爬取 “2021福布斯排行榜“,看看中国都有哪些人?

由于这是一个表格型的数据,也没什么反扒措施,为了节省时间,直接上pandas库吧,我只需要5行代码就行啦!


import pandas as pd
import csv
for i in range(1,16):  # 爬取全部页
    tb = pd.read_html(f'https://www.phb123.com/renwu/fuhao/shishi_{i}.html')[0] 
    tb.to_csv(r'福布斯排行榜.csv', mode='a', encoding='utf_8_sig', index=0)


结果如下:

image.png

太尴尬了,标题行都在,那就有14个表头了,我们读取一下,去掉重复行吧!


df = pd.read_csv("福布斯排行榜.csv",header=None)
df.drop_duplicates(inplace=True)
df.to_excel("福布斯排行榜.xlsx",index=None)


直接使用drop_duplicates()函数,实现去重操作,并重新保存了一个新文件。


好了,开始我们的数据探索吧!


df1 = pd.read_excel("福布斯排行榜.xlsx",header=1)
df1


结果如下:

image.png


1. 排行榜世界前10

x = df1.head(10)
x


结果如下:

image.png


2. 上榜人数最多的前10个国家

df1.groupby("国家/地区")["名字"].count().sort_values(ascending=False)[:10].to_frame().reset_index()


结果如下:

image.png


3. 排行榜中国前10

y = df1[df1["国家/地区"] == "中国"]
y.head(10)


结果如下:

image.png

其实不管是中国前十,还是世界前十,基本都是一些咱们耳熟能详的企业。不得不说,美国佬上榜的人数确实多。


好了,了解一下就好,在心里激励一下自己吧!成不了别人,更应该加油。就当作是周末的一个鸡汤吧!


相关文章
|
7月前
|
数据采集 JSON JavaScript
Python爬虫案例:抓取猫眼电影排行榜
python爬取猫眼电影排行榜数据分析,实战。(正则表达式,xpath,beautifulsoup)【2月更文挑战第11天】
312 2
Python爬虫案例:抓取猫眼电影排行榜
|
Web App开发 数据采集 iOS开发
|
3月前
|
数据采集 Python
天天基金数据的Python爬虫
天天基金数据的Python爬虫
73 3
|
3月前
|
数据采集 Python
爬虫练手:某网图书畅销榜排名数据
爬虫练手:某网图书畅销榜排名数据
40 0
|
3月前
|
数据采集
当当网30日好评榜图书爬虫
当当网30日好评榜图书爬虫
66 0
|
4月前
|
数据采集 数据挖掘 Python
python爬虫去哪儿网上爬取旅游景点14万条,可以做大数据分析的数据基础
本文介绍了使用Python编写的爬虫程序,成功从去哪儿网上爬取了14万条旅游景点信息,为大数据分析提供了数据基础。
275 1
|
数据采集 编解码 Python
Python爬虫实战(4) | 爬取历年中国电影票房排行榜
看了看后台,发现之前写的几篇有关爬虫实战的文章特别受欢迎,阅读量都是好几千那种 然后回头发现自己好久没写爬虫了,刚好写了个小小的爬虫 demo ,今天分享给大家
|
XML 数据采集 Web App开发
学习XPath助力爬取中秋各大电商平台数据
学习XPath助力爬取中秋各大电商平台数据
126 0
学习XPath助力爬取中秋各大电商平台数据
|
数据采集 Python Web App开发
Python爬虫入门教程 23-100 石家庄链家租房数据抓取
1. 石家庄链家租房数据-写在前面 作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材。
1336 0

热门文章

最新文章