5行代码带你爬取 “2021福布斯排行榜“,看看中国都有哪些人?

简介: 5行代码带你爬取 “2021福布斯排行榜“,看看中国都有哪些人?

由于这是一个表格型的数据,也没什么反扒措施,为了节省时间,直接上pandas库吧,我只需要5行代码就行啦!


import pandas as pd
import csv
for i in range(1,16):  # 爬取全部页
    tb = pd.read_html(f'https://www.phb123.com/renwu/fuhao/shishi_{i}.html')[0] 
    tb.to_csv(r'福布斯排行榜.csv', mode='a', encoding='utf_8_sig', index=0)


结果如下:

image.png

太尴尬了,标题行都在,那就有14个表头了,我们读取一下,去掉重复行吧!


df = pd.read_csv("福布斯排行榜.csv",header=None)
df.drop_duplicates(inplace=True)
df.to_excel("福布斯排行榜.xlsx",index=None)


直接使用drop_duplicates()函数,实现去重操作,并重新保存了一个新文件。


好了,开始我们的数据探索吧!


df1 = pd.read_excel("福布斯排行榜.xlsx",header=1)
df1


结果如下:

image.png


1. 排行榜世界前10

x = df1.head(10)
x


结果如下:

image.png


2. 上榜人数最多的前10个国家

df1.groupby("国家/地区")["名字"].count().sort_values(ascending=False)[:10].to_frame().reset_index()


结果如下:

image.png


3. 排行榜中国前10

y = df1[df1["国家/地区"] == "中国"]
y.head(10)


结果如下:

image.png

其实不管是中国前十,还是世界前十,基本都是一些咱们耳熟能详的企业。不得不说,美国佬上榜的人数确实多。


好了,了解一下就好,在心里激励一下自己吧!成不了别人,更应该加油。就当作是周末的一个鸡汤吧!


相关文章
|
SQL 监控 关系型数据库
【MYSQL高级】Mysql找出执行慢的SQL【慢查询日志使用与分析】
【MYSQL高级】Mysql找出执行慢的SQL【慢查询日志使用与分析】
4371 0
|
JavaScript 前端开发 Go
动态加载与异步加载 JavaScript 详解:加载远程js,加载成功后执行回调函数
动态加载与异步加载 JavaScript 详解:加载远程js,加载成功后执行回调函数
2282 2
|
SQL 存储 数据库
|
机器学习/深度学习 人工智能 自然语言处理
扩散模型背后数学太难了,啃不动?谷歌用统一视角讲明白了
扩散模型背后数学太难了,啃不动?谷歌用统一视角讲明白了
347 0
|
人工智能 并行计算 PyTorch
PAI-Blade 通用推理优化:系统优化实践(下)|学习笔记
快速学习 PAI-Blade 通用推理优化:系统优化实践(下)。
226 0
PAI-Blade 通用推理优化:系统优化实践(下)|学习笔记
|
存储 安全 网络协议
Go 语言快速入门指南:什么是 TLS 安全传输层协议
安全问题,让人既爱又恨,不管是云原生应用还是本地或其他,安全是任何应用程序的一个重要特性。但往往很多时候,安全问题被忽视,成为最后考虑的问题,这样的结果就是:一旦出现问题,就会带来灾难性结果。
Go 语言快速入门指南:什么是 TLS 安全传输层协议
|
Web App开发 存储 缓存
前端高性能开发总结
javascript在浏览器中运行的性能,可以认为是开发者所面临的最严重的可用性问题。这个问题因为javascript的阻塞性而变得复杂,事实上,多数浏览器使用单一进程来处理用户界面和js脚本执行,所以同一时刻只能做一件事。js执行过程耗时越久,浏览器等待响应的时间越长。
233 0
|
开发者 安全 前端开发
生存还是毁灭?一文读懂挖矿木马的战略战术 | 开发者必读(067期)
最炫的技术新知、最热门的大咖公开课、最有趣的开发者活动、最实用的工具干货,就在《开发者必读》!
559 0

热门文章

最新文章