本期,我们来认识一个做爬虫的新工具,pandas也可以做爬虫,没错,你没有听错,就是python 中经常用来做数据分析处理的pandas!pandas也可以做爬虫!!!下面,我就来用pandas实现一个爬虫的例子。
爬取2020年QS世界大学综合排名,pandas爬虫适合html语法结构中的table表结构。具体语法为:read_html语句。它的用法为:
pandas.
read_html
(
io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, thousands=', ', encoding=None, decimal='.', converters=None, na_values=None, keep_default_na=True, displayed_only=True)
常用的参数:
io:可以是url、html文本、本地文件等;
flavor:解析器;
header:标题行;
skiprows:跳过的行;
attrs:属性,比如 attrs = {'id': 'table'};
parse_dates:解析日期
返回的结果是DataFrame结构中的list。
下面实践开始,只有4行语句,没看错,4行!!!
import pandas as pd url='http://www.compassedu.hk/qs'df=pd.read_html(url)[0]df.to_csv('世界大学综合排名.csv',index=0)
运行结果:
好了,自己实践一下吧😄