本期,我们用python中的pandas实现的对网页的爬虫,用Pandas爬取表格数据有一定的局限性,它只适合抓取Table表格型数据。网站结构类似于以下:
<table class="..." id="..."> <thead> <tr> <th>...</th> </tr> </thead> <tbody> <tr> <td>...</td> </tr> <tr>...</tr> <tr>...</tr> ... <tr>...</tr> <tr>...</tr> </tbody></table>
我们以新浪财经的机构持仓汇总为例,来进行一次爬虫。网站为:
具体代码为:
import sslssl._create_default_https_context = ssl._create_unverified_contextimport pandas as pddf = pd.DataFrame()for i in range(1,7): url=f'http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jgcg/index.phtml?p={i}' df = pd.concat([df, pd.read_html(url,skiprows=[1,1])[0]]) df.to_csv('机构持股汇总.csv')
这里只截取了7页数据,运行结果为:
好了,本期就到这里,下期再会。