备案控制台

开发者社区开发与运维文章正文

Pandas爬虫：某浪财经机构持股汇总

2024-09-28 42

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Pandas爬虫：某浪财经机构持股汇总

本期，我们用python中的pandas实现的对网页的爬虫，用Pandas爬取表格数据有一定的局限性，它只适合抓取Table表格型数据。网站结构类似于以下：

<table class="..." id="...">     <thead>     <tr>     <th>...</th>     </tr>     </thead>     <tbody>        <tr>            <td>...</td>        </tr>        <tr>...</tr>        <tr>...</tr>        ...        <tr>...</tr>        <tr>...</tr>    </tbody></table>

我们以新浪财经的机构持仓汇总为例，来进行一次爬虫。网站为：

具体代码为：

import sslssl._create_default_https_context = ssl._create_unverified_contextimport pandas as pddf = pd.DataFrame()for i in range(1,7):    url=f'http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jgcg/index.phtml?p={i}'    df = pd.concat([df, pd.read_html(url,skiprows=[1,1])[0]]) df.to_csv('机构持股汇总.csv')

这里只截取了7页数据，运行结果为：

好了，本期就到这里，下期再会。

文章标签：

Python

数据采集

关键词：

Pandas爬虫

爬虫机构

gudanhero2018

目录

相关文章

gudanhero2018

|

4月前

|

数据采集数据挖掘 Python

Python:pandas做爬虫

Python:pandas做爬虫

gudanhero2018

48 0 0

小白学大数据

|

8月前

|

数据采集存储 Web App开发

一键实现数据采集和存储：Python爬虫、Pandas和Excel的应用技巧

一键实现数据采集和存储：Python爬虫、Pandas和Excel的应用技巧

小白学大数据

220 1 1

小白学大数据

|

8月前

|

数据采集 Web App开发数据可视化

Python爬虫技术与数据可视化：Numpy、pandas、Matplotlib的黄金组合

Python爬虫技术与数据可视化：Numpy、pandas、Matplotlib的黄金组合

小白学大数据

306 0 0

小白学大数据

|

8月前

|

数据采集数据可视化数据挖掘

Python爬虫之Pandas数据处理技术详解

Python爬虫之Pandas数据处理技术详解

小白学大数据

174 0 0

科技云报道

|

数据采集人工智能安全

数据安全代表厂商防勒索+防爬虫领域代表厂商！瑞数信息连续入选国际权威机构报告

近日，全球领先的IT市场研究和咨询公司IDC连续发布了《中国数据安全市场发展趋势，2023》与《中国热点威胁安全检测与防护解决方案，2023》两本报告。

科技云报道

81 1 1

kissjz

|

数据采集 Python

DC学院爬虫学习笔记（五）：使用pandas保存豆瓣短评数据

使用pandas保存豆瓣短评数据

kissjz

3064 0 0

fesoncn

|

数据采集 Python Java

爬虫练习之数据整理——基于Pandas

上一篇->爬虫练习之数据清洗——基于Pandas 本次以51Job上在东莞地区爬取的以Java为关键词的招聘数据包括salary company time job_name address字段目的本次数据整理的小目标是将薪资数据拿出来单独处理为...

fesoncn

1236 0 0

fesoncn

|

数据采集 Python Java

爬虫练习之数据清洗——基于Pandas

本次以51Job上在东莞地区爬取的以Java为关键词的招聘数据包括salary company time job_name address字段当我把招聘网站上的数据爬下来的时候，内心是很开心的爬下来的原始数据但是！ What？！这是什么数据？而且还不止一条！！！待清洗数据待清洗数据第一次数据清洗根据上述截图可以发现，脏数据都包含了xx元/小时以及xx元/天。

fesoncn

2969 0 0

土木林森

|

2月前

|

数据采集存储 JSON

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理，以及存储爬取的数据。通过具体示例，帮助读者掌握Scrapy的核心功能和使用方法，提升数据采集效率。

土木林森

130 6 6

python编程狮

|

5月前

|

机器学习/深度学习数据采集数据可视化

基于爬虫和机器学习的招聘数据分析与可视化系统，python django框架，前端bootstrap，机器学习有八种带有可视化大屏和后台

本文介绍了一个基于Python Django框架和Bootstrap前端技术，集成了机器学习算法和数据可视化的招聘数据分析与可视化系统，该系统通过爬虫技术获取职位信息，并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析，提供了一个直观的可视化大屏和后台管理系统，以优化招聘策略并提升决策质量。

python编程狮

273 4 5

热门文章

最新文章

使用云服务器ECS部署了自己的第一个爬虫

52. Python 爬虫（1）

记爬虫小分队（四）

阿里云WAF爬虫风险管理升级，定义高效业务安全

简单爬虫-抓取博客园文章列表

Python网络爬虫之爬取百度贴吧网址并保存

Python爬虫之Xpath学习

Node.js制作图片下载爬虫的一般步骤

Python爬虫！单爬，批量爬，这都不是事！

【Python】—— pandas 数据分析

如何利用Python中的Pandas库进行数据分析和可视化

【新手解答】Python中Pandas的初学者笔记

Python网络数据抓取（5）：Pandas

使用Python pandas的sort_values()方法可按一个或多个列对DataFrame排序

在Python的Pandas中，可以通过直接赋值或使用apply函数在DataFrame添加新列。

在Pandas中，利用boolean indexing可按条件过滤DataFrame

【Python机器学习专栏】使用Pandas处理机器学习数据集

使用Python的pandas和matplotlib库绘制移动平均线（MA）示例

Python数据分析中的Pandas库应用指南

相关课程

更多

Python 数据分析库 Pandas 快速入门

Python爬虫实战

Python网络爬虫实战

相关电子书

更多

Python第五讲——关于爬虫如何做js逆向的思路

中文：即学即用的Pandas入门与时间序列分析

即学即用的Pandas入门与时间序列分析

下一篇

DataWorks智能交互式数据开发与分析之旅