借助Python神器,快速get上市公司财务数据

简介: 借助Python神器,快速get上市公司财务数据

我曾经想知道,在我们所有工作的行业中,哪个行业最赚钱,哪个行业最有钱景,但我不知道如何去衡量,直到有一天,我突然发现,毛利率是个很重要的衡量指标,毛利率的概念为:

毛利率是指一个公司的毛利润与营业收入之比,用于衡量公司产品或服务的成本与销售价格之间的差异。毛利率的计算公式为:

毛利率 = (毛利润 / 营业收入) x 100%

其中,毛利润是指一个公司销售产品或服务所获得的总收入,扣除与产品或服务直接相关的成本。

毛利率可以帮助投资者了解一个公司的盈利能力,特别是在竞争激烈的市场环境中。高毛利率通常意味着公司能够以更高的价格销售其产品或服务,或者拥有较低的成本结构,从而获得更多的利润。

但,我该如何知道这么多公司、这么多行业,各行各业的毛利率情况呢?从网上找找找,终于在某财富网上发现了下图这个表:

7dfdcfdfdd3e6fc77938308b616cbe3b.png

这红圈的地方不正是我想找的东西吗? 用Python把数据搞下来,弄起来 ,开始分析网站结构:

87c14cf6dcf2d4df2a1d9af956fd1cbc.png

泪流满面啊 ,良心网站 ,太棒了,数据封装在json中,不用麻烦用selenium来搞了,也不用想怎么绕过JavaScript了。老铁们,我直接贴代码了。

import requestsimport jsonimport pandas as pdimport timedf=pd.DataFrame()for i in range(1,116):    # 目标API的URL    api_url = f'https://datacenter-web.eastmoney.com/api/data/v1/get?callback=jQuery112309277037196808329_1709025159383&sortColumns=UPDATE_DATE%2CSECURITY_CODE&sortTypes=-1%2C-1&pageSize=50&pageNumber={i}&reportName=RPT_LICO_FN_CPD&columns=ALL&filter=(REPORTDATE%3D%272023-09-30%27)'    header={        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.5735.289 Safari/537.36',    'Cookie':'qgqp_b_id=825c36f7c9144ad712285e5527429aab; em_hq_fls=js; intellpositionL=1484px; intellpositionT=1855px; websitepoptg_api_time=1709024039311; st_si=73733076358837; st_asi=delete; st_pvi=05784786603557; st_sp=2021-01-13%2011%3A08%3A03; st_inirUrl=https%3A%2F%2Fwww.so.com%2Flink; st_sn=4; st_psi=20240227171239879-113300301066-1850671218; JSESSIONID=EB98428A92F7ED5EC76E0BF84FCD7A51'}    # 发送GET请求到API端点    response = requests.get(api_url,headers=header)    #print(response.text)    #删除一些不必要的字符,构建json    rr=''.join(response.text.split('(')[1:]).split(')')[:-1]    data=json.loads(''.join(rr))    #将文件保存到Dateframe结构中。    df1=pd.DataFrame(data['result']['data'])    df_new=df1.drop(['TRADE_MARKET_CODE','TRADE_MARKET_CODE','SECURITY_TYPE_CODE','SECURITY_TYPE','UPDATE_DATE','REPORTDATE','DEDUCT_BASIC_EPS','ASSIGNDSCRPT','PAYYEAR','ZXGXL','NOTICE_DATE','ORG_CODE','TRADE_MARKET_ZJG', 'ISNEW','DATATYPE','DATAYEAR','DATEMMDD','EITIME','SECUCODE'],axis=1)    df=pd.concat([df,df_new])    #休息一下,避免反爬    time.sleep(0.5)df

跑一遍,Jupyter Notebook中的结果为:

b478238aed75e68509ed1bfa86fec08a.png

5718家公司的数据就弄下来了,下面,我们保存成csv,顺便把表头的英文换成中文。

col=['股票代码','股票简称','交易市场','每股收益(元)','营业总收入(元)','净利润(元)','资产收益率','营收同比增长','净利润同比增长','每股净资产(元)','每股经营现金流(元)','销售毛利率','营收季度环比增长率','净利润季度环比增长率','所处行业','报表季度']df.columns=coldf.to_csv('东方财富网2023年3季报报表.csv',index=False)

搞定了,CSV文件如下:

c82edd2d9217bb8560642837e474c3a1.png

后续,我们就可以在这个表上进行数据分析了,从2023年三季报的数据上看看,哪家是毛利率最高的公司?哪个行业毛利最高?

相关文章
|
7月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
4755 1
|
7月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
688 0
|
7月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
7月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
8月前
|
存储 监控 API
Python实战:跨平台电商数据聚合系统的技术实现
本文介绍如何通过标准化API调用协议,实现淘宝、京东、拼多多等电商平台的商品数据自动化采集、清洗与存储。内容涵盖技术架构设计、Python代码示例及高阶应用(如价格监控系统),提供可直接落地的技术方案,帮助开发者解决多平台数据同步难题。
|
8月前
|
存储 JSON 算法
Python集合:高效处理无序唯一数据的利器
Python集合是一种高效的数据结构,具备自动去重、快速成员检测和无序性等特点,适用于数据去重、集合运算和性能优化等场景。本文通过实例详解其用法与技巧。
238 0
|
8月前
|
数据采集 关系型数据库 MySQL
python爬取数据存入数据库
Python爬虫结合Scrapy与SQLAlchemy,实现高效数据采集并存入MySQL/PostgreSQL/SQLite。通过ORM映射、连接池优化与批量提交,支持百万级数据高速写入,具备良好的可扩展性与稳定性。
|
8月前
|
JSON API 数据安全/隐私保护
Python采集淘宝评论API接口及JSON数据返回全流程指南
Python采集淘宝评论API接口及JSON数据返回全流程指南
|
8月前
|
数据采集 数据可视化 关系型数据库
基于python大数据的电影数据可视化分析系统
电影分析与可视化平台顺应电影产业数字化趋势,整合大数据处理、人工智能与Web技术,实现电影数据的采集、分析与可视化展示。平台支持票房、评分、观众行为等多维度分析,助力行业洞察与决策,同时提供互动界面,增强观众对电影文化的理解。技术上依托Python、MySQL、Flask、HTML等构建,融合数据采集与AI分析,提升电影行业的数据应用能力。
|
8月前
|
存储 机器学习/深度学习 关系型数据库
基于python的个人财务记账系统
本研究探讨了基于Python的个人财务记账系统的设计与实现。随着经济快速发展,个人财务管理日益重要,传统手工记账方式效率低且易出错,而现有商业软件功能复杂、缺乏个性化。Python凭借其简洁语法和强大库支持,适用于开发高效、易用的记账系统。系统结合Pyecharts实现数据可视化,利用MySQL进行数据存储,具备自动分类、统计分析、财务报表生成等功能,帮助用户清晰掌握财务状况,合理规划收支,提升财务管理效率。研究具有重要的现实意义和应用前景。

推荐镜像

更多