【Python实战】Python对中国500强排行榜数据进行可视化分析

简介: 【Python实战】Python对中国500强排行榜数据进行可视化分析

🍖环境使用

  • python 3.9
  • pycharm

🍖模块使用

  • requests

🍖模块介绍

  • requests

       requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多。

  • parsel

       parsel是一个python的第三方库,相当于css选择器+xpath+re。

parsel由scrapy团队开发,是将scrapy中的parsel独立抽取出来的,可以轻松解析html,xml内容,获取需要的数据。

相比于BeautifulSoup,xpath,parsel效率更高,使用更简单。

  • re

       re模块是python独有的匹配字符串的模块,该模块中提供的很多功能是基于正则表达式实现的,而正则表达式是对字符串进行模糊匹配,提取自己需要的字符串部分,他对所有的语言都通用。

  • os

       os 就是 “operating system” 的缩写,顾名思义,os模块提供的就是各种 Python 程序与操作系统进行交互的接口。通过使用 os 模块,一方面可以方便地与操作系统进行交互,另一方面也可以极大增强代码的可移植性。

  • csv

       它是一种文件格式,一般也被叫做逗号分隔值文件,可以使用 Excel 软件或者文本文档打开 。其中数据字段用半角逗号间隔(也可以使用其它字符),使用 Excel 打开时,逗号会被转换为分隔符。csv 文件是以纯文本形式存储了表格数据,并且在兼容各个操作系统。

🍖模块安装问题:

  • 如果安装python第三方模块:

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

在pycharm中点击Terminal(终端) 输入安装命令

  • 安装失败原因:
  • 失败一: pip 不是内部命令

               解决方法: 设置环境变量

  • 失败二: 出现大量报红 (read time out)

               解决方法: 因为是网络链接超时, 需要切换镜像源

 

    清华:https://pypi.tuna.tsinghua.edu.cn/simple
    阿里云:https://mirrors.aliyun.com/pypi/simple/
    中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
    华中理工大学:https://pypi.hustunique.com/
    山东理工大学:https://pypi.sdutlinux.org/
    豆瓣:https://pypi.douban.com/simple/
    例如:pip3 install -i https://pypi.doubanio.com/simple/ 模块名
  • 失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入

               解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好,或者你pycharm里面python解释器没有设置好。

🥩数据采集

🍖确定网址

首先,我们对目标网址进行数据采集。我们可以清楚的看到,在2022年中新财富500富人榜。

确定好我们的目标网址之后,我们要找到我们需要的数据源,通过开发者工具分析,我们不难发现其数据地址。

下面,我们开始写代码。

🍖获取数据

第一步,发送请求,获得数据。

import requests
 
url = 'https://service.ikuyu.cn/XinCaiFu2/pcremoting/bdListAction.do?method=getPage&callback=jsonpCallback&sortBy=&order=&type=4&keyword=&pageSize=15&year=2022&pageNo=1&from=jsonp&_=1680092323527'
 
 
headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'}
 
res = requests.get(url,headers=headers)

我们得到数据是这样的,大家可能会以为是一个json数据,其实不是,这个返回值需要我们进一步处理。

jsonpCallback({"data":{"pagesize":15,"current":1,"total":500,"rows":[{"assets":4983.5,"year":2022,"sex":"男","name":"钟睒睒","rank":1,"company":"农夫山泉/万泰生物","industry":"矿泉水饮料、医药生物","id":151478,"addr":"浙江杭州/北京","rankLst":"1","age":"68"},{"assets":3348.2,"year":2022,"sex":"男","name":"曾毓群","rank":2,"company":"宁德时代","industry":"动力电池","id":151479,"addr":"福建宁德","rankLst":"11","age":"54"},{"assets":3010.8,"year":2022,"sex":"男","name":"马化腾","rank":3,"company":"腾讯控股","industry":"互联网综合服务","id":151480,"addr":"广东深圳","rankLst":"3","age":"51"},{"assets":2916.0,"year":2022,"sex":"男","name":"张一鸣","rank":4,"company":"今日头条","industry":"推荐引擎产品、短视频","id":151481,"addr":"北京","rankLst":"16","age":"39"},{"assets":1972.0,"year":2022,"sex":"男","name":"黄峥","rank":5,"company":"拼多多","industry":"电商","id":151482,"addr":"上海","rankLst":"2","age":"42"},{"assets":1937.2,"year":2022,"sex":"男","name":"丁磊","rank":6,"company":"网易","industry":"互联网综合服务","id":151483,"addr":"浙江杭州","rankLst":"12","age":"51"},{"assets":1890.1,"year":2022,"sex":"男","name":"何享健家族","rank":7,"company":"美的集团","industry":"家电","id":151484,"addr":"广东佛山","rankLst":"5","age":"79"},{"assets":1860.3,"year":2022,"sex":"男","name":"王卫","rank":8,"company":"顺丰控股","industry":"物流","id":151485,"addr":"广东深圳","rankLst":"6","age":"51"},{"assets":1535.0,"year":2022,"sex":"男","name":"黄世霖","rank":9,"company":"宁德时代","industry":"动力电池","id":151486,"addr":"福建宁德","rankLst":"41","age":"55"},{"assets":1512.7,"year":2022,"sex":"男/女","name":"秦英林/钱瑛","rank":10,"company":"牧原股份","industry":"畜禽养殖","id":151487,"addr":"河南南阳","rankLst":"19","age":"57,56"},{"assets":1401.1,"year":2022,"sex":"男","name":"王传福","rank":11,"company":"比亚迪","industry":"新能源汽车、电池","id":151488,"addr":"广东深圳","rankLst":"39","age":"56"},{"assets":1388.6,"year":2022,"sex":"男","name":"李西廷","rank":12,"company":"迈瑞医疗","industry":"医疗器械","id":151489,"addr":"广东深圳","rankLst":"18","age":"71"},{"assets":1348.1,"year":2022,"sex":"男/女","name":"王来胜/王来春","rank":13,"company":"香港立讯","industry":"连接器","id":151490,"addr":"广东深圳","rankLst":"17","age":"58,55"},{"assets":1327.2,"year":2022,"sex":"男","name":"马云","rank":14,"company":"阿里巴巴","industry":"互联网综合服务","id":151491,"addr":"浙江杭州","rankLst":"7","age":"58"},{"assets":1322.5,"year":2022,"sex":"女","name":"杨惠妍","rank":15,"company":"碧桂园控股","industry":"房地产","id":151492,"addr":"广东佛山","rankLst":"13","age":"40"}],"end":15,"start":1,"pageCount":34,"conditionsMap":{"year":"2022","pageNo":"1","sortOrder":"year desc,rank","pageSize":"15"},"pageSize":15},"success":true})

🍖解析数据

我们发现,我们得到了这样jsonpCallback()的数据,可能就有人担心了,那这种情况,我们该怎么办呢,不要慌,我们只需要正则表达式就可以。

html_data = re.findall('jsonpCallback\((.*?)\)',res.text)[0]

这样,我们就得到了json数据,接下来,我们就开始解析数据。

for index in json.loads(html_data)['data']['rows']:
    # print(index)
    dit = {
        '姓名':index['name'],
        '财富值':index['assets'],
        '主要公司':index['company'],
        '相关行业': index['industry'],
        '公司总部':index['addr'],
        '排名': index['rank'],
 
 
    }

🍖保存数据

我们先把数据存入到字典里面,然后,方便我们写入csv文件里面,我们看看打印出来的字典数值是怎么样子的。

下面就是数据的写入了。其实,把字典数值写入到csv文件里面,特别简单,只需呀四行代码就可以实现。

1. f = open('财富榜.csv',mode='a',encoding='utf-8',newline='')
2. csv_writer = csv.DictWriter(f,fieldnames=['姓名','财富值','主要公司','相关行业','公司总部','排名'])
3. csv_writer.writeheader()

写入字典数值。

csv_writer.writerow(dit)

这时候,我们就会在文件夹里面找到财富值的csv文件,我们打开看看效果。

在这里,我只采集了第一页的数据,也就是前15的数据,如果,我们想进行多页数据采集,只需要对网址进行改变,我们会发现网址有相似的规律。直接for循环遍历就可以,这里,就不过多解释。

🥩数据可视化

🍖代码

我们在这里,就要用到pyecharts库,不得不说,这个功能非常强大,我们写这个代码也非常简单,我们只需要去官方文档,复制粘贴就可以,根据自己的数据稍微改动一点代码就可以。

import pandas as pd
import pyecharts.options as opts
from pyecharts.charts import Line
df = pd.read_csv('财富榜.csv')
x = ['农夫山泉/万泰生物' ,'宁德时代' ,'腾讯控股' ,'今日头条', '拼多多']
 
c = (
    Line()
    .add_xaxis(x)
    .add_yaxis("财富值",df['财富值'].values)
    .set_global_opts(title_opts=opts.TitleOpts(title="财富值分布"))
 
)

我们直接让它生成一个网页,方便我们直观的感受。

c.render('地图.html')

🍖效果

这里,我做的图不够好看,但是基本功能都实现了。

大家如果想做更多的图表,可以去官方网站看看,官方网站有很多示例可以使用。

🥩总结

通过本文的学习,我们学习了数据采集以及可视化分析。我们在研究官方文档的时候,也是在一种学习,本次实战,我们明白如何解决返回值是jsonpCallback()的问题。今天就到这里,有什么问题,可以在评论区留言。


相关文章
|
11天前
|
Web App开发 数据采集 JavaScript
动态网页爬取:Python如何获取JS加载的数据?
动态网页爬取:Python如何获取JS加载的数据?
260 58
|
5天前
|
人工智能 安全 Shell
Jupyter MCP服务器部署实战:AI模型与Python环境无缝集成教程
Jupyter MCP服务器基于模型上下文协议(MCP),实现大型语言模型与Jupyter环境的无缝集成。它通过标准化接口,让AI模型安全访问和操作Jupyter核心组件,如内核、文件系统和终端。本文深入解析其技术架构、功能特性及部署方法。MCP服务器解决了传统AI模型缺乏实时上下文感知的问题,支持代码执行、变量状态获取、文件管理等功能,提升编程效率。同时,严格的权限控制确保了安全性。作为智能化交互工具,Jupyter MCP为动态计算环境与AI模型之间搭建了高效桥梁。
23 2
Jupyter MCP服务器部署实战:AI模型与Python环境无缝集成教程
|
3天前
|
网络协议 API 开发者
分析http.client与requests在Python中的性能差异并优化。
合理地选择 `http.client`和 `requests`库以及在此基础上优化代码,可以帮助你的Python网络编程更加顺利,无论是在性能还是在易用性上。我们通常推荐使用 `requests`库,因为它的易用性。对于需要大量详细控制的任务,或者对性能有严格要求的情况,可以考虑使用 `http.client`库。同时,不断优化并管理员连接、设定合理超时和重试都是提高网络访问效率和稳定性的好方式。
37 19
|
5天前
|
人工智能 数据可视化 Python
在Python中对数据点进行标签化
本文介绍了如何在Python中使用Matplotlib和Seaborn对数据点进行标签化,提升数据可视化的信息量与可读性。通过散点图示例,展示了添加数据点标签的具体方法。标签化在标识数据点、分类数据可视化及趋势分析中具有重要作用。文章强调了根据需求选择合适工具,并保持图表清晰美观的重要性。
32 15
|
14天前
|
监控 供应链 数据挖掘
淘宝商品详情API接口解析与 Python 实战指南
淘宝商品详情API接口是淘宝开放平台提供的编程工具,支持开发者获取商品详细信息,包括基础属性、价格、库存、销售策略及卖家信息等。适用于电商数据分析、竞品分析与价格策略优化等场景。接口功能涵盖商品基础信息、详情描述、图片视频资源、SKU属性及评价统计的查询。通过构造请求URL和签名,可便捷调用数据。典型应用场景包括电商比价工具、商品数据分析平台、供应链管理及营销活动监控等,助力高效运营与决策。
126 26
|
8天前
|
存储 机器学习/深度学习 人工智能
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
本文探讨了多模态RAG系统的最优实现方案,通过模态特定处理与后期融合技术,在性能、准确性和复杂度间达成平衡。系统包含文档分割、内容提取、HTML转换、语义分块及向量化存储五大模块,有效保留结构和关系信息。相比传统方法,该方案显著提升了复杂查询的检索精度(+23%),并支持灵活升级。文章还介绍了查询处理机制与优势对比,为构建高效多模态RAG系统提供了实践指导。
114 0
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
|
11天前
|
机器学习/深度学习 人工智能 算法
Python+YOLO v8 实战:手把手教你打造专属 AI 视觉目标检测模型
本文介绍了如何使用 Python 和 YOLO v8 开发专属的 AI 视觉目标检测模型。首先讲解了 YOLO 的基本概念及其高效精准的特点,接着详细说明了环境搭建步骤,包括安装 Python、PyCharm 和 Ultralytics 库。随后引导读者加载预训练模型进行图片验证,并准备数据集以训练自定义模型。最后,展示了如何验证训练好的模型并提供示例代码。通过本文,你将学会从零开始打造自己的目标检测系统,满足实际场景需求。
163 0
Python+YOLO v8 实战:手把手教你打造专属 AI 视觉目标检测模型
|
5天前
|
数据采集 存储 数据可视化
2025python实战:利用海外代理IP验证广告投放效果
本文介绍了如何利用Python结合海外代理IP技术,验证广告在不同国家的实际投放效果。通过模拟各地网络环境访问广告页面,检查内容是否与计划一致,并生成曝光报告。具体实现包括:获取高质量代理IP、使用Selenium或Playwright模拟用户行为、解析广告内容及生成可视化报告。案例显示,该方法能有效确保广告精准投放,优化策略并节省预算。
|
Python
实战!用 Python 给母亲送祝福!
今天是母亲节,小阿酱在这里祝天下所有的母亲节日快乐,作为女儿的我除了买礼物送惊喜外还要用 Python 送上特殊的祝福! 母亲节(Mother’s Day),是一个感谢母亲的节日。妈妈曾经也是一个女孩子,怕黑怕虫子,也会掉眼泪,笨手笨脚怕扎针,但她温柔了我,温柔了岁月。 借此祝全天下妈妈母亲节快乐!
576 0
实战!用 Python 给母亲送祝福!
|
3月前
|
机器学习/深度学习 存储 设计模式
Python 高级编程与实战:深入理解性能优化与调试技巧
本文深入探讨了Python的性能优化与调试技巧,涵盖profiling、caching、Cython等优化工具,以及pdb、logging、assert等调试方法。通过实战项目,如优化斐波那契数列计算和调试Web应用,帮助读者掌握这些技术,提升编程效率。附有进一步学习资源,助力读者深入学习。

推荐镜像

更多