数据分析实战丨基于pygal与requests分析GitHub最受欢迎的Python库

简介: 数据分析实战丨基于pygal与requests分析GitHub最受欢迎的Python库

写在前面

本期内容: 基于pygal与requests分析GitHub最受欢迎的30个Python库

实验环境:

  • python
  • requests
  • pygal

实验目标

在现实的应用中,我们经常会使用爬虫分析网络数据,本期博主将用pygal+requests简单对github最受欢迎的30个python库做可视化分析(以stars数量进行排序)。

实验内容

1.配置实验环境

在正式开始之前,我们需要先安装本次实验用到的依赖库:


requests:一个Python第三方库,用于发送HTTP请求,并且提供了简洁而友好的API。它支持各种HTTP方法,并具有自动化的内容解码、会话管理、文件上传下载等功能,是进行Web开发和网络爬虫的常用工具。


pygal:一个开源的Python图表库,用于制作统计图表和可视化数据。它支持多种图表类型,包括折线图、柱状图、饼图等,并且具有丰富的样式和可定制性。通过pygal,用户可以轻松地创建漂亮、交互式的图表,用于数据分析和展示。

安装命令:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pygal

2.GitHub知识点

GitHub官方提供了一个JSON网页,其中存储了按照某个标准排列的项目信息,我们可以通过以下网址查看关键字是python且按照stars数量排列的项目信息:

https://api.github.com/search/repositories?q=language:python&sort=stars

这个网址的JSON数据中,items保存了前30名stars最多的Python项目信息。

重点关注以下信息:

其中:

  • name:表示库名称
  • ogin:表示库的拥有者
  • html_url:表示库的网址
  • stargazers_count:该库被star的数量

3.爬取重要信息

我们先尝试着简单爬取一下本次实验所需要的几个重要信息

程序设计

"""
作者:Want595
微信号:Want_595
公众号:Want595
"""
import requests

url = 'https://api.github.com/search/repositories?q=language:python&sort=stars'
reponse = requests.get(url)
print(reponse.status_code, "响应成功!")
response_dict = reponse.json()
total_repo = response_dict['total_count']
repo_list = response_dict['items']
print("总仓库数:", total_repo)
print('top:', len(repo_list))
for repo_dict in repo_list:
    print('\n名字:', repo_dict['name'])
    print('作者:', repo_dict['owner']['login'])
    print('Stars:', repo_dict['stargazers_count'])
    print('网址:', repo_dict['html_url'])
    print('简介:', repo_dict['description'])

程序分析


该代码使用Python的requests模块来访问GitHub的API,并搜索使用Python语言的仓库,并按照stars数量进行排序。代码首先发送GET请求,然后将响应转换为JSON格式。接着打印总仓库数和top仓库数。然后遍历仓库列表,并打印每个仓库的名称、作者、stars数量、网址和简介。这段代码的作用是获取GitHub上使用Python语言的仓库中的一些基本信息,并打印出来。

运行结果

4.可视化分析

程序设计

"""
作者:Want595
微信号:Want_595
公众号:Want595
"""
import requests
import pygal
from pygal.style import LightColorizedStyle, LightenStyle

url = 'https://api.github.com/search/repositories?q=language:python&sort=stars'
reponse = requests.get(url)
print(reponse.status_code, "响应成功!")
response_dict = reponse.json()
total_repo = response_dict['total_count']
repo_list = response_dict['items']
print("总仓库数:", total_repo)
print('top:', len(repo_list))

names, plot_dicts = [], []

……具体代码请下载后查看哦

程序分析

该程序使用了requests库向GitHub的API发送请求,获取了Python语言的仓库列表,并对返回的数据进行处理和分析。

具体的程序分析如下:

  1. 导入需要使用的库:requests、pygal以及相关的样式库。
  2. 设置GitHub的API请求URL,其中指定了查询语言为Python,并按照星标数(即stars)排序。
  3. 发送GET请求,并获取返回的响应对
  4. 打印响应状态码,用于验证请求是否成功。
  5. 将响应对象的JSON数据转换为字典形式。
  6. 获取仓库的总数和仓库列表。
  7. 打印总仓库数和仓库列表长度。
  8. 初始化用于绘图的变量:names(存储仓库名称)、plot_dicts(存储每个仓库的相关信息)。
  9. 遍历仓库列表,分别获取仓库名称、仓库的星标数、仓库的描述和仓库的URL,并将相关信息添加到对应的变量中。
  10. 初始化绘图的样式和配置。
  11. 创建柱状图对象,并设置标题、横坐标、数据等属性。
  12. 将数据添加到柱状图中。
  13. 将柱状图渲染为SVG文件。

最终的结果是生成了一个包含前30名最受欢迎的Python库的柱状图,并将图表保存为SVG文件。

运行结果

写在后面

我是一只有趣的兔子,感谢你的喜欢!

目录
相关文章
|
3天前
|
监控 前端开发 API
实战指南:使用Python Flask与WebSocket实现高效的前后端分离实时系统
【7月更文挑战第18天】构建实时Web应用,如聊天室,可借助Python的Flask和WebSocket。安装Flask及Flask-SocketIO库,创建Flask应用,处理WebSocket事件。前端模板通过Socket.IO库连接服务器,发送和接收消息。运行应用,实现实时通信。此示例展现了Flask结合WebSocket实现前后端实时交互的能力。
|
6天前
|
数据库 开发者 Python
实战指南:用Python协程与异步函数优化高性能Web应用
【7月更文挑战第15天】Python的协程与异步函数优化Web性能,通过非阻塞I/O提升并发处理能力。使用aiohttp库构建异步服务器,示例代码展示如何处理GET请求。异步处理减少资源消耗,提高响应速度和吞吐量,适用于高并发场景。掌握这项技术对提升Web应用性能至关重要。
29 10
|
5天前
|
并行计算 监控 数据处理
构建高效Python应用:并发与异步编程的实战秘籍,IO与CPU密集型任务一网打尽!
【7月更文挑战第16天】Python并发异步提升性能:使用`asyncio`处理IO密集型任务,如网络请求,借助事件循环实现非阻塞;`multiprocessing`模块用于CPU密集型任务,绕过GIL进行并行计算。通过任务类型识别、任务分割、避免共享状态、利用现代库和性能调优,实现高效编程。示例代码展示异步HTTP请求和多进程数据处理。
22 8
|
21小时前
|
算法 数据处理 索引
告别低效搜索!Python中Trie树与Suffix Tree的实战应用秘籍!
【7月更文挑战第21天】探索Python中的字符串搜索效率提升:使用Trie树与Suffix Tree。Trie树优化单词查询,插入和删除,示例展示其插入与搜索功能。Suffix Tree,复杂但强大,适用于快速查找、LCP查询。安装[pysuffixtree](https://pypi.org/project/pysuffixtree/)库后,演示查找子串及最长公共后缀。两者在字符串处理中发挥关键作用,提升数据处理效率。**
|
4天前
|
算法 数据挖掘 计算机视觉
Python并查集实战宝典:从入门到精通,让你的数据结构技能无懈可击!
【7月更文挑战第17天】并查集,如同瑞士军刀,是解决元素分组问题的利器,应用于好友关系、像素聚类、碰撞检测和连通性分析等场景。本文从基础到实战,介绍并查集的初始化、查找与路径压缩、按秩合并,以及在Kruskal算法中的应用。通过并查集,实现高效动态集合操作,对比哈希表和平衡树,其在合并与查找上的性能尤为突出。学习并查集,提升算法解决复杂问题的能力。
|
2天前
|
大数据 UED 开发者
实战演练:利用Python的Trie树优化搜索算法,性能飙升不是梦!
【7月更文挑战第19天】Trie树,又称前缀树,是优化字符串搜索的高效数据结构。通过利用公共前缀,Trie树能快速插入、删除和查找字符串。
16 2
|
3天前
|
机器学习/深度学习 监控 算法框架/工具
使用Python实现深度学习模型:人脸识别与人脸表情分析
【7月更文挑战第18天】 使用Python实现深度学习模型:人脸识别与人脸表情分析
14 2
|
8天前
|
前端开发 API 开发者
Python Web开发者必看!AJAX、Fetch API实战技巧,让前后端交互如丝般顺滑!
【7月更文挑战第13天】在Web开发中,AJAX和Fetch API是实现页面无刷新数据交换的关键。在Flask博客系统中,通过创建获取评论的GET路由,我们可以展示使用AJAX和Fetch API的前端实现。AJAX通过XMLHttpRequest发送请求,处理响应并在成功时更新DOM。Fetch API则使用Promise简化异步操作,代码更现代。这两个工具都能实现不刷新页面查看评论,Fetch API的语法更简洁,错误处理更直观。掌握这些技巧能提升Python Web项目的用户体验和开发效率。
20 7
|
8天前
|
算法 数据挖掘 数据处理
搜索新境界:Python二分查找变种实战,精准定位数据不是梦!
【7月更文挑战第13天】二分查找算法以O(log n)效率在有序数组中查找数据。基础算法通过不断分割数组对比中间元素。Python实现变种包括:1) 查找目标值的第一个出现位置,找到后向左搜索;2) 查找目标值的最后一个出现位置,找到后向右搜索。这些变种在数据分析和索引构建等场景中极具价值,提升处理效率。
|
4天前
|
存储 Python
数据包络分析(Data Envelopment Analysis, DEA)详解与Python代码示例
数据包络分析(Data Envelopment Analysis, DEA)详解与Python代码示例