带你飞上云端,轻松解析数据——gopup库详细解析--包含安装库教程

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 本文介绍了Python库gopup,它是一个用于轻松爬取互联网数据的工具,简化了数据收集和处理的过程。文章提供了gopup的安装教程,特别强调了安装时需注意setuptools版本,并给出了PyCharm和命令行两种安装方法。gopup库能获取包括指数、百度和谷歌数据等多种类型的数据。文中还展示了如何使用gopup获取微博指数和豆瓣新片榜数据,并通过代码示例呈现数据和图表。此外,文章提醒了使用时的风险和部分接口的失效情况,并提供了库文档链接以供深入学习。gopup库适用于数据可视化和数据分析,是进行文本挖掘和自然语言处理项目的理想工具。

带你飞上云端,轻松解析数据——gopup库详细解析--包含安装库教程

版权声明:本文为本博主在CSDN的原创文章搬运而来,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

首发原文链接:https://blog.csdn.net/weixin_72543266/article/details/132101731

前言

  正是因为第四篇文章被参数csdn助手提醒,也刚好与我学习并使用的库有关,想要进行文本挖掘和自然语言处理的进一步,当然少不了数据了,那么先从数据的获取开始方便后续对文本挖掘和自然语言处理进行进一步研究。

  今天我要和大家分享一个超级酷炫的Python库,它就像是一架顺风而行的飞机,载着你飞上了云端,轻松解析数据的各种魔法——gopup库

  作为一名喜欢从各个网站获取信息和资源的学生,也是在参加数建集训后,深知数据集对于模型的训练有多重要,我经常会遇到各种繁琐的数据收集和处理任务。有时候,大量的数据需要到多个网站爬取,然后再进行分析。听起来很麻烦,对吧?但是,幸运的是,有了Gopup库,一切都变得简单了!

gopup的作用和便利

  Gopup库的名字可能听起来有点奇怪,但它背后的功能可不简单。它是一个Python库,专门用于从互联网上爬取各种数据。你只需要几行简单的代码,就可以轻松地从各大网站上获取你想要的数据。

一,gopup库的安装

  相信大家早已被网络上的各种错误的安装信息误导了,其实库并不难用,主要是安装很出问题,网上的安装教程也过于久远了,废话不多说了,开始进入正题:

注意在安装时确保pip已经到达最近版,这是升级命令可以在终端中进行

pip install --upgrade pip

(1)因本人常使用PyCharm,先从这个安装开始

  安装不上的跟本原因是库过于老,安装库的组件的版本过高,下面是详细过程

  首先点击左上角 文件,然后--选择设置--最后打开项目下的python解释器

然后点击两次setuptools,后点击指定版本后,选择如图所示的版本后

setuptools库更改版本安装

再进行安装,便会安装成功了,最后点击+,搜索gopup库进行安装

gopup库安装

(2)命令安装

降低库版本

pip install setuptools==57.5.0

安装gopup库

pip install gopup

二,使用gopup可以获取的数据

分类 数据
指数数据 微博指数数据, 百度数据, 百度搜索数据
百度指数数据 百度资讯指数, 百度媒体指数, 百度需求图谱
百度人群画像数据 百度人群画像年龄分布, 百度人群画像性别分布, 百度人群画像兴趣分布
算数数据 算数指数数据, 算数相关性分析, 算数地域分析, 算数城市分析, 算数年龄分析, 算数性别分析, 算数用户阅读兴趣分类
谷歌数据 谷歌指数数据, 谷歌事实查证
搜狗数据 搜狗指数数据, 搜狗指数趋势数据
宏观数据 中国宏观数据, 中国宏观杠杆率数据, 国内生产总值数据, 居民消费价格指数(CPI), 工业品出厂价格指数(PPI), 采购经理人指数(PMI), 存款准备金率数据, 货币供应量数据, 外汇储备数据, 货币汇率数据, 工业增加值增长, 财政收入, 社会消费品零售总额, 信贷数据, 外商直接投资数据(FDI), 利率数据, Shibor数据, 报价数据, Shibor均值数据, LPR数据
公司数据 新经济公司, 千里马公司, 独角兽公司, 倒闭公司, 商业特许经营公司
信息数据 新闻联播文字稿, 历史上的今日, 百度风云榜, 百度实时热点榜, 百度今日热点榜, 百度百科热词榜, 微博热搜榜, 微博新时代榜, 微信热词榜, 微信热门榜, 知乎热搜榜, 知乎热榜, 豆瓣排行榜, 豆瓣新片榜, 豆瓣一周口碑榜, 中国电竞价值排行榜, 俱乐部排行榜, 选手排行榜
生活数据 中国油价数据, 汽柴油历史调价信息, 调价日的地区油价历史数据
诗词数据 唐代诗人, 唐诗数据
影视数据 实时电影票房数据, 单日电影票房数据, 单日影院票房数据, 实时电视剧播映指数, 实时综艺播映指数, 艺人商业价值, 艺人流量价值
疫情数据 网易疫情数据, 丁香园疫情数据, 百度疫情数据, 疫情历史数据
迁徙数据 迁徙数据-百度

三,实际应用(代码实现以及展示效果)

(1)微博数据

  这里我就使用密室大逃脱火树作为热词进行爬取:

  当然我这里使用的是折线图也可以使用其他图种

# 导入 gopup 库作为 gp
import gopup as gp
# 导入 matplotlib 用于绘图
import matplotlib.pyplot as plt

# 使用 gopup 库的 weibo_index 函数获取微博指数数据
# 将 word 参数设置为 " ",以获取与搜索词 " " 相关的微博指数
# 将 time_type 参数设置为 "3month",以获取过去3个月的微博指数数据
df_index = gp.weibo_index(word="火树", time_type="3month")

# 打印获取到的微博指数数据
print(df_index)

# 使用 plot 函数绘制微博指数数据的图表
df_index.plot()
# 将图展示出来
plt.show()
数据 图表
数据 折线图

(2)豆瓣新片榜

1.展示所有获取的数据集

import gopup as gp  # 导入gopup库,用于获取豆瓣新片榜数据
import pandas as pd
# 显示df_index中的所有数据,展示豆瓣新片榜的电影信息。
df_index = gp.douban_movie_list()
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
print(df_index)

  截图截不下来这只是部分,具体看作者的文档中输出信息那一栏

部分数据

2.只展示部分数据

# 导入 gopup 库作为 gp
import gopup as gp
# 导入 matplotlib 用于绘图
import matplotlib.pyplot as plt

# 获取电影数据
df_index = gp.douban_movie_list()

# 选择需要的列
df_filtered = df_index[['titleCn', 'description', 'ranking']]

# 去除 'titleCn' 列的字符串中的 '<'
df_filtered['titleCn'] = df_filtered['titleCn'].str.replace('<', '')
# 去除 'titleCn' 列的字符串中的 '\n'
df_filtered['titleCn'] = df_filtered['titleCn'].str.strip()

# 打印输出
print(df_filtered)


# 获取排名前10的电影数据
top10_df = df_filtered.sort_values('ranking').head(10)

# 创建饼状图
plt.figure(figsize=(6, 6))
plt.pie(top10_df['ranking'], labels=top10_df['titleCn'], autopct='%1.1f%%')
plt.title('豆瓣电影新片排行榜前10')

# 显示图表
plt.show()
数据图 饼状图
image.png image.png

(3)百度百科热词榜

# 导入gopup库,用于获取豆瓣新片榜数据
import gopup as gp
# 显示df_index中的所有数据,展示百度百科热词榜信息。
df_index = gp.baidu_hot_word_list()
# 打印输出
print(df_index)

image.png

四,注意事项

  风险提示:GoPUP 项目所采集的数据皆来自公开的数据源,不涉及任何个人隐私数据和非公开数据。 同时本项目提供的数据接口及相关数据仅用于学术研究,任何个人、机构及团体使用本项目的数据接口及相关数据请注意商业风险。

  部分接口已经失效,具体请阅读作者文档进行学习,有些需要cookie,有些需要注册获取tooken,方可使用

库文档链接

http://doc.gopup.cn/#/README

本库有详细的使用文档,进一步研究与学习,请参照库文档:

image.png

五,应用拓展

  (1)使用它,你可以轻松地从股票交易所获取实时行情数据,了解市场动态;你也可以从各大社交媒体平台获取用户评论数据,进行情感分析;甚至可以获取全球各地的天气数据,做出准确的出行决策。

​  (2)如果你对数据可视化感兴趣,gopup库也能满足你的需求。通过它获取数据后,你可以使用各种图表库,如Matplotlib和Seaborn,将复杂的数据转化为美丽的图表,让数据讲述属于它们自己的故事。

​  (3)通过gopup库,数据分析再也不是一件难事!它简化了我们处理数据的流程,让我们更加专注于数据的探索和发现。无论你是一名数据分析新手还是一位经验丰富的专家,gopup库都将是你最好的伙伴。

六,总结及本文的作用

  本文主要是对学习python基础后,进行延伸和练习的项目,也可以通过此来获取数据来为后续文本挖掘和自然语言处理的实行做好铺垫.

相关文章
|
2天前
|
算法 测试技术 C语言
深入理解HTTP/2:nghttp2库源码解析及客户端实现示例
通过解析nghttp2库的源码和实现一个简单的HTTP/2客户端示例,本文详细介绍了HTTP/2的关键特性和nghttp2的核心实现。了解这些内容可以帮助开发者更好地理解HTTP/2协议,提高Web应用的性能和用户体验。对于实际开发中的应用,可以根据需要进一步优化和扩展代码,以满足具体需求。
41 29
|
9天前
|
数据采集 JSON 数据可视化
JSON数据解析实战:从嵌套结构到结构化表格
在信息爆炸的时代,从杂乱数据中提取精准知识图谱是数据侦探的挑战。本文以Google Scholar为例,解析嵌套JSON数据,提取文献信息并转换为结构化表格,通过Graphviz制作技术关系图谱,揭示文献间的隐秘联系。代码涵盖代理IP、请求头设置、JSON解析及可视化,提供完整实战案例。
JSON数据解析实战:从嵌套结构到结构化表格
|
3天前
|
JSON 监控 网络协议
Bilibili直播信息流:连接方法与数据解析
本文详细介绍了自行实现B站直播WebSocket连接的完整流程。解析了基于WebSocket的应用层协议结构,涵盖认证包构建、心跳机制维护及数据包解析步骤,为开发者定制直播数据监控提供了完整技术方案。
|
9天前
|
机器学习/深度学习 JSON 算法
淘宝拍立淘按图搜索API接口系列的应用与数据解析
淘宝拍立淘按图搜索API接口是阿里巴巴旗下淘宝平台提供的一项基于图像识别技术的创新服务。以下是对该接口系列的应用与数据解析的详细分析
|
16天前
|
域名解析 弹性计算 负载均衡
新手上云教程参考:阿里云服务器租用、域名注册、备案及域名解析流程图文教程
对于想要在阿里云上搭建网站或应用的用户来说,购买阿里云服务器和注册域名,绑定以及备案的流程至关重要。本文将以图文形式为您介绍阿里云服务器购买、域名注册、备案及绑定的全流程,以供参考,帮助用户轻松上手。
|
23天前
|
Java API 数据处理
深潜数据海洋:Java文件读写全面解析与实战指南
通过本文的详细解析与实战示例,您可以系统地掌握Java中各种文件读写操作,从基本的读写到高效的NIO操作,再到文件复制、移动和删除。希望这些内容能够帮助您在实际项目中处理文件数据,提高开发效率和代码质量。
28 4
|
24天前
|
存储 弹性计算 人工智能
阿里云发票申请图文教程及常见问题解析
在购买完阿里云服务器或者其他云产品之后,如何申请发票成为了许多用户关注的焦点。尤其是对于初次购买阿里云服务器的用户来说,发票申请流程可能并不熟悉。本文将为大家详细介绍阿里云服务器购买之后如何申请发票,以及申请过程中可能遇到的常见问题,帮助大家轻松完成发票申请。
|
1月前
|
数据采集 前端开发 API
SurfGen爬虫:解析HTML与提取关键数据
SurfGen爬虫:解析HTML与提取关键数据
|
8天前
|
存储 缓存 监控
如何高效爬取天猫商品数据?官方API与非官方接口全解析
本文介绍两种天猫商品数据爬取方案:官方API和非官方接口。官方API合法合规,适合企业长期使用,需申请企业资质;非官方接口适合快速验证需求,但需应对反爬机制。详细内容涵盖开发步骤、Python实现示例、反爬策略、数据解析与存储、注意事项及扩展应用场景。推荐工具链包括Playwright、aiohttp、lxml等。如需进一步帮助,请联系作者。
|
1月前
|
弹性计算 运维 网络安全
阿里云轻量应用服务器产品解析与搭建个人博客网站教程参考
轻量应用服务器(Simple Application Server)作为阿里云面向单机应用场景推出的云服务器产品,以其一键部署、一站式管理、高性价比等特性,深受个人开发者、中小企业及入门级用户的喜爱。本文将全面解析阿里云轻量应用服务器的产品优势、应用场景、使用须知,以及使用轻量应用服务器搭建个人博客网站的详细教程,帮助用户更好地了解和使用这一产品。

推荐镜像

更多