带你飞上云端,轻松解析数据——gopup库详细解析--包含安装库教程

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 本文介绍了Python库gopup,它是一个用于轻松爬取互联网数据的工具,简化了数据收集和处理的过程。文章提供了gopup的安装教程,特别强调了安装时需注意setuptools版本,并给出了PyCharm和命令行两种安装方法。gopup库能获取包括指数、百度和谷歌数据等多种类型的数据。文中还展示了如何使用gopup获取微博指数和豆瓣新片榜数据,并通过代码示例呈现数据和图表。此外,文章提醒了使用时的风险和部分接口的失效情况,并提供了库文档链接以供深入学习。gopup库适用于数据可视化和数据分析,是进行文本挖掘和自然语言处理项目的理想工具。

带你飞上云端,轻松解析数据——gopup库详细解析--包含安装库教程

版权声明:本文为本博主在CSDN的原创文章搬运而来,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

首发原文链接:https://blog.csdn.net/weixin_72543266/article/details/132101731

前言

  正是因为第四篇文章被参数csdn助手提醒,也刚好与我学习并使用的库有关,想要进行文本挖掘和自然语言处理的进一步,当然少不了数据了,那么先从数据的获取开始方便后续对文本挖掘和自然语言处理进行进一步研究。

  今天我要和大家分享一个超级酷炫的Python库,它就像是一架顺风而行的飞机,载着你飞上了云端,轻松解析数据的各种魔法——gopup库

  作为一名喜欢从各个网站获取信息和资源的学生,也是在参加数建集训后,深知数据集对于模型的训练有多重要,我经常会遇到各种繁琐的数据收集和处理任务。有时候,大量的数据需要到多个网站爬取,然后再进行分析。听起来很麻烦,对吧?但是,幸运的是,有了Gopup库,一切都变得简单了!

gopup的作用和便利

  Gopup库的名字可能听起来有点奇怪,但它背后的功能可不简单。它是一个Python库,专门用于从互联网上爬取各种数据。你只需要几行简单的代码,就可以轻松地从各大网站上获取你想要的数据。

一,gopup库的安装

  相信大家早已被网络上的各种错误的安装信息误导了,其实库并不难用,主要是安装很出问题,网上的安装教程也过于久远了,废话不多说了,开始进入正题:

注意在安装时确保pip已经到达最近版,这是升级命令可以在终端中进行

pip install --upgrade pip

(1)因本人常使用PyCharm,先从这个安装开始

  安装不上的跟本原因是库过于老,安装库的组件的版本过高,下面是详细过程

  首先点击左上角 文件,然后--选择设置--最后打开项目下的python解释器

然后点击两次setuptools,后点击指定版本后,选择如图所示的版本后

setuptools库更改版本安装

再进行安装,便会安装成功了,最后点击+,搜索gopup库进行安装

gopup库安装

(2)命令安装

降低库版本

pip install setuptools==57.5.0

安装gopup库

pip install gopup

二,使用gopup可以获取的数据

分类 数据
指数数据 微博指数数据, 百度数据, 百度搜索数据
百度指数数据 百度资讯指数, 百度媒体指数, 百度需求图谱
百度人群画像数据 百度人群画像年龄分布, 百度人群画像性别分布, 百度人群画像兴趣分布
算数数据 算数指数数据, 算数相关性分析, 算数地域分析, 算数城市分析, 算数年龄分析, 算数性别分析, 算数用户阅读兴趣分类
谷歌数据 谷歌指数数据, 谷歌事实查证
搜狗数据 搜狗指数数据, 搜狗指数趋势数据
宏观数据 中国宏观数据, 中国宏观杠杆率数据, 国内生产总值数据, 居民消费价格指数(CPI), 工业品出厂价格指数(PPI), 采购经理人指数(PMI), 存款准备金率数据, 货币供应量数据, 外汇储备数据, 货币汇率数据, 工业增加值增长, 财政收入, 社会消费品零售总额, 信贷数据, 外商直接投资数据(FDI), 利率数据, Shibor数据, 报价数据, Shibor均值数据, LPR数据
公司数据 新经济公司, 千里马公司, 独角兽公司, 倒闭公司, 商业特许经营公司
信息数据 新闻联播文字稿, 历史上的今日, 百度风云榜, 百度实时热点榜, 百度今日热点榜, 百度百科热词榜, 微博热搜榜, 微博新时代榜, 微信热词榜, 微信热门榜, 知乎热搜榜, 知乎热榜, 豆瓣排行榜, 豆瓣新片榜, 豆瓣一周口碑榜, 中国电竞价值排行榜, 俱乐部排行榜, 选手排行榜
生活数据 中国油价数据, 汽柴油历史调价信息, 调价日的地区油价历史数据
诗词数据 唐代诗人, 唐诗数据
影视数据 实时电影票房数据, 单日电影票房数据, 单日影院票房数据, 实时电视剧播映指数, 实时综艺播映指数, 艺人商业价值, 艺人流量价值
疫情数据 网易疫情数据, 丁香园疫情数据, 百度疫情数据, 疫情历史数据
迁徙数据 迁徙数据-百度

三,实际应用(代码实现以及展示效果)

(1)微博数据

  这里我就使用密室大逃脱火树作为热词进行爬取:

  当然我这里使用的是折线图也可以使用其他图种

# 导入 gopup 库作为 gp
import gopup as gp
# 导入 matplotlib 用于绘图
import matplotlib.pyplot as plt

# 使用 gopup 库的 weibo_index 函数获取微博指数数据
# 将 word 参数设置为 " ",以获取与搜索词 " " 相关的微博指数
# 将 time_type 参数设置为 "3month",以获取过去3个月的微博指数数据
df_index = gp.weibo_index(word="火树", time_type="3month")

# 打印获取到的微博指数数据
print(df_index)

# 使用 plot 函数绘制微博指数数据的图表
df_index.plot()
# 将图展示出来
plt.show()
数据 图表
数据 折线图

(2)豆瓣新片榜

1.展示所有获取的数据集

import gopup as gp  # 导入gopup库,用于获取豆瓣新片榜数据
import pandas as pd
# 显示df_index中的所有数据,展示豆瓣新片榜的电影信息。
df_index = gp.douban_movie_list()
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
print(df_index)

  截图截不下来这只是部分,具体看作者的文档中输出信息那一栏

部分数据

2.只展示部分数据

# 导入 gopup 库作为 gp
import gopup as gp
# 导入 matplotlib 用于绘图
import matplotlib.pyplot as plt

# 获取电影数据
df_index = gp.douban_movie_list()

# 选择需要的列
df_filtered = df_index[['titleCn', 'description', 'ranking']]

# 去除 'titleCn' 列的字符串中的 '<'
df_filtered['titleCn'] = df_filtered['titleCn'].str.replace('<', '')
# 去除 'titleCn' 列的字符串中的 '\n'
df_filtered['titleCn'] = df_filtered['titleCn'].str.strip()

# 打印输出
print(df_filtered)


# 获取排名前10的电影数据
top10_df = df_filtered.sort_values('ranking').head(10)

# 创建饼状图
plt.figure(figsize=(6, 6))
plt.pie(top10_df['ranking'], labels=top10_df['titleCn'], autopct='%1.1f%%')
plt.title('豆瓣电影新片排行榜前10')

# 显示图表
plt.show()
数据图 饼状图
image.png image.png

(3)百度百科热词榜

# 导入gopup库,用于获取豆瓣新片榜数据
import gopup as gp
# 显示df_index中的所有数据,展示百度百科热词榜信息。
df_index = gp.baidu_hot_word_list()
# 打印输出
print(df_index)

image.png

四,注意事项

  风险提示:GoPUP 项目所采集的数据皆来自公开的数据源,不涉及任何个人隐私数据和非公开数据。 同时本项目提供的数据接口及相关数据仅用于学术研究,任何个人、机构及团体使用本项目的数据接口及相关数据请注意商业风险。

  部分接口已经失效,具体请阅读作者文档进行学习,有些需要cookie,有些需要注册获取tooken,方可使用

库文档链接

http://doc.gopup.cn/#/README

本库有详细的使用文档,进一步研究与学习,请参照库文档:

image.png

五,应用拓展

  (1)使用它,你可以轻松地从股票交易所获取实时行情数据,了解市场动态;你也可以从各大社交媒体平台获取用户评论数据,进行情感分析;甚至可以获取全球各地的天气数据,做出准确的出行决策。

​  (2)如果你对数据可视化感兴趣,gopup库也能满足你的需求。通过它获取数据后,你可以使用各种图表库,如Matplotlib和Seaborn,将复杂的数据转化为美丽的图表,让数据讲述属于它们自己的故事。

​  (3)通过gopup库,数据分析再也不是一件难事!它简化了我们处理数据的流程,让我们更加专注于数据的探索和发现。无论你是一名数据分析新手还是一位经验丰富的专家,gopup库都将是你最好的伙伴。

六,总结及本文的作用

  本文主要是对学习python基础后,进行延伸和练习的项目,也可以通过此来获取数据来为后续文本挖掘和自然语言处理的实行做好铺垫.

相关文章
|
19天前
|
人工智能 自然语言处理 前端开发
SpringBoot + 通义千问 + 自定义React组件:支持EventStream数据解析的技术实践
【10月更文挑战第7天】在现代Web开发中,集成多种技术栈以实现复杂的功能需求已成为常态。本文将详细介绍如何使用SpringBoot作为后端框架,结合阿里巴巴的通义千问(一个强大的自然语言处理服务),并通过自定义React组件来支持服务器发送事件(SSE, Server-Sent Events)的EventStream数据解析。这一组合不仅能够实现高效的实时通信,还能利用AI技术提升用户体验。
99 2
|
22小时前
|
JavaScript API 开发工具
<大厂实战场景> ~ Flutter&鸿蒙next 解析后端返回的 HTML 数据详解
本文介绍了如何在 Flutter 中解析后端返回的 HTML 数据。首先解释了 HTML 解析的概念,然后详细介绍了使用 `http` 和 `html` 库的步骤,包括添加依赖、获取 HTML 数据、解析 HTML 内容和在 Flutter UI 中显示解析结果。通过具体的代码示例,展示了如何从 URL 获取 HTML 并提取特定信息,如链接列表。希望本文能帮助你在 Flutter 应用中更好地处理 HTML 数据。
70 1
|
5天前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
31 0
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
14天前
|
域名解析 网络协议
邮箱域名解析后收不到短信?三步修复教程
邮箱域名解析后收不到短信?三步修复教程
|
18天前
|
数据采集 XML 前端开发
Jsoup在Java中:解析京东网站数据
Jsoup在Java中:解析京东网站数据
|
23天前
|
SQL Oracle 关系型数据库
SQL整库导出语录:全面解析与高效执行策略
在数据库管理和维护过程中,整库导出是一项常见的需求,无论是为了备份、迁移还是数据分析,掌握如何高效、准确地导出整个数据库至关重要
|
23天前
|
SQL 安全 Windows
SQL安装程序规则错误解析与解决方案
在安装SQL Server时,用户可能会遇到安装程序规则错误的问题,这些错误通常与系统配置、权限设置、依赖项缺失或版本不兼容等因素有关
|
1天前
|
JSON 前端开发 JavaScript
API接口商品详情接口数据解析
商品详情接口通常用于提供特定商品的详细信息,这些信息比商品列表接口中的信息更加详细和全面。以下是一个示例的JSON数据格式,用于表示一个商品详情API接口的响应。这个示例假定API返回一个包含商品详细信息的对象。
|
23天前
|
弹性计算 负载均衡 网络协议
内部名称解析设置阿里云私有 DNS 区域,针对于阿里云国际版经验教程
内部名称解析设置阿里云私有 DNS 区域,针对于阿里云国际版经验教程
|
14天前
|
API
Vue3组件通信全解析:利用props、emit、provide/inject跨层级传递数据,expose与ref实现父子组件方法调用
Vue3组件通信全解析:利用props、emit、provide/inject跨层级传递数据,expose与ref实现父子组件方法调用
173 0

推荐镜像

更多