带你飞上云端,轻松解析数据——gopup库详细解析--包含安装库教程
版权声明:本文为本博主在CSDN的原创文章搬运而来,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
首发原文链接:https://blog.csdn.net/weixin_72543266/article/details/132101731
前言
正是因为第四篇文章被参数csdn助手提醒,也刚好与我学习并使用的库有关,想要进行文本挖掘和自然语言处理的进一步,当然少不了数据了,那么先从数据的获取开始方便后续对文本挖掘和自然语言处理进行进一步研究。
今天我要和大家分享一个超级酷炫的Python库,它就像是一架顺风而行的飞机,载着你飞上了云端,轻松解析数据的各种魔法——gopup库!
作为一名喜欢从各个网站获取信息和资源的学生,也是在参加数建集训后,深知数据集对于模型的训练有多重要,我经常会遇到各种繁琐的数据收集和处理任务。有时候,大量的数据需要到多个网站爬取,然后再进行分析。听起来很麻烦,对吧?但是,幸运的是,有了Gopup库,一切都变得简单了!
gopup的作用和便利
Gopup库的名字可能听起来有点奇怪,但它背后的功能可不简单。它是一个Python库,专门用于从互联网上爬取各种数据。你只需要几行简单的代码,就可以轻松地从各大网站上获取你想要的数据。
一,gopup库的安装
相信大家早已被网络上的各种错误的安装信息误导了,其实库并不难用,主要是安装很出问题,网上的安装教程也过于久远了,废话不多说了,开始进入正题:
注意在安装时确保pip已经到达最近版,这是升级命令可以在终端中进行
pip install --upgrade pip
(1)因本人常使用PyCharm,先从这个安装开始
安装不上的跟本原因是库过于老,安装库的组件的版本过高,下面是详细过程
首先点击左上角 文件,然后--选择设置--最后打开项目下的python解释器
然后点击两次setuptools,后点击指定版本后,选择如图所示的版本后
再进行安装,便会安装成功了,最后点击+,搜索gopup库进行安装
(2)命令安装
降低库版本
pip install setuptools==57.5.0
安装gopup库
pip install gopup
二,使用gopup可以获取的数据
分类 | 数据 |
---|---|
指数数据 | 微博指数数据, 百度数据, 百度搜索数据 |
百度指数数据 | 百度资讯指数, 百度媒体指数, 百度需求图谱 |
百度人群画像数据 | 百度人群画像年龄分布, 百度人群画像性别分布, 百度人群画像兴趣分布 |
算数数据 | 算数指数数据, 算数相关性分析, 算数地域分析, 算数城市分析, 算数年龄分析, 算数性别分析, 算数用户阅读兴趣分类 |
谷歌数据 | 谷歌指数数据, 谷歌事实查证 |
搜狗数据 | 搜狗指数数据, 搜狗指数趋势数据 |
宏观数据 | 中国宏观数据, 中国宏观杠杆率数据, 国内生产总值数据, 居民消费价格指数(CPI), 工业品出厂价格指数(PPI), 采购经理人指数(PMI), 存款准备金率数据, 货币供应量数据, 外汇储备数据, 货币汇率数据, 工业增加值增长, 财政收入, 社会消费品零售总额, 信贷数据, 外商直接投资数据(FDI), 利率数据, Shibor数据, 报价数据, Shibor均值数据, LPR数据 |
公司数据 | 新经济公司, 千里马公司, 独角兽公司, 倒闭公司, 商业特许经营公司 |
信息数据 | 新闻联播文字稿, 历史上的今日, 百度风云榜, 百度实时热点榜, 百度今日热点榜, 百度百科热词榜, 微博热搜榜, 微博新时代榜, 微信热词榜, 微信热门榜, 知乎热搜榜, 知乎热榜, 豆瓣排行榜, 豆瓣新片榜, 豆瓣一周口碑榜, 中国电竞价值排行榜, 俱乐部排行榜, 选手排行榜 |
生活数据 | 中国油价数据, 汽柴油历史调价信息, 调价日的地区油价历史数据 |
诗词数据 | 唐代诗人, 唐诗数据 |
影视数据 | 实时电影票房数据, 单日电影票房数据, 单日影院票房数据, 实时电视剧播映指数, 实时综艺播映指数, 艺人商业价值, 艺人流量价值 |
疫情数据 | 网易疫情数据, 丁香园疫情数据, 百度疫情数据, 疫情历史数据 |
迁徙数据 | 迁徙数据-百度 |
三,实际应用(代码实现以及展示效果)
(1)微博数据
这里我就使用密室大逃脱火树作为热词进行爬取:
当然我这里使用的是折线图也可以使用其他图种
# 导入 gopup 库作为 gp
import gopup as gp
# 导入 matplotlib 用于绘图
import matplotlib.pyplot as plt
# 使用 gopup 库的 weibo_index 函数获取微博指数数据
# 将 word 参数设置为 " ",以获取与搜索词 " " 相关的微博指数
# 将 time_type 参数设置为 "3month",以获取过去3个月的微博指数数据
df_index = gp.weibo_index(word="火树", time_type="3month")
# 打印获取到的微博指数数据
print(df_index)
# 使用 plot 函数绘制微博指数数据的图表
df_index.plot()
# 将图展示出来
plt.show()
数据 | 图表 |
---|---|
(2)豆瓣新片榜
1.展示所有获取的数据集
import gopup as gp # 导入gopup库,用于获取豆瓣新片榜数据
import pandas as pd
# 显示df_index中的所有数据,展示豆瓣新片榜的电影信息。
df_index = gp.douban_movie_list()
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
print(df_index)
截图截不下来这只是部分,具体看作者的文档中输出信息那一栏
2.只展示部分数据
# 导入 gopup 库作为 gp
import gopup as gp
# 导入 matplotlib 用于绘图
import matplotlib.pyplot as plt
# 获取电影数据
df_index = gp.douban_movie_list()
# 选择需要的列
df_filtered = df_index[['titleCn', 'description', 'ranking']]
# 去除 'titleCn' 列的字符串中的 '<'
df_filtered['titleCn'] = df_filtered['titleCn'].str.replace('<', '')
# 去除 'titleCn' 列的字符串中的 '\n'
df_filtered['titleCn'] = df_filtered['titleCn'].str.strip()
# 打印输出
print(df_filtered)
# 获取排名前10的电影数据
top10_df = df_filtered.sort_values('ranking').head(10)
# 创建饼状图
plt.figure(figsize=(6, 6))
plt.pie(top10_df['ranking'], labels=top10_df['titleCn'], autopct='%1.1f%%')
plt.title('豆瓣电影新片排行榜前10')
# 显示图表
plt.show()
数据图 | 饼状图 |
---|---|
(3)百度百科热词榜
# 导入gopup库,用于获取豆瓣新片榜数据
import gopup as gp
# 显示df_index中的所有数据,展示百度百科热词榜信息。
df_index = gp.baidu_hot_word_list()
# 打印输出
print(df_index)
四,注意事项
风险提示:GoPUP 项目所采集的数据皆来自公开的数据源,不涉及任何个人隐私数据和非公开数据。 同时本项目提供的数据接口及相关数据仅用于学术研究,任何个人、机构及团体使用本项目的数据接口及相关数据请注意商业风险。
部分接口已经失效,具体请阅读作者文档进行学习,有些需要cookie,有些需要注册获取tooken,方可使用
库文档链接
http://doc.gopup.cn/#/README
本库有详细的使用文档,进一步研究与学习,请参照库文档:
五,应用拓展
(1)使用它,你可以轻松地从股票交易所获取实时行情数据,了解市场动态;你也可以从各大社交媒体平台获取用户评论数据,进行情感分析;甚至可以获取全球各地的天气数据,做出准确的出行决策。
(2)如果你对数据可视化感兴趣,gopup库也能满足你的需求。通过它获取数据后,你可以使用各种图表库,如Matplotlib和Seaborn,将复杂的数据转化为美丽的图表,让数据讲述属于它们自己的故事。
(3)通过gopup库,数据分析再也不是一件难事!它简化了我们处理数据的流程,让我们更加专注于数据的探索和发现。无论你是一名数据分析新手还是一位经验丰富的专家,gopup库都将是你最好的伙伴。
六,总结及本文的作用
本文主要是对学习python基础后,进行延伸和练习的项目,也可以通过此来获取数据来为后续文本挖掘和自然语言处理的实行做好铺垫.