Python---20行代码爬取斗鱼平台房间数据(下)

简介: 在上一篇中,已经详细的讲解了如何获取数据,接下来是深度处理数据,这里调用xlsxwriter库来制作Excel表格。工具:Python3.6.5,Pycharm1.

上一篇中,已经详细的讲解了如何获取数据,接下来是深度处理数据,这里调用xlsxwriter库来制作Excel表格。
工具:Python3.6.5,Pycharm


1.模块介绍

XlsxWriter模块具有的功能:

  • 100%兼容Excel的*.xlsx文件,支持Excel2003,Excel2007等版本
  • (Excel2003-和Excel2007的拓展名为*.xls)
  • 支持所有Excel单元格数据格式
  • 单元格合并、批注、自动筛选、丰富多格式字符串等
  • 支持工作表JPG、PNG图像,自定义图标
  • 内存优化模式支持写入大文件

2.模块安装

pip install xlsxwriter
# 在命令行中输入此代码
# 目前最新版本为1.0.0,官网文档介绍支持Python2.5-3.5,但目前使用Python3.6未发生异常

模块的具体用法可以参考这两个网站(感谢这两个网站提供解释):
官方xlsxwriter解释
CSDN吴芒果:XlsxWriter模块实现Excel操作


3.模块使用

import xlsxwriter

workbook = xlsxwriter.Workbook('Demo1.xlsx')    # 创建一个名为‘Demo1.xlsx’的工作表
worksheet = workbook.add_worksheet()            # 创建一个工作表对象

worksheet.set_column('A:A', 20)                 # 设定第一列(A)的宽度为20px
# bold = workbook.add_format({'blod': True})

worksheet.write('A1', 'Hello World!')           # A1单元格写入‘Hello World!’
worksheet.write('A2', '你好,世界!')             # A2单元格写入‘你好,世界!’

# 行列表示法的单元格下标以0作为起始值,如‘3,0’等价于‘A4’
worksheet.write(2, 0, 123)              # 使用列行表示法写入数字‘123’
worksheet.write(3, 0, 456)              # 使用列行表示法写入数字‘456’
worksheet.write(4, 0, '=SUM(A3:A4)')    # 求A3:A4的和,并写入‘4,0’,即‘A5’

worksheet.insert_image('A5', 'XLSX.png')        # 在A5单元格插入图片
workbook.close()        # 关闭Excel文件
img_1936923b26b58036add52fedc2714b3f.png
运行结果

4.如何运用到上一篇(爬取斗鱼房间数据)中去

上一篇链接

import requests
import json
import xlsxwriter

workbook = xlsxwriter.Workbook('E:\\DOUYU.xlsx')
worksheet = workbook.add_worksheet()
worksheet.set_column('A:A', 20)
worksheet.set_column('B:B', 10)
worksheet.set_column('C:C', 40)
worksheet.set_column('D:D', 10)
p = 0
urls = ['https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(page) for page in range(1, 5)]
for url in urls:
    res = requests.get(url)
    j = json.loads(res.text)
    l1 = j['data']
    l2 = l1['rl']
    p = p+1
    for i in range(len(l2)):
        Anchor = l2[i]['nn']              # 获取主播名字
        RoomNumber = l2[i]['rid']         # 获取房间号
        Heat = l2[i]['ol']                # 获取热度
        RoomName = l2[i]['rn']            # 获取房间名
        worksheet.write(int(i+120*(p-1)), 0, Anchor)   
        worksheet.write(int(i+120*(p-1)), 1, RoomNumber)
        worksheet.write(int(i+120*(p-1)), 2, RoomName)
        worksheet.write(int(i+120*(p-1)), 3, Heat)
# i+120*(p-1):120是因为每一页有120个房间,本次爬取了5页房间数据,用了p = p+1来使得Excel表格能连续记录数据
# 当时遇到的问题:在不添加120*(p-1)时,发现只能爬取120个房间数据,再看了遍代码,发现数据是被覆盖了
workbook.close()
print('斗鱼房间数据已保存')
img_9eaffe96227c164921f952bb5914241d.png
主播、房间号、房间名、热度
  • 后续可以使用Excel的排序,制表等功能来处理数据,或者用BDP来处理!

有发现错误或看不懂的可以在评论区提出,一定会第一时间回复你!
如对你有帮助记得关注点赞哦!

目录
相关文章
|
2月前
|
数据可视化 关系型数据库 MySQL
基于python大数据的的海洋气象数据可视化平台
针对海洋气象数据量大、维度多的挑战,设计基于ECharts的可视化平台,结合Python、Django与MySQL,实现数据高效展示与交互分析,提升科研与决策效率。
|
3月前
|
存储 算法 调度
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
【复现】【遗传算法】考虑储能和可再生能源消纳责任制的售电公司购售电策略(Python代码实现)
203 26
|
2月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
1460 1
|
3月前
|
测试技术 开发者 Python
Python单元测试入门:3个核心断言方法,帮你快速定位代码bug
本文介绍Python单元测试基础,详解`unittest`框架中的三大核心断言方法:`assertEqual`验证值相等,`assertTrue`和`assertFalse`判断条件真假。通过实例演示其用法,帮助开发者自动化检测代码逻辑,提升测试效率与可靠性。
372 1
|
2月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
449 0
|
2月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
2月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
2月前
|
测试技术 Python
Python装饰器:为你的代码施展“魔法”
Python装饰器:为你的代码施展“魔法”
260 100
|
2月前
|
开发者 Python
Python列表推导式:一行代码的艺术与力量
Python列表推导式:一行代码的艺术与力量
422 95
|
3月前
|
Python
Python的简洁之道:5个让代码更优雅的技巧
Python的简洁之道:5个让代码更优雅的技巧
264 104

推荐镜像

更多