抓个电影弹幕

简介: 抓个电影弹幕

今天,我们来做个抓取电影弹幕的爬虫,以芒果TV网站上的免费电影《少年的你》为例,抓取一下芒果TV上电影的弹幕。

电影网页网址为:


https://www.mgtv.com/b/328217/7053545.html?lastp=list_index

分析一下这个网站,发现电影弹幕封存在json文件中,如下图:

封存弹幕的网址为:


https://bullet-ws.hitv.com/bullet/2022/06/19/012311/7053545/{i}.json

既然网址找到了,爬取就简单了,把电影拉到最后,发现最后一个弹幕为130,爬虫代码为:


import requestsimport pandas as pd
headers = {    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}df = pd.DataFrame()for i in range(0, 131):    resposen = requests.get(f'https://bullet-ws.hitv.com/bullet/2022/06/19/012311/7053545/{i}.json', headers=headers)    # 直接用json提取数据    for j in resposen.json()['data']['items']:        ids = j['ids']  # 用户id        content = j['content']  # 弹幕内容        time = j['time']  # 弹幕时间        # 有的不存在点赞数        try:              v2_up_count = j['v2_up_count']        except:            v2_up_count = ''        text = pd.DataFrame({'ids': [ids], '弹幕': [content], '发生时间': [time],'点赞数':[v2_up_count]})        df = pd.concat([df, text])df.to_csv('少年的你.csv', encoding='utf-8', index=False)

爬取结果为:

芒果TV的弹幕爬取还是比较简单、单一的,大家有时间试试手吧?,明天给大家放一下这个弹幕的词云

相关文章
|
9月前
|
监控 安全 测试技术
理解非功能需求---SRS软件需求规格指南系列
本文全面解析非功能需求(NFR),涵盖性能、安全性、可靠性、可用性、可扩展性等关键质量属性。内容包括定义、现实案例及最佳实践,帮助团队在软件开发生命周期中有效识别、记录与管理NFR,确保系统满足利益相关者期望与行业标准。
744 3
|
存储 数据安全/隐私保护
Alist ——本地网盘管理器
Alist ——本地网盘管理器
22034 1
|
存储 人工智能 监控
大牛直播SDK在四足机器人和无人机巡检中的创新应用方案
在工业4.0和智能化浪潮下,传统巡检方式正经历深刻变革。四足机器人与无人机凭借灵活机动性和高效巡检能力崭露头角,而大牛直播SDK则赋予其实时直播与智能互动功能。本文介绍大牛直播SDK的核心优势、在四足机器人和无人机巡检中的应用方案,以及技术实现要点和未来展望,展示智能巡检的广阔前景。
418 6
|
10月前
|
Prometheus 监控 数据可视化
模型被挤了?立即查看服务器GPU/CPU占用,别再误杀他人进程!
模型在服务器上跑得好好的,突然就“卡”了甚至被挤掉?别急着抱怨!本文手把手教你如何优雅地查看共享服务器的CPU和GPU占用情况,学会做一个有素质的“共享玩家”,告别模型被挤的尴尬!文末还有硬核忠告和Linux学习建议。
1559 87
|
9月前
|
存储 安全 文件存储
改造旧手机,秒变家庭存储服务器
本文介绍了如何利用旧手机安装AList Flutter搭建内网服务器,以替代传统云存储和NAS。方案兼顾文件安全与下载速度,且成本低廉,适合个人用户。内容包括所需工具、安装步骤及基础配置,帮助用户快速实现本地化文件管理。后续还将介绍如何实现公网访问。
2257 1
|
9月前
|
人工智能 JSON JavaScript
这个开源的「AI + 低代码」开发平台绝了,Gitee上斩获 9.2K Star!
VTJ.PRO 是一款 AI 驱动的低代码开发平台,深度融合 Vue3 技术栈,支持可视化设计与源码级编辑双向自由切换。通过 AI 智能生成、代码修复、跨端输出等能力,大幅提升前端开发效率,实现设计即代码、代码即设计的高效工作流,适用于原型开发、项目重构等多种场景。平台完全开源,提供在线沙盒与本地部署,助力开发者兼顾开发速度与代码自由度。
956 0
|
数据可视化 项目管理
个人和团队都好用的年度复盘工具:看板与KPT方法解析
本文带你了解高效方法KPT复盘法(Keep、Problem、Try),结合看板工具,帮助你理清头绪,快速完成年度复盘。
1399 7
个人和团队都好用的年度复盘工具:看板与KPT方法解析
|
机器学习/深度学习 PyTorch API
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本
Transformer架构自2017年被Vaswani等人提出以来,凭借其核心的注意力机制,已成为AI领域的重大突破。该机制允许模型根据任务需求灵活聚焦于输入的不同部分,极大地增强了对复杂语言和结构的理解能力。起初主要应用于自然语言处理,Transformer迅速扩展至语音识别、计算机视觉等多领域,展现出强大的跨学科应用潜力。然而,随着模型规模的增长,注意力层的高计算复杂度成为发展瓶颈。为此,本文探讨了在PyTorch生态系统中优化注意力层的各种技术,
950 6
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本
|
数据可视化 数据处理 数据库
【Python篇】PyQt5 超详细教程——由入门到精通(中篇一)
【Python篇】PyQt5 超详细教程——由入门到精通(中篇一)
1290 2
|
安全 Linux 开发者
Linux笔记之ldd命令详解
`ldd`命令是Linux环境下一个非常实用的工具,用于显示一个程序运行时所需的共享库依赖。它帮助开发者和系统管理员快速诊断程序运行问题,特别是在处理"找不到库文件"或者"错误的库文件版本"等错误时。然而,出于安全的考虑,对于不信任的可执行文件,应该慎用 `ldd`命令,可以考虑使用其他工具如 `objdump`。总的来说,懂得如何妥善且安全地使用 `ldd`,对于维护一个稳定和高效的Linux系统来说,是非常重要的。
1159 9

热门文章

最新文章

下一篇
开通oss服务