文档备案控制台

开发者社区大数据文章正文

抓个电影弹幕

2024-09-28 388

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 抓个电影弹幕

今天，我们来做个抓取电影弹幕的爬虫，以芒果TV网站上的免费电影《少年的你》为例，抓取一下芒果TV上电影的弹幕。

电影网页网址为：

https://www.mgtv.com/b/328217/7053545.html?lastp=list_index

分析一下这个网站，发现电影弹幕封存在json文件中，如下图：

封存弹幕的网址为：

https://bullet-ws.hitv.com/bullet/2022/06/19/012311/7053545/{i}.json

既然网址找到了，爬取就简单了，把电影拉到最后，发现最后一个弹幕为130，爬虫代码为：

import requestsimport pandas as pd
headers = {    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}df = pd.DataFrame()for i in range(0, 131):    resposen = requests.get(f'https://bullet-ws.hitv.com/bullet/2022/06/19/012311/7053545/{i}.json', headers=headers)    # 直接用json提取数据    for j in resposen.json()['data']['items']:        ids = j['ids']  # 用户id        content = j['content']  # 弹幕内容        time = j['time']  # 弹幕时间        # 有的不存在点赞数        try:              v2_up_count = j['v2_up_count']        except:            v2_up_count = ''        text = pd.DataFrame({'ids': [ids], '弹幕': [content], '发生时间': [time],'点赞数':[v2_up_count]})        df = pd.concat([df, text])df.to_csv('少年的你.csv', encoding='utf-8', index=False)

爬取结果为：

芒果TV的弹幕爬取还是比较简单、单一的，大家有时间试试手吧？，明天给大家放一下这个弹幕的词云

文章标签：

数据采集

数据格式

JSON

gudanhero2018

目录

相关文章

reddish

|

监控安全测试技术

理解非功能需求---SRS软件需求规格指南系列

本文全面解析非功能需求（NFR），涵盖性能、安全性、可靠性、可用性、可扩展性等关键质量属性。内容包括定义、现实案例及最佳实践，帮助团队在软件开发生命周期中有效识别、记录与管理NFR，确保系统满足利益相关者期望与行业标准。

reddish

1006 3 3

智物科技库

|

XML SQL Java

MyBatis 的延迟加载是如何实现的

MyBatis的延迟加载（懒加载）特性提高了性能，只在需要时加载关联数据。配置延迟加载需在`mybatis-config.xml`中设置`lazyLoadingEnabled`为`true`，`aggressiveLazyLoading`为`false`。实现原理基于代理对象，MyBatis为延迟加载属性创建代理，在访问时触发实际查询。代理通过Java动态代理实现，拦截方法调用，按需加载数据。

智物科技库

687 0 0

阿旭算法与机器学习

|

机器学习/深度学习传感器人工智能

敢不敢和AI比猜拳？能赢算我输----基于手势识别的AI猜拳游戏【含python源码+PyqtUI界面+原理详解】-python手势识别深度学习实战项目

敢不敢和AI比猜拳？能赢算我输----基于手势识别的AI猜拳游戏【含python源码+PyqtUI界面+原理详解】-python手势识别深度学习实战项目

阿旭算法与机器学习

1084 0 0

VipSoft

|

Windows

Windows 映射网络驱动器及删除-此网格连接不存在

Windows 映射网络驱动器及删除-此网格连接不存在

VipSoft

1821 0 0

Deephub

|

机器学习/深度学习 PyTorch API

优化注意力层提升 Transformer 模型效率：通过改进注意力机制降低机器学习成本

Transformer架构自2017年被Vaswani等人提出以来，凭借其核心的注意力机制，已成为AI领域的重大突破。该机制允许模型根据任务需求灵活聚焦于输入的不同部分，极大地增强了对复杂语言和结构的理解能力。起初主要应用于自然语言处理，Transformer迅速扩展至语音识别、计算机视觉等多领域，展现出强大的跨学科应用潜力。然而，随着模型规模的增长，注意力层的高计算复杂度成为发展瓶颈。为此，本文探讨了在PyTorch生态系统中优化注意力层的各种技术，

Deephub

1195 6 6

优化注意力层提升 Transformer 模型效率：通过改进注意力机制降低机器学习成本

余二五

|

监控负载均衡网络协议

haproxy 配置详解

余二五

4157 0 0

效率时空

|

数据可视化项目管理

个人和团队都好用的年度复盘工具：看板与KPT方法解析

本文带你了解高效方法KPT复盘法（Keep、Problem、Try），结合看板工具，帮助你理清头绪，快速完成年度复盘。

效率时空

1661 7 7

个人和团队都好用的年度复盘工具：看板与KPT方法解析

5i77ajz5u7ji6

|

机器学习/深度学习编解码人工智能

SAM-Med | 英伟达基于SAM提出医学图像标注效率神器

SAM-Med | 英伟达基于SAM提出医学图像标注效率神器

5i77ajz5u7ji6

919 0 0

veyqsldnmor5c

|

算法 Java C++

Java中的标号（Labels）与标签语句（Labeled Statements）深入解析

Java中的标号（Labels）与标签语句（Labeled Statements）深入解析

veyqsldnmor5c

923 0 0

蓝易云

|

安全 Linux 开发者

Linux笔记之ldd命令详解

`ldd`命令是Linux环境下一个非常实用的工具，用于显示一个程序运行时所需的共享库依赖。它帮助开发者和系统管理员快速诊断程序运行问题，特别是在处理"找不到库文件"或者"错误的库文件版本"等错误时。然而，出于安全的考虑，对于不信任的可执行文件，应该慎用 `ldd`命令，可以考虑使用其他工具如 `objdump`。总的来说，懂得如何妥善且安全地使用 `ldd`，对于维护一个稳定和高效的Linux系统来说，是非常重要的。

蓝易云

1336 9 9

热门文章

最新文章

Redis性能高30%，阿里云倚天ECS性能摸底和迁移实践

设计模式（C++版）

灵骏可预期网络：Built for AI Infrastructure

如何保证分布式文件系统的数据一致性

抽丝剥茧C语言（初阶下）（下）

重生之---我测阿里云U1实例(通用算力型)

HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局（上）

带你简单了解Chatgpt背后的秘密：大语言模型所需要条件（数据算法算力）以及其当前阶段的缺点局限性

【分布式技术专题】「分布式技术架构」手把手教你如何开发一个属于自己的限流器RateLimiter功能服务

租车服务平台交易架构搭建与合规分账实践 —— 基于阿里云技术体系落地分享

芯片表面缺陷目标检测数据集：4类别、2,500张图像 | 目标检测

从找到资源到放心调用：智能体互联网为什么需要信任层

为什么多智能体协作正在从应用问题变成基础设施问题

阿里云Qwen3.7 Max与Plus全维度实测对比：多模态能力、架构、资费与选型指南

阿里云通义千问大模型最新功能介绍

阿里云ECS、GPU云服务器、轻量服务器与AI云产品全解析：配置、价格与性能深度测评

折腾了一圈桌面Agent之后，我把经验一次性写清楚

网站搭建安全加固-禁用 Tomcat 默认管理后台与隐藏版本号

基于 YOLO11 的睡岗检测训练实践：从数据集到云上工程化管理

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！