Python爬虫系列19-采集某视频中的弹幕信息

简介: 种一棵树最好的时间是十年前,其次是现在。不管自己想做一件什么样的事情,要么全力以赴,要么果断放弃,明确对生活的态度会让一切变得更好简单。当我们同时做很多件事情的时候,很有可能一件事情都做不好,倒不如专注的做好一件事,来的更好。

实战

image.png

代码源文件

import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
 
# 弹幕保存文件
file_name = '冷笑话.csv'
# 获取页面
cid = 161896483
url = "https://comment.bilibili.com/" + str(cid) + ".xml"
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
    }
request = requests.get(url=url, headers=headers)
request.encoding = 'utf-8'

# 提取弹幕
soup = BeautifulSoup(request.text, 'lxml')
results = soup.find_all('d')

# 数据处理
data = [data.text for data in results]
# 正则去掉多余的空格和换行 
for i in data: 
    i = re.sub('\s+', '', i)

# 查看数量
print("弹幕数量为:{}".format(len(data)))
 
# 输出到文件 
df = pd.DataFrame(data) 
df.to_csv(file_name, index=False, header=None, encoding="utf_8_sig")
print("写入文件成功")

image.png

如果学习上有遇到问题,加/:yiyi990805(备注:阿里云tony)即可。

如果本文对你学习有所帮助-可以点赞👍+ 关注!将持续更新更多新的文章。

相关文章
|
20小时前
|
数据采集 数据挖掘 API
主流电商平台数据采集API接口|【Python爬虫+数据分析】采集电商平台数据信息采集
随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序,抓取电商平台的商品信息、价格、评论等数据。 当然,如果是电商企业,跨境电商企业,ERP系统搭建,我们经常需要采集的平台多,数据量大,要求数据稳定供应,有并发需求,那就需要通过接入电商API数据采集接口,封装好的数据采集接口更方便稳定高效数据采集。
|
1天前
|
数据采集 数据处理 开发者
Python爬虫技术在数据收集与分析中的应用
随着互联网信息的爆炸式增长,数据收集与分析变得愈发重要。本文将介绍Python爬虫技术在实际项目中的应用,探讨其在数据收集、清洗和分析过程中的作用,以及如何利用Python相关库提高爬虫效率。
|
2天前
|
数据采集 存储 数据可视化
微博数据可视化分析:利用Python构建信息图表展示话题热度
微博数据可视化分析:利用Python构建信息图表展示话题热度
|
2天前
|
Web App开发 数据采集 前端开发
Python Selenium 爬虫淘宝案例
本文基于Selenium + MongoDB + ChromeDriver + Pyquery实现爬虫淘宝案例。
36 1
|
2天前
|
数据采集 JSON JavaScript
Python爬虫案例:抓取猫眼电影排行榜
python爬取猫眼电影排行榜数据分析,实战。(正则表达式,xpath,beautifulsoup)
34 2
|
3天前
|
机器学习/深度学习 数据采集 JSON
Python爬虫requests库详解#3
摘要:python requests库基用法,高级用法
26 0
|
3天前
|
数据采集 应用服务中间件 数据安全/隐私保护
Python爬虫urllib详解#3
摘要:urllib深度解析与高级用法、robots协议分析
38 1
Python爬虫urllib详解#3
|
3天前
|
数据采集 存储 前端开发
Python爬虫的基本原理#2
摘要:爬虫基本原理、会话和Cookie详解
25 1
|
10天前
|
数据采集 JSON 安全
Python爬虫之http基本原理#2
http基本原理,http报文解析,http请求过程
26 0
|
12天前
|
存储 数据采集 NoSQL
Python爬虫存储库安装#1
摘要:PyMySQL安装、PyMongo安装、redis-py安装、RedisDump安装
42 4