Python爬取哈尔滨旅游爆火视频数据并进行可视化分析

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: Python爬取哈尔滨旅游爆火视频数据并进行可视化分析

16IP (2).png

前言
哈尔滨作为中国北方的重要城市,独特的冰雪风情和丰富的文化底蕴而受到游客的青睐。随着抖音等短视频平台的兴起,越来越多关于哈尔滨旅游的视频在网络上出现文章旨在利用Python编程语言,从音视频网站上抓取哈尔滨旅游抖音相关视频数据,并通过数据可视化技术对这些数据进行分析,以期为旅游行业的发展和营销提供依据的大力支持。
需求场景
了解用户对于哈尔滨旅游的兴趣点和热门消费,以及他们对相关需求视频的喜好程度,对于旅游行业的市场营销和产品推广至关重要。因此,我们可以利用Python编程语言,从声音等短视频平台上爬取与哈尔滨旅游相关的视频数据,将这些数据进行分析和可视化展示,以便更好地了解用户的需求和喜好。
目标分析
我们的目标是通过Python编程语言实现以下两个主要目标:

  1. 从抖音等短视频平台上爬取与哈尔滨旅游相关的视频数据,包括视频标题、发布者、点赞数、评论数等信息。
  2. 对爬取的视频数据进行清理、整理和可视化分析,以便更好地了解用户对于哈尔滨旅游的兴趣和热度。
    爬取方案
    在爬取过程中,我们可能会遇到一些问题,例如网站反爬虫机制、页面结构变化等。为了解决这些问题,需要我们设计一个完整的爬取方案,包括以下步骤:
  3. 确定目标网站:首先确定要爬取的目标网站,例如抖音的搜索页面或特定用户的主页。
  4. 发送网络请求:使用Python中的请求发送网络请求,获取目标网页的HTML内容。
  5. 解析网页内容:使用BeautifulSoup等库解析HTML内容,提取出所需的视频信息,如标题、发布者、点赞数、评论数等。
  6. 数据存储:将提取到的视频存储到合适的数据结构中,如列表、字典或Pandas的DataFrame。
  7. 处理反爬虫机制:如果遇到网站的反爬虫,可能需要使用代理IP、用户代理等技术来规避限制机制。
    完整爬取过程如下所示:
    ```import requests
    from bs4 import BeautifulSoup

代理信息

proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

目标网站

url = 'https://www.douyin.com/search/哈尔滨旅游'

设置代理

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host": proxyHost,
"port": proxyPort,
"user": proxyUser,
"pass": proxyPass,
}
proxies = {
"http": proxyMeta,
"https": proxyMeta,
}

发送网络请求,获取网页内容

response = requests.get(url, proxies=proxies)
html_content = response.text

解析网页内容,提取视频信息

soup = BeautifulSoup(html_content, 'html.parser')
videos = soup.findall('div', class='video-item')

videodata = []
for video in videos:
title = video.find('p', class
='title').text
author = video.find('p', class='author').text
likes = video.find('p', class
='likes').text
comments = video.find('p', class_='comments').text
video_info = {
'Title': title,
'Author': author,
'Likes': likes,
'Comments': comments
}
video_data.append(video_info)

数据存储

import pandas as pd
df = pd.DataFrame(video_data)
print(df)


接下来,我们将使用Python中的数据处理和分析库Pandas和数据可视化库Matplotlib来对获取的视频数据进行可视化分析。以下是一个简单的示例代码,用于对视频点赞数和评论数进行可视化:
```import pandas as pd
import matplotlib.pyplot as plt

# 假设 video_data 是一个包含视频数据的 Pandas DataFrame
video_data = pd.DataFrame({
    'Title': ['Video 1', 'Video 2', 'Video 3', 'Video 4'],
    'Likes': [1000, 1500, 800, 2000],
    'Comments': [300, 500, 200, 600]
})

# 绘制柱状图
plt.figure(figsize=(10, 6))
plt.bar(video_data['Title'], video_data['Likes'], color='skyblue')
plt.xlabel('Video Title')
plt.ylabel('Likes')
plt.title('Likes of Harbin Tourism Videos')
plt.show()

# 绘制折线图
plt.figure(figsize=(10, 6))
plt.plot(video_data['Title'], video_data['Comments'], marker='o', color='orange')
plt.xlabel('Video Title')
plt.ylabel('Comments')
plt.title('Comments of Harbin Tourism Videos')
plt.show()

最后通过本文的介绍,读者可以了解如何使用Python编程语言从抖音等短视频平台上爬取哈尔滨旅游相关视频数据,并通过数据清洗、分析和可视化技术来深入挖掘这些数据的信息。旅游行业的发展和营销提供了有力的支持,帮助相关行业者更好地了解用户需求和市场趋势,从而制定更有效的营销策略和产品推广方案。

相关文章
|
11天前
|
计算机视觉 Python
Python实用记录(一):如何将不同类型视频按关键帧提取并保存图片,实现图片裁剪功能
这篇文章介绍了如何使用Python和OpenCV库从不同格式的视频文件中按关键帧提取图片,并展示了图片裁剪的方法。
38 0
|
11天前
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:智能数据隐私保护
使用Python实现深度学习模型:智能数据隐私保护 【10月更文挑战第3天】
40 0
|
9天前
|
数据处理 Python
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
这篇文章介绍了如何使用Python读取Excel文件中的数据,处理后将其保存为txt、xlsx和csv格式的文件。
27 3
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
|
9天前
|
计算机视觉 Python
Python实用记录(九):将不同的图绘制在一起、将不同txt文档中的数据绘制多条折线图
这篇文章介绍了如何使用Python的OpenCV库将多张图片合并为一张图片显示,以及如何使用matplotlib库从不同txt文档中读取数据并绘制多条折线图。
31 3
Python实用记录(九):将不同的图绘制在一起、将不同txt文档中的数据绘制多条折线图
|
10天前
|
数据可视化 算法 Python
基于OpenFOAM和Python的流场动态模态分解:从数据提取到POD-DMD分析
本文介绍了如何利用Python脚本结合动态模态分解(DMD)技术,分析从OpenFOAM模拟中提取的二维切片数据,以深入理解流体动力学现象。通过PyVista库处理VTK格式的模拟数据,进行POD和DMD分析,揭示流场中的主要能量结构及动态特征。此方法为研究复杂流动系统提供了有力工具。
22 2
基于OpenFOAM和Python的流场动态模态分解:从数据提取到POD-DMD分析
|
11天前
|
机器学习/深度学习 数据可视化 Python
Python实用记录(三):通过netron可视化模型
使用Netron工具在Python中可视化神经网络模型,包括安装Netron、创建文件和运行文件的步骤。
16 2
Python实用记录(三):通过netron可视化模型
|
3天前
|
数据安全/隐私保护 流计算 开发者
python知识点100篇系列(18)-解析m3u8文件的下载视频
【10月更文挑战第6天】m3u8是苹果公司推出的一种视频播放标准,采用UTF-8编码,主要用于记录视频的网络地址。HLS(Http Live Streaming)是苹果公司提出的一种基于HTTP的流媒体传输协议,通过m3u8索引文件按序访问ts文件,实现音视频播放。本文介绍了如何通过浏览器找到m3u8文件,解析m3u8文件获取ts文件地址,下载ts文件并解密(如有必要),最后使用ffmpeg合并ts文件为mp4文件。
|
6天前
|
自然语言处理 算法 数据挖掘
探讨如何利用Python中的NLP工具,从被动收集到主动分析文本数据的过程
【10月更文挑战第11天】本文介绍了自然语言处理(NLP)在文本分析中的应用,从被动收集到主动分析的过程。通过Python代码示例,详细展示了文本预处理、特征提取、情感分析和主题建模等关键技术,帮助读者理解如何有效利用NLP工具进行文本数据分析。
25 2
|
7天前
|
JSON 安全 数据安全/隐私保护
深度剖析:Python如何运用OAuth与JWT,为数据加上双保险🔐
【10月更文挑战第10天】本文介绍了OAuth 2.0和JSON Web Tokens (JWT) 两种现代Web应用中最流行的认证机制。通过使用Flask-OAuthlib和PyJWT库,详细展示了如何在Python环境中实现这两种认证方式,从而提升系统的安全性和开发效率。OAuth 2.0适用于授权过程,JWT则简化了认证流程,确保每次请求的安全性。结合两者,可以构建出既安全又高效的认证体系。
25 1
|
10天前
|
数据采集 Web App开发 数据可视化
Python爬虫教程:Selenium可视化爬虫的快速入门
Python爬虫教程:Selenium可视化爬虫的快速入门