python爬取微博热搜评论数据

简介: 如何使用pythonp爬取微博热搜上有关的评论数据

在内地颇具影响力的TVB与淘宝直播的首次合作已经开启了,特别是在合同公布之后,TVB的股价大涨。近些年,在明星涌入跨界直播带货的浪潮中,也不乏TVB艺人的身影,

根据大数据显示电商直播的用户群体还是以女性为主。香港艺人在内地对70后、80后影响较大,从年龄分布上看,35岁以上的人群,无论是在淘宝、抖音还是快手用户群体中占比都是偏低的,但是市场分析认为,TVB在内地市场拥有广泛的认知度,选择在国内用户基础最大的淘宝开播能更好的放大其影响力。

有很多的港剧迷调侃,“宇宙的尽头是直播。”也有粉丝非常捧场,称有了TVB这个渠道后,买一些正宗“港货”会更方便了,“就这一点而言,TVB新开拓的这条路线很有前景。”但还是有网友觉得,“更想看他们好好演戏”。

QQ图片20230308152215.png

关于粉丝们的各种评论我想大家肯定都比较感兴趣,这里我们可以使用python爬取微博上有关tvb艺人直播热搜下得各种评论数据。

首先是微博热搜内容网址:https://s.weibo.com/weibo?q=TV

经分析,微博热搜数据就在网页中,可以直接requests请求,然后BeautifulSoup解析获取内容,但是微博一直都有很严的反爬机制,特别是对IP的限制都很严格,所以在爬取过程中我们可以使用python爬虫+爬虫代理加强版IP+BeautifulSoup来完成数据的爬取,完整代码如下:

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class Demo {
    public static void main(String[] args) {
        try{
            // 代理服务器(产品官网 www.16yun.cn)
            final static String ProxyHost = "t.16yun.cn";
            final static String ProxyPort = "31111";
            System.setProperty("http.proxyHost", ProxyHost);
            System.setProperty("https.proxyHost", ProxyHost);
            System.setProperty("http.proxyPort", ProxyPort);
            System.setProperty("https.proxyPort", ProxyPort);
            // 代理验证信息
            final static String ProxyUser = "16EOBZOI";
            final static String ProxyPass = "125478";
            System.setProperty("http.proxyUser", ProxyUser);
            System.setProperty("http.proxyPassword", ProxyPass);
            System.setProperty("https.proxyUser", ProxyUser);
            System.setProperty("https.proxyPassword", ProxyPass);
            // 设置IP切换头
            final static String ProxyHeadKey = "Proxy-Tunnel";
            // 设置Proxy-Tunnel
            Random random = new Random();
            int tunnel = random.nextInt(10000);
            String ProxyHeadVal = String.valueOf(tunnel);
            // 处理异常、其他参数
            Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).get();
            if(doc != null) {
                System.out.println(doc.body().html());
            }
        }catch (IOException e)
        {
            e.printStackTrace();
        }
    }
}
相关文章
|
1月前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
111 10
|
11天前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
1月前
|
数据采集 分布式计算 大数据
构建高效的数据管道:使用Python进行ETL任务
在数据驱动的世界中,高效地处理和移动数据是至关重要的。本文将引导你通过一个实际的Python ETL(提取、转换、加载)项目,从概念到实现。我们将探索如何设计一个灵活且可扩展的数据管道,确保数据的准确性和完整性。无论你是数据工程师、分析师还是任何对数据处理感兴趣的人,这篇文章都将成为你工具箱中的宝贵资源。
|
2月前
|
传感器 物联网 开发者
使用Python读取串行设备的温度数据
本文介绍了如何使用Python通过串行接口(如UART、RS-232或RS-485)读取温度传感器的数据。详细步骤包括硬件连接、安装`pyserial`库、配置串行端口、发送请求及解析响应等。适合嵌入式系统和物联网应用开发者参考。
64 3
|
2月前
|
数据采集 JavaScript 程序员
探索CSDN博客数据:使用Python爬虫技术
本文介绍了如何利用Python的requests和pyquery库爬取CSDN博客数据,包括环境准备、代码解析及注意事项,适合初学者学习。
95 0
|
数据安全/隐私保护 数据格式 Python
python爬取快手商品数据
python爬取快手商品数据
|
数据采集 Python
python使用aiohttp通过设置代理爬取基金数据
python使用aiohttp通过设置代理爬取基金数据
|
数据采集 前端开发 搜索推荐
python如何通过分布式爬虫爬取舆情数据
python如何通过分布式爬虫爬取舆情数据
python如何通过分布式爬虫爬取舆情数据
|
数据采集 Web App开发 JSON
python爬取共享单车悄然涨价大众的评论数据
python爬取共享单车悄然涨价大众的评论数据
|
数据采集 Python
python爬取叮咚买菜评价数据
python爬取叮咚买菜评价数据