python爬取微博热搜评论数据

简介: 如何使用pythonp爬取微博热搜上有关的评论数据

在内地颇具影响力的TVB与淘宝直播的首次合作已经开启了,特别是在合同公布之后,TVB的股价大涨。近些年,在明星涌入跨界直播带货的浪潮中,也不乏TVB艺人的身影,

根据大数据显示电商直播的用户群体还是以女性为主。香港艺人在内地对70后、80后影响较大,从年龄分布上看,35岁以上的人群,无论是在淘宝、抖音还是快手用户群体中占比都是偏低的,但是市场分析认为,TVB在内地市场拥有广泛的认知度,选择在国内用户基础最大的淘宝开播能更好的放大其影响力。

有很多的港剧迷调侃,“宇宙的尽头是直播。”也有粉丝非常捧场,称有了TVB这个渠道后,买一些正宗“港货”会更方便了,“就这一点而言,TVB新开拓的这条路线很有前景。”但还是有网友觉得,“更想看他们好好演戏”。

QQ图片20230308152215.png

关于粉丝们的各种评论我想大家肯定都比较感兴趣,这里我们可以使用python爬取微博上有关tvb艺人直播热搜下得各种评论数据。

首先是微博热搜内容网址:https://s.weibo.com/weibo?q=TV

经分析,微博热搜数据就在网页中,可以直接requests请求,然后BeautifulSoup解析获取内容,但是微博一直都有很严的反爬机制,特别是对IP的限制都很严格,所以在爬取过程中我们可以使用python爬虫+爬虫代理加强版IP+BeautifulSoup来完成数据的爬取,完整代码如下:

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class Demo {
    public static void main(String[] args) {
        try{
            // 代理服务器(产品官网 www.16yun.cn)
            final static String ProxyHost = "t.16yun.cn";
            final static String ProxyPort = "31111";
            System.setProperty("http.proxyHost", ProxyHost);
            System.setProperty("https.proxyHost", ProxyHost);
            System.setProperty("http.proxyPort", ProxyPort);
            System.setProperty("https.proxyPort", ProxyPort);
            // 代理验证信息
            final static String ProxyUser = "16EOBZOI";
            final static String ProxyPass = "125478";
            System.setProperty("http.proxyUser", ProxyUser);
            System.setProperty("http.proxyPassword", ProxyPass);
            System.setProperty("https.proxyUser", ProxyUser);
            System.setProperty("https.proxyPassword", ProxyPass);
            // 设置IP切换头
            final static String ProxyHeadKey = "Proxy-Tunnel";
            // 设置Proxy-Tunnel
            Random random = new Random();
            int tunnel = random.nextInt(10000);
            String ProxyHeadVal = String.valueOf(tunnel);
            // 处理异常、其他参数
            Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).get();
            if(doc != null) {
                System.out.println(doc.body().html());
            }
        }catch (IOException e)
        {
            e.printStackTrace();
        }
    }
}
相关文章
|
1月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
1110 1
|
1月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
369 0
|
1月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
1月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
2月前
|
数据采集 关系型数据库 MySQL
python爬取数据存入数据库
Python爬虫结合Scrapy与SQLAlchemy,实现高效数据采集并存入MySQL/PostgreSQL/SQLite。通过ORM映射、连接池优化与批量提交,支持百万级数据高速写入,具备良好的可扩展性与稳定性。
|
2月前
|
JSON API 数据安全/隐私保护
Python采集淘宝评论API接口及JSON数据返回全流程指南
Python采集淘宝评论API接口及JSON数据返回全流程指南
|
2月前
|
自然语言处理 算法 数据安全/隐私保护
item_review - Lazada 商品评论列表接口深度分析及 Python 实现
Lazada商品评论接口(item_review)可获取东南亚多国用户评分、评论内容、购买属性等数据,助力卖家分析消费者偏好、优化产品与营销策略。
|
数据安全/隐私保护 数据格式 Python
python爬取快手商品数据
python爬取快手商品数据
|
数据采集 前端开发 搜索推荐
python如何通过分布式爬虫爬取舆情数据
python如何通过分布式爬虫爬取舆情数据
python如何通过分布式爬虫爬取舆情数据

推荐镜像

更多