爬虫实战小案例—获取喜马拉雅账号的关注数据和粉丝数据生成电子表格并实现批量关注或者取关然后生成表格文件

简介: 爬虫实战小案例—获取喜马拉雅账号的关注数据和粉丝数据生成电子表格并实现批量关注或者取关然后生成表格文件

爬虫案例—获取喜马拉雅账号的关注数据和粉丝数据生成电子表格并实现批量关注或者取关然后生成表格文件
有好多人平时应该很喜欢听喜马拉雅的广播,也有自己的账号。我本人平时很少听喜马拉雅广播,前几天一个朋友问我能不能帮他获取喜马拉雅账号的已关注的数据和粉丝的数据, 然后再查找有哪些自己已关注的但没有关注自己(也就是不是自己的粉丝)的,还有自己没关注的粉丝数据。接下来这个朋友又提出能不能帮助实现批量取关和关注数据,然后再生成一个关注和取关的数据表格文件。

大家听起来估计也有点绕了,我也是有这个同感。话不多说了,我接到他这个请求之后,第一时间想到用爬虫来实现这个功能。喜马拉雅的登录页面如下:

image.png

登录之后进入 个人主页,点击账号头像然后再点击个人页。如下图所示:
image.png
image.png

然后进入到个人主页,按下F12键进入开发者工具模式(Chrome浏览器),再点击关注标签,进入关注页面,如下图所示:

image.png

如红框所示就是关注页面的链接,点击红框可以看到headers请求头包含url,如下图所示:

image.png

通过分析此页面是异步加载方式,响应的数据为json格式,点击如下图红框所示的标签:

image.png

粉丝页面跟这个是同理。不在这里一一截图展示了。那么接下来就是如何获取关注和粉丝的数据了,登录账号以后,就很简单了,代码如下:

import pandas as pd
import requests
import datetime


headers = {
   
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
}


# 粉丝数据函数
def get_fans_info(fans_url):
    # cookies = {
   'Cookie':'_xmLog=h5&c8be971d-2bc5-45e7-8688-bcdd1db6756e&process.env.sdkVersion; xm-page-viewid=ximalaya-web; impl=www.ximalaya.com.login; x_xmly_traffic=utm_source%253A%2526utm_medium%253A%2526utm_campaign%253A%2526utm_content%253A%2526utm_term%253A%2526utm_from%253A; Hm_lvt_4a7d8ec50cfd6af753c4f8aee3425070=1704697013; wfp=ACM3OGI2ZWMyZjA0YmZmNzZjbgf-TtTrRsF4bXdlYl93d3c; 1&remember_me=y; 1&_token=460178701&BC39CDE0340ND8AF9619AA1EE929208BF9A358F59A66F0159C7A3207C10994A33085862F14E2119M775F0459473319F_; 1_l_flag=460178701&BC39CDE0340ND8AF9619AA1EE929208BF9A358F59A66F0159C7A3207C10994A33085862F14E2119M775F0459473319F__2024-01-2419:20:17; Hm_lpvt_4a7d8ec50cfd6af753c4f8aee3425070=1706145114; web_login=1706148245440'
    #    }
    session = requests.Session()
    res = session.get(fans_url, headers=headers)#, cookies=cookies)

    res_fans = res.json()['data']['fansPageInfo']
    fans_id = []
    fans_nickname = []
    for fan in res_fans:
        fans_id.append(fan['uid'])
        fans_nickname.append(fan['anchorNickName'])
    return fans_id, fans_nickname

    # return fans_lst


# 关注数据函数
def get_following_info(following_url):
    # cookies = {
   'Cookie':'_xmLog=h5&c8be971d-2bc5-45e7-8688-bcdd1db6756e&process.env.sdkVersion; xm-page-viewid=ximalaya-web; impl=www.ximalaya.com.login; x_xmly_traffic=utm_source%253A%2526utm_medium%253A%2526utm_campaign%253A%2526utm_content%253A%2526utm_term%253A%2526utm_from%253A; Hm_lvt_4a7d8ec50cfd6af753c4f8aee3425070=1704697013; wfp=ACM3OGI2ZWMyZjA0YmZmNzZjbgf-TtTrRsF4bXdlYl93d3c; 1&remember_me=y; 1&_token=460178701&BC39CDE0340ND8AF9619AA1EE929208BF9A358F59A66F0159C7A3207C10994A33085862F14E2119M775F0459473319F_; 1_l_flag=460178701&BC39CDE0340ND8AF9619AA1EE929208BF9A358F59A66F0159C7A3207C10994A33085862F14E2119M775F0459473319F__2024-01-2419:20:17; Hm_lpvt_4a7d8ec50cfd6af753c4f8aee3425070=1706148771; web_login=1706148792369'
    # }

    following_id = []
    following_nickname = []
    session = requests.Session()
    res_follow = session.get(following_url, headers=headers)#, cookies=cookies)
    follow_data = res_follow.json()['data']

    for following in follow_data['followingsPageInfo']:
        # if following['beFollow']:
        following_id.append(following['uid'])
        following_nickname.append(following['anchorNickName'])

    return following_id, following_nickname


if __name__ == '__main__':
    # 获取当前日期做文件名
    file_date = str(datetime.date.today())

    # 创建粉丝数据
    fans_data = {
   'UID': [],
                 '粉丝昵称': [],
                 }

    # 创建关注数据
    following_data = {
   
        'UID': [],
        '关注昵称': [],
    }

    # 创建没有去关注的粉丝数据
    un_following_fans_data = {
   
        'UID': [],
        '粉丝昵称': [],
    }

    # 创建已关注的非粉丝数据
    un_fans_following_data = {
   
        'UID': [],
        '关注昵称': [],
    }

    # 粉丝的数据遍历
    for i in range(1, 17):
        fans_url = f'https://www.ximalaya.com/revision/user/fans?page={i}&pageSize=10&keyWord=&uid=460178701'
        fans_id_lst, fans_nickname_lst = get_fans_info(fans_url)
        fans_data['UID'].extend(fans_id_lst)
        fans_data['粉丝昵称'].extend(fans_nickname_lst)

    # 已关注的数据遍历
    for n in range(1, 100):
        following_url = f'https://www.ximalaya.com/revision/user/following?page={n}&pageSize=10&keyWord=&uid=460178701'
        following_id_lst, following_nickname_lst = get_following_info(following_url)
        following_data['UID'].extend(following_id_lst)
        following_data['关注昵称'].extend(following_nickname_lst)

    # 已关注的非粉丝数据
    for person_uid in following_data['UID']:
        if person_uid not in fans_data['UID']:
            un_fans_following_data['UID'].append(person_uid)
            un_fans_following_data['关注昵称'].append(following_data['关注昵称'][following_data['UID'].index(person_uid)])

    # 没有去关注的粉丝数据
    for unfollow_uid in fans_data['UID']:
        if unfollow_uid not in following_data['UID']:
            un_following_fans_data['UID'].append(unfollow_uid)
            un_following_fans_data['粉丝昵称'].append(fans_data['粉丝昵称'][fans_data['UID'].index(unfollow_uid)])

    # 创建DataFrame对象
    df1 = pd.DataFrame(fans_data)
    df2 = pd.DataFrame(following_data)
    df3 = pd.DataFrame(un_fans_following_data)  # 关注的非粉丝数据
    df4 = pd.DataFrame(un_following_fans_data)  # 没有关注的粉丝数据

        # 文件生成的路径可以根据自己实际情况设置
    with pd.ExcelWriter(f"../喜马拉雅项目/喜马拉雅数据表-{file_date}.xlsx") as xlsx:
        df1.to_excel(xlsx, sheet_name="粉丝数据")
        df2.to_excel(xlsx, sheet_name="已关注数据")
        df3.to_excel(xlsx, sheet_name='已关注的非粉丝数据')
        df4.to_excel(xlsx, sheet_name='没有去关注的粉丝数据')
    print('数据输出成功!')
AI 代码解读

执行如上代码,会生成一个当日的获取数据。如下所示:

image.png

接下来,去实现批量关注和取消关注数据的操作,这里涉及到请求头里必须携带cookie,本人是通过手动获取的,因为hook技术我还不熟悉,如果有人熟悉,可以帮我完善一下我的代码,感谢!!!手动获取取消或者关注的cookie,如下图所示:

image.png
image.png

通过上图可以看到,取消关注的请求URL和请求方式POST,接下来点击Payload可以看到请求的data参数值,如下图所示:
image.png

点击cancelFollow可以看到红框内的Cookie值,如下图所示:

image.png

通过如上的分析,实现批量取关和关注的代码如下:

import requests
import pandas as pd
import datetime


headers = {
   
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
    'cookie': '你的cookie值'
}


# 定义操作
def set_follow(url, uid):
    session = requests.Session()
    data = {
   'followingUid': uid}
    res = session.post(url, headers=headers, data=data)
    if res.status_code == 200:
        print(f'{uid} ' + res.json()['msg'])
    if res.json()['msg'] == 'isMutualFollowed':
        print('此UID为互相关注')


# 取消关注
def cancel_follow(url, uid):
    session = requests.Session()
    data = {
   'followingUid': uid}
    res = session.post(url, headers=headers, data=data)
    if res.status_code == 200:
        print(f'{uid} ' + res.json()['msg'])


def uid_input():
    try:
        while 1:
            uid = input('请输入uid:(q/Q退出)')
            if uid.lower() == 'q':
                break
            data_dict['UID'].append(uid)
        return data_dict['UID']
    except:
        print('请核对输入信息!!!')


if __name__ == '__main__':

    file_date = str(datetime.date.today())
    cancel_follow_url = 'https://www.ximalaya.com/revision/follow/cancelFollow'
    set_follow_url = 'https://www.ximalaya.com/revision/follow/setFollow'

    url_dict = {
   '1': set_follow_url,
                '0': cancel_follow_url,
                }

    # 循环操作
    while 1:

        print('<操作选择>:', end='\t')
        operation = input('关注(1)取关(0)(q/Q)退出:')

        if operation == '1':
            data_dict = {
   'UID': []}
            data_uid = uid_input()
            for uid in data_uid:
                set_follow(url_dict['1'], int(uid))
            if data_dict['UID']:
                df1 = pd.DataFrame(data_dict)
                with pd.ExcelWriter(f"./关注-{file_date}.xlsx") as xlsx:
                    df1.to_excel(xlsx, sheet_name='关注数据',index=False)
        elif operation.lower() == 'q':
            break

        elif operation == '0':
            data_dict = {
   'UID': []}
            data_uid1 = uid_input()
            for uid in data_uid1:
                cancel_follow(url_dict['0'], int(uid))
            if data_dict['UID']:
                df2 = pd.DataFrame(data_dict)
                with pd.ExcelWriter(f"./取关-{file_date}.xlsx") as xlsx:
                    df2.to_excel(xlsx, sheet_name="取关数据", index=False)
        elif operation.lower() == 'q':
                break
AI 代码解读

运行如下图所示:
image.png

代码都是同步请求方式实现的,代码中的页面数目根据自己的实际情况可以修改。通过朋友验证,效果基本达到了他的要求。我也有点小小的成就感。

相关文章
Python爬虫与代理IP:高效抓取数据的实战指南
在数据驱动的时代,网络爬虫是获取信息的重要工具。本文详解如何用Python结合代理IP抓取数据:从基础概念(爬虫原理与代理作用)到环境搭建(核心库与代理选择),再到实战步骤(单线程、多线程及Scrapy框架应用)。同时探讨反爬策略、数据处理与存储,并强调伦理与法律边界。最后分享性能优化技巧,助您高效抓取公开数据,实现技术与伦理的平衡。
25 4
Python 原生爬虫教程:京东商品列表页面数据API
京东商品列表API是电商大数据分析的重要工具,支持开发者、商家和研究人员获取京东平台商品数据。通过关键词搜索、分类筛选、价格区间等条件,可返回多维度商品信息(如名称、价格、销量等),适用于市场调研与推荐系统开发。本文介绍其功能并提供Python请求示例。接口采用HTTP GET/POST方式,支持分页、排序等功能,满足多样化数据需求。
Python 原生爬虫教程:京东商品详情页面数据API
本文介绍京东商品详情API在电商领域的应用价值及功能。该API通过商品ID获取详细信息,如基本信息、价格、库存、描述和用户评价等,支持HTTP请求(GET/POST),返回JSON或XML格式数据。对于商家优化策略、开发者构建应用(如比价网站)以及消费者快速了解商品均有重要意义。研究此API有助于推动电商业务创新与发展。
无headers爬虫 vs 带headers爬虫:Python性能对比
无headers爬虫 vs 带headers爬虫:Python性能对比
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
273 6
Python 原生爬虫教程:网络爬虫的基本概念和认知
网络爬虫是一种自动抓取互联网信息的程序,广泛应用于搜索引擎、数据采集、新闻聚合和价格监控等领域。其工作流程包括 URL 调度、HTTP 请求、页面下载、解析、数据存储及新 URL 发现。Python 因其丰富的库(如 requests、BeautifulSoup、Scrapy)和简洁语法成为爬虫开发的首选语言。然而,在使用爬虫时需注意法律与道德问题,例如遵守 robots.txt 规则、控制请求频率以及合法使用数据,以确保爬虫技术健康有序发展。
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
445 4
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
【7月更文挑战第31天】在网络数据的海洋中,使用Python的`requests`库构建网络爬虫就像探索未知的航船。HTTP协议指导爬虫与服务器交流,收集信息。HTTP请求包括请求行、头和体,响应则含状态行、头和体。`requests`简化了发送各种HTTP请求的过程。
145 4
下一篇
oss创建bucket
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等