爬虫实战小案例—获取喜马拉雅账号的关注数据和粉丝数据生成电子表格并实现批量关注或者取关然后生成表格文件

简介: 爬虫实战小案例—获取喜马拉雅账号的关注数据和粉丝数据生成电子表格并实现批量关注或者取关然后生成表格文件

爬虫案例—获取喜马拉雅账号的关注数据和粉丝数据生成电子表格并实现批量关注或者取关然后生成表格文件
有好多人平时应该很喜欢听喜马拉雅的广播,也有自己的账号。我本人平时很少听喜马拉雅广播,前几天一个朋友问我能不能帮他获取喜马拉雅账号的已关注的数据和粉丝的数据, 然后再查找有哪些自己已关注的但没有关注自己(也就是不是自己的粉丝)的,还有自己没关注的粉丝数据。接下来这个朋友又提出能不能帮助实现批量取关和关注数据,然后再生成一个关注和取关的数据表格文件。

大家听起来估计也有点绕了,我也是有这个同感。话不多说了,我接到他这个请求之后,第一时间想到用爬虫来实现这个功能。喜马拉雅的登录页面如下:

image.png

登录之后进入 个人主页,点击账号头像然后再点击个人页。如下图所示:
image.png
image.png

然后进入到个人主页,按下F12键进入开发者工具模式(Chrome浏览器),再点击关注标签,进入关注页面,如下图所示:

image.png

如红框所示就是关注页面的链接,点击红框可以看到headers请求头包含url,如下图所示:

image.png

通过分析此页面是异步加载方式,响应的数据为json格式,点击如下图红框所示的标签:

image.png

粉丝页面跟这个是同理。不在这里一一截图展示了。那么接下来就是如何获取关注和粉丝的数据了,登录账号以后,就很简单了,代码如下:

import pandas as pd
import requests
import datetime


headers = {
   
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
}


# 粉丝数据函数
def get_fans_info(fans_url):
    # cookies = {
   'Cookie':'_xmLog=h5&c8be971d-2bc5-45e7-8688-bcdd1db6756e&process.env.sdkVersion; xm-page-viewid=ximalaya-web; impl=www.ximalaya.com.login; x_xmly_traffic=utm_source%253A%2526utm_medium%253A%2526utm_campaign%253A%2526utm_content%253A%2526utm_term%253A%2526utm_from%253A; Hm_lvt_4a7d8ec50cfd6af753c4f8aee3425070=1704697013; wfp=ACM3OGI2ZWMyZjA0YmZmNzZjbgf-TtTrRsF4bXdlYl93d3c; 1&remember_me=y; 1&_token=460178701&BC39CDE0340ND8AF9619AA1EE929208BF9A358F59A66F0159C7A3207C10994A33085862F14E2119M775F0459473319F_; 1_l_flag=460178701&BC39CDE0340ND8AF9619AA1EE929208BF9A358F59A66F0159C7A3207C10994A33085862F14E2119M775F0459473319F__2024-01-2419:20:17; Hm_lpvt_4a7d8ec50cfd6af753c4f8aee3425070=1706145114; web_login=1706148245440'
    #    }
    session = requests.Session()
    res = session.get(fans_url, headers=headers)#, cookies=cookies)

    res_fans = res.json()['data']['fansPageInfo']
    fans_id = []
    fans_nickname = []
    for fan in res_fans:
        fans_id.append(fan['uid'])
        fans_nickname.append(fan['anchorNickName'])
    return fans_id, fans_nickname

    # return fans_lst


# 关注数据函数
def get_following_info(following_url):
    # cookies = {
   'Cookie':'_xmLog=h5&c8be971d-2bc5-45e7-8688-bcdd1db6756e&process.env.sdkVersion; xm-page-viewid=ximalaya-web; impl=www.ximalaya.com.login; x_xmly_traffic=utm_source%253A%2526utm_medium%253A%2526utm_campaign%253A%2526utm_content%253A%2526utm_term%253A%2526utm_from%253A; Hm_lvt_4a7d8ec50cfd6af753c4f8aee3425070=1704697013; wfp=ACM3OGI2ZWMyZjA0YmZmNzZjbgf-TtTrRsF4bXdlYl93d3c; 1&remember_me=y; 1&_token=460178701&BC39CDE0340ND8AF9619AA1EE929208BF9A358F59A66F0159C7A3207C10994A33085862F14E2119M775F0459473319F_; 1_l_flag=460178701&BC39CDE0340ND8AF9619AA1EE929208BF9A358F59A66F0159C7A3207C10994A33085862F14E2119M775F0459473319F__2024-01-2419:20:17; Hm_lpvt_4a7d8ec50cfd6af753c4f8aee3425070=1706148771; web_login=1706148792369'
    # }

    following_id = []
    following_nickname = []
    session = requests.Session()
    res_follow = session.get(following_url, headers=headers)#, cookies=cookies)
    follow_data = res_follow.json()['data']

    for following in follow_data['followingsPageInfo']:
        # if following['beFollow']:
        following_id.append(following['uid'])
        following_nickname.append(following['anchorNickName'])

    return following_id, following_nickname


if __name__ == '__main__':
    # 获取当前日期做文件名
    file_date = str(datetime.date.today())

    # 创建粉丝数据
    fans_data = {
   'UID': [],
                 '粉丝昵称': [],
                 }

    # 创建关注数据
    following_data = {
   
        'UID': [],
        '关注昵称': [],
    }

    # 创建没有去关注的粉丝数据
    un_following_fans_data = {
   
        'UID': [],
        '粉丝昵称': [],
    }

    # 创建已关注的非粉丝数据
    un_fans_following_data = {
   
        'UID': [],
        '关注昵称': [],
    }

    # 粉丝的数据遍历
    for i in range(1, 17):
        fans_url = f'https://www.ximalaya.com/revision/user/fans?page={i}&pageSize=10&keyWord=&uid=460178701'
        fans_id_lst, fans_nickname_lst = get_fans_info(fans_url)
        fans_data['UID'].extend(fans_id_lst)
        fans_data['粉丝昵称'].extend(fans_nickname_lst)

    # 已关注的数据遍历
    for n in range(1, 100):
        following_url = f'https://www.ximalaya.com/revision/user/following?page={n}&pageSize=10&keyWord=&uid=460178701'
        following_id_lst, following_nickname_lst = get_following_info(following_url)
        following_data['UID'].extend(following_id_lst)
        following_data['关注昵称'].extend(following_nickname_lst)

    # 已关注的非粉丝数据
    for person_uid in following_data['UID']:
        if person_uid not in fans_data['UID']:
            un_fans_following_data['UID'].append(person_uid)
            un_fans_following_data['关注昵称'].append(following_data['关注昵称'][following_data['UID'].index(person_uid)])

    # 没有去关注的粉丝数据
    for unfollow_uid in fans_data['UID']:
        if unfollow_uid not in following_data['UID']:
            un_following_fans_data['UID'].append(unfollow_uid)
            un_following_fans_data['粉丝昵称'].append(fans_data['粉丝昵称'][fans_data['UID'].index(unfollow_uid)])

    # 创建DataFrame对象
    df1 = pd.DataFrame(fans_data)
    df2 = pd.DataFrame(following_data)
    df3 = pd.DataFrame(un_fans_following_data)  # 关注的非粉丝数据
    df4 = pd.DataFrame(un_following_fans_data)  # 没有关注的粉丝数据

        # 文件生成的路径可以根据自己实际情况设置
    with pd.ExcelWriter(f"../喜马拉雅项目/喜马拉雅数据表-{file_date}.xlsx") as xlsx:
        df1.to_excel(xlsx, sheet_name="粉丝数据")
        df2.to_excel(xlsx, sheet_name="已关注数据")
        df3.to_excel(xlsx, sheet_name='已关注的非粉丝数据')
        df4.to_excel(xlsx, sheet_name='没有去关注的粉丝数据')
    print('数据输出成功!')

执行如上代码,会生成一个当日的获取数据。如下所示:

image.png

接下来,去实现批量关注和取消关注数据的操作,这里涉及到请求头里必须携带cookie,本人是通过手动获取的,因为hook技术我还不熟悉,如果有人熟悉,可以帮我完善一下我的代码,感谢!!!手动获取取消或者关注的cookie,如下图所示:

image.png
image.png

通过上图可以看到,取消关注的请求URL和请求方式POST,接下来点击Payload可以看到请求的data参数值,如下图所示:
image.png

点击cancelFollow可以看到红框内的Cookie值,如下图所示:

image.png

通过如上的分析,实现批量取关和关注的代码如下:

import requests
import pandas as pd
import datetime


headers = {
   
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
    'cookie': '你的cookie值'
}


# 定义操作
def set_follow(url, uid):
    session = requests.Session()
    data = {
   'followingUid': uid}
    res = session.post(url, headers=headers, data=data)
    if res.status_code == 200:
        print(f'{uid} ' + res.json()['msg'])
    if res.json()['msg'] == 'isMutualFollowed':
        print('此UID为互相关注')


# 取消关注
def cancel_follow(url, uid):
    session = requests.Session()
    data = {
   'followingUid': uid}
    res = session.post(url, headers=headers, data=data)
    if res.status_code == 200:
        print(f'{uid} ' + res.json()['msg'])


def uid_input():
    try:
        while 1:
            uid = input('请输入uid:(q/Q退出)')
            if uid.lower() == 'q':
                break
            data_dict['UID'].append(uid)
        return data_dict['UID']
    except:
        print('请核对输入信息!!!')


if __name__ == '__main__':

    file_date = str(datetime.date.today())
    cancel_follow_url = 'https://www.ximalaya.com/revision/follow/cancelFollow'
    set_follow_url = 'https://www.ximalaya.com/revision/follow/setFollow'

    url_dict = {
   '1': set_follow_url,
                '0': cancel_follow_url,
                }

    # 循环操作
    while 1:

        print('<操作选择>:', end='\t')
        operation = input('关注(1)取关(0)(q/Q)退出:')

        if operation == '1':
            data_dict = {
   'UID': []}
            data_uid = uid_input()
            for uid in data_uid:
                set_follow(url_dict['1'], int(uid))
            if data_dict['UID']:
                df1 = pd.DataFrame(data_dict)
                with pd.ExcelWriter(f"./关注-{file_date}.xlsx") as xlsx:
                    df1.to_excel(xlsx, sheet_name='关注数据',index=False)
        elif operation.lower() == 'q':
            break

        elif operation == '0':
            data_dict = {
   'UID': []}
            data_uid1 = uid_input()
            for uid in data_uid1:
                cancel_follow(url_dict['0'], int(uid))
            if data_dict['UID']:
                df2 = pd.DataFrame(data_dict)
                with pd.ExcelWriter(f"./取关-{file_date}.xlsx") as xlsx:
                    df2.to_excel(xlsx, sheet_name="取关数据", index=False)
        elif operation.lower() == 'q':
                break

运行如下图所示:
image.png

代码都是同步请求方式实现的,代码中的页面数目根据自己的实际情况可以修改。通过朋友验证,效果基本达到了他的要求。我也有点小小的成就感。

相关文章
|
23天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
16天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
20天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2576 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
18天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
3天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
2天前
|
存储 人工智能 搜索推荐
数据治理,是时候打破刻板印象了
瓴羊智能数据建设与治理产品Datapin全面升级,可演进扩展的数据架构体系为企业数据治理预留发展空间,推出敏捷版用以解决企业数据量不大但需构建数据的场景问题,基于大模型打造的DataAgent更是为企业用好数据资产提供了便利。
163 2
|
20天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1576 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
|
22天前
|
编解码 JSON 自然语言处理
通义千问重磅开源Qwen2.5,性能超越Llama
击败Meta,阿里Qwen2.5再登全球开源大模型王座
972 14
|
3天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
218 2
|
17天前
|
人工智能 开发框架 Java
重磅发布!AI 驱动的 Java 开发框架:Spring AI Alibaba
随着生成式 AI 的快速发展,基于 AI 开发框架构建 AI 应用的诉求迅速增长,涌现出了包括 LangChain、LlamaIndex 等开发框架,但大部分框架只提供了 Python 语言的实现。但这些开发框架对于国内习惯了 Spring 开发范式的 Java 开发者而言,并非十分友好和丝滑。因此,我们基于 Spring AI 发布并快速演进 Spring AI Alibaba,通过提供一种方便的 API 抽象,帮助 Java 开发者简化 AI 应用的开发。同时,提供了完整的开源配套,包括可观测、网关、消息队列、配置中心等。
734 9