百度贴吧数据获取

简介: 获取贴吧数据

📋 个人简介

  • 💖 作者简介:大家好,我是阿牛😜
  • 💬格言:迄今所有人生都大写着失败,但不妨碍我继续向前!🔥

🧨前言

百度贴吧!曾今一代人的回忆,曾经用了一年时间就成长为了全球最大的中文社区。用户量超 15 亿,曾诞生无数金句!“贾君鹏,你妈喊你回家吃饭”、“帝吧出征,寸草不生”,当年流行一句“吧友一起吼一吼,整个互联网都要抖三抖。”由此可见当年的贴吧多么火爆,即使今天大不如从前了,但阿牛依旧是贴吧资深吧友,闲暇时常去刷搞笑段子,那么今天阿牛对贴吧下手了!

🧧分析

在这里插入图片描述
今天目标是帖子的标题和链接,从标题中就可以看出很多内容了,接下来做一个分页处理就好了
在这里插入图片描述在这里插入图片描述
可以观察出页码是由pn参数决定的,第一页pn=0,第二页pn=50,第三页pn=100,以此类推。另外,可以看到链接中的参数kw就是我们搜索的参数,可以用上,把爬虫写活一点!
正常分析就完成了,那我们上代码看看
在这里插入图片描述
好家伙,出问题了,没有匹配到所有要提取信息的元素节点,列表为空,这可把阿牛整懵了,学到现在,阿牛对xpath一直用xpath helper,不会出错,不信你们看:
在这里插入图片描述
正常猜想是反爬了,不急,先打开网页源代码看一手,不看不知道,一看吓一跳,源码中内容是注释掉的,在浏览器通过渲染去掉了注释。
在这里插入图片描述
所以我们拿到的内容是注释掉的,需要处理去掉HTML的注释符号,我们的xpath才能生效。
在这里插入图片描述
果然去掉注释后我们拿到了对象,接下来我们就可以进行数据提取了,最后把他存为csv文件。

🧧源码

import requests
from lxml import etree
import csv
#百度贴吧里的东西反扒将内容注释了,解决方案为换低端浏览器,或者处理掉注释
headers = {
    'User-Agent': 'Mozilla/5.0(Windows NT 10.0; WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/90.0.4430.85 Safari/537.',
}
name = input("请输入你要搜索的贴吧名称:")
page = input("请输入你要看的页数:")
page = (int(page)-1)*50
for page in range(0,page+50,50):
    url = 'https://tieba.baidu.com/f?kw={}&ie=utf-8&cid=&tab=corearea&pn={}'.format(name,page)
    response = requests.get(url=url,headers=headers).text
    #去掉html的注释符号
    response = response.replace("<!--","").replace("-->","")
    html = etree.HTML(response)
    el_list = html.xpath('//li[@class=" j_thread_list clearfix thread_item_box"]/div/div[2]/div[1]/div[1]/a')
    # print(el_list)
    # newline='' 去掉存进csv文件内容之间的空行
    with open("贴吧.csv", "w", encoding="utf-8",newline='') as csvfile:
        fieldnames = ["title", "link"]
        writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
        writer.writeheader()
        for el in el_list:
            temp = {}
            temp['title'] = el.xpath("./text()")[0]
            #给链接拼接域名
            temp['link'] = 'https://tieba.baidu.com'+el.xpath("./@href")[0]
            print(temp)
            writer.writerow(temp)
    print("爬取完毕!")

🧧结果

在这里插入图片描述
在这里插入图片描述

🧨结语

这都是阿牛很久以前写的,抽空把它写出来,希望对大家有所帮助,我会持续将以前学的慢慢发布到专栏哦!感谢大家的支持!!!

相关文章
|
人工智能 编解码 安全
如何使用Sora?Sora小白教程一文通
如何使用Sora?Sora小白教程一文通。本文深入探讨了OpenAI于2024年发布的Sora——一款创新的文生视频大模型,详细介绍了其功能、技术原理、精准度、安全性以及对未来影响的全面分析
|
数据采集 存储 自然语言处理
【优秀python案例】基于百度贴吧的数据采集与文本分析设计与实现
本文介绍了百度贴吧数据采集与文本分析的设计与实现,包括自动化采集帖子数据、进行情感分析和主题分析,以及使用可视化技术展示分析结果。
775 111
|
12月前
|
搜索推荐 物联网 PyTorch
Qwen2.5-7B-Instruct Lora 微调
本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
12051 34
Qwen2.5-7B-Instruct Lora 微调
|
存储 资源调度 监控
工作负载类型
【10月更文挑战第18天】
|
存储 安全 物联网
探索未来网络:物联网安全的挑战与对策
本文深入探讨了物联网(IoT)技术的基本概念、发展现状以及面临的主要安全挑战,并提出了相应的解决策略。通过对当前物联网设备的安全漏洞和攻击手段的分析,文章强调了加强设备认证、数据加密和隐私保护等措施的重要性。同时,呼吁业界共同努力,制定统一的安全标准和规范,以促进物联网技术的健康发展。
|
数据可视化 算法 Python
【数字通信革命】深入剖析Python实现BPSK、QPSK到QAM信号调制的奥秘,解锁高速数据传输的密钥!
【8月更文挑战第2天】在通信系统中,信号调制至关重要,它将信息嵌入载波信号中以便传输。本文通过Python实现三种基本调制技术:BPSK、QPSK和16-QAM,并提供示例代码。首先需安装NumPy、SciPy和Matplotlib库。BPSK是最简单的相位调制,每个符号携带一位信息;QPSK则每个符号携带两位信息,通过四种相位表示;16-QAM结合幅度和相位调制,每个符号携带更多比特信息。本文提供的代码演示了这些调制方式的实现过程,并利用Matplotlib可视化结果。了解这些调制技术有助于深入探索信号处理领域。
731 18
|
JavaScript 前端开发 API
Vue3之script-setup 语法糖
本文介绍了Vue 3的`<script setup>`语法糖,通过示例代码演示了如何在组件中使用`<script setup>`以及相关的Vue 3 Composition API函数和特性,如响应式引用、生命周期钩子、CSS模块等,并展示了组件间的通信和样式应用。
430 0
Vue3之script-setup 语法糖
|
消息中间件 存储 传感器
Kafka消息队列原理及应用详解
【5月更文挑战第6天】Apache Kafka是高性能的分布式消息队列,常用于实时数据管道和流应用。它提供高性能、持久化、分布式和可伸缩的消息处理,支持解耦、异步通信和流量控制。Kafka的核心概念包括Broker、Topic、Partition、Producer、Consumer和Consumer Group。其特点是高吞吐、低延迟、数据持久化、分布式架构和容错性。常见应用包括实时数据流处理、日志收集、消息传递和系统间数据交换。
|
搜索推荐 算法 索引
【排序算法】深入解析快速排序(霍尔法&&三指针法&&挖坑法&&优化随机选key&&中位数法&&小区间法&&非递归版本)
【排序算法】深入解析快速排序(霍尔法&&三指针法&&挖坑法&&优化随机选key&&中位数法&&小区间法&&非递归版本)
597 4
|
SQL 资源调度 Kubernetes
【收藏+下载】Flink 年度学习资料大礼包!
大数据实时计算及 Apache Flink 年度Flink 年度学习资料大礼包,300+页实战应用精华总结!
【收藏+下载】Flink 年度学习资料大礼包!

热门文章

最新文章