百度贴吧数据获取

简介: 获取贴吧数据

📋 个人简介

  • 💖 作者简介:大家好,我是阿牛😜
  • 💬格言:迄今所有人生都大写着失败,但不妨碍我继续向前!🔥

🧨前言

百度贴吧!曾今一代人的回忆,曾经用了一年时间就成长为了全球最大的中文社区。用户量超 15 亿,曾诞生无数金句!“贾君鹏,你妈喊你回家吃饭”、“帝吧出征,寸草不生”,当年流行一句“吧友一起吼一吼,整个互联网都要抖三抖。”由此可见当年的贴吧多么火爆,即使今天大不如从前了,但阿牛依旧是贴吧资深吧友,闲暇时常去刷搞笑段子,那么今天阿牛对贴吧下手了!

🧧分析

在这里插入图片描述
今天目标是帖子的标题和链接,从标题中就可以看出很多内容了,接下来做一个分页处理就好了
在这里插入图片描述在这里插入图片描述
可以观察出页码是由pn参数决定的,第一页pn=0,第二页pn=50,第三页pn=100,以此类推。另外,可以看到链接中的参数kw就是我们搜索的参数,可以用上,把爬虫写活一点!
正常分析就完成了,那我们上代码看看
在这里插入图片描述
好家伙,出问题了,没有匹配到所有要提取信息的元素节点,列表为空,这可把阿牛整懵了,学到现在,阿牛对xpath一直用xpath helper,不会出错,不信你们看:
在这里插入图片描述
正常猜想是反爬了,不急,先打开网页源代码看一手,不看不知道,一看吓一跳,源码中内容是注释掉的,在浏览器通过渲染去掉了注释。
在这里插入图片描述
所以我们拿到的内容是注释掉的,需要处理去掉HTML的注释符号,我们的xpath才能生效。
在这里插入图片描述
果然去掉注释后我们拿到了对象,接下来我们就可以进行数据提取了,最后把他存为csv文件。

🧧源码

import requests
from lxml import etree
import csv
#百度贴吧里的东西反扒将内容注释了,解决方案为换低端浏览器,或者处理掉注释
headers = {
    'User-Agent': 'Mozilla/5.0(Windows NT 10.0; WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/90.0.4430.85 Safari/537.',
}
name = input("请输入你要搜索的贴吧名称:")
page = input("请输入你要看的页数:")
page = (int(page)-1)*50
for page in range(0,page+50,50):
    url = 'https://tieba.baidu.com/f?kw={}&ie=utf-8&cid=&tab=corearea&pn={}'.format(name,page)
    response = requests.get(url=url,headers=headers).text
    #去掉html的注释符号
    response = response.replace("<!--","").replace("-->","")
    html = etree.HTML(response)
    el_list = html.xpath('//li[@class=" j_thread_list clearfix thread_item_box"]/div/div[2]/div[1]/div[1]/a')
    # print(el_list)
    # newline='' 去掉存进csv文件内容之间的空行
    with open("贴吧.csv", "w", encoding="utf-8",newline='') as csvfile:
        fieldnames = ["title", "link"]
        writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
        writer.writeheader()
        for el in el_list:
            temp = {}
            temp['title'] = el.xpath("./text()")[0]
            #给链接拼接域名
            temp['link'] = 'https://tieba.baidu.com'+el.xpath("./@href")[0]
            print(temp)
            writer.writerow(temp)
    print("爬取完毕!")

🧧结果

在这里插入图片描述
在这里插入图片描述

🧨结语

这都是阿牛很久以前写的,抽空把它写出来,希望对大家有所帮助,我会持续将以前学的慢慢发布到专栏哦!感谢大家的支持!!!

相关文章
|
9月前
|
JSON 数据挖掘 API
结合数据分析工具,深入挖掘淘宝API接口的商业价值
随着电子商务的蓬勃发展,淘宝作为国内领先的电商平台,不仅为消费者提供了便捷的购物环境,同时也为开发者和数据分析师提供了丰富的数据资源。通过有效地调用淘宝API接口获取商品详情,再结合数据分析工具进行深入的数据挖掘,可以为商家、市场分析师及研究人员等带来巨大的商业价值
|
数据采集 存储 Web App开发
Python爬虫系列8-抓取快乐8、刮刮乐、双色球等中奖数据分析规律
人在绝大多数情况下,只要稍微有那么一点的退路,有那么一点余地,就可以成为逃避的借口和理由。努力装装样子,然后给自己一个台阶下,安慰自己说,“你看我已经很努力了,还是不行,那就算了吧”。 老话说得好:只有主动追求的东西才能到手;只要你想做,全世界都会帮你;只要你不想做,一只蚊子都能拦住你。虽说未来可期,但如果你连相信自己的勇气都没有,还有什么资格得到更好的呢。对吧!
1736 0
Python爬虫系列8-抓取快乐8、刮刮乐、双色球等中奖数据分析规律
|
4月前
|
数据采集
以“雪球网行情中心板块数据抓取”的爬虫案例
爬虫案例—雪球网行情中心板块数据抓取
177 0
|
6月前
|
数据采集 数据挖掘 Python
python爬虫去哪儿网上爬取旅游景点14万条,可以做大数据分析的数据基础
本文介绍了使用Python编写的爬虫程序,成功从去哪儿网上爬取了14万条旅游景点信息,为大数据分析提供了数据基础。
397 1
|
9月前
|
数据采集 存储 大数据
Python爬虫:数据获取与解析的艺术
本文介绍了Python爬虫在大数据时代的作用,重点讲解了Python爬虫基础、常用库及实战案例。Python因其简洁语法和丰富库支持成为爬虫开发的优选语言。文中提到了requests(发送HTTP请求)、BeautifulSoup(解析HTML)、Scrapy(爬虫框架)、Selenium(处理动态网页)和pandas(数据处理分析)等关键库。实战案例展示了如何爬取电商网站的商品信息,包括确定目标、发送请求、解析内容、存储数据、遍历多页及数据处理。最后,文章强调了遵守网站规则和尊重隐私的重要性。
125 2
|
数据采集 JavaScript 测试技术
Python爬虫通过selenium自动化抓取淘宝的商品数据
淘宝的页面大量使用了js加载数据,所以采用selenium来进行爬取更为简单,selenum作为一个测试工具,主要配合无窗口浏览器phantomjs来使用。
905 0
量化交易平台之行情数据获取方式
全球大多数行情一次购买即可享受全部数据行情订阅。 历史数据可以提供下载服务方便使用 云端自定义指数合成能力 自定义品种的支持(如不同品种的价差K线等) 实时行情部分时效性强
308 0
|
数据挖掘 API
淘宝商品数据分析怎么操作?从哪些方面下手?
淘宝商品数据分析怎么操作?从哪些方面下手?
|
数据采集 Python
Python爬虫系列15-采集梨视频等所有栏目中视频数据
“人生之路是不可逆的,任何人都不可能重新来过、重新选择。” 生活中,每个人都在用不同的方式在成长在成熟,谁也不比谁更轻松。
Python爬虫系列15-采集梨视频等所有栏目中视频数据
|
数据采集 Python
python爬虫访问百度贴吧案例
python爬虫访问百度贴吧案例
320 0