爬虫案例—爬取ChinaUnix.net论坛板块标题

简介: 爬虫案例—爬取ChinaUnix.net论坛板块标题

爬虫案例—爬取ChinaUnix.net论坛板块标题
ChinaUnix.net论坛网址:http://bbs.chinaunix.net

目标:抓取各个板块的标题和内容的标题

网站截图:
image.png

利用requests和xpath实现目标。源码如下:

import requests
from lxml import etree


headers = {
   
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',}

url = 'http://bbs.chinaunix.net'

res = requests.get(url, headers=headers)

html = res.text

tree = etree.HTML(html)
div_lst = tree.xpath('//div[@class="mn"]/div/table')

for div in div_lst[:6]:
    print('板块名称:', div.xpath('./tbody[1]/tr/td//h2/a/text()')[0])
    for tr in div.xpath('./tbody[2]/tr'):
        for td in tr.xpath('./td'):
            # if td.xpath('./table'):
            #     print(td.xpath('./table/tr/td[2]/a/text()'))
            table_lst = td.xpath('./table')
            if table_lst:
                print(td.xpath('./table/tr/td[2]/a/text()')[0],end='\t')

        print('')
    print('=' * 50)

运行结果如下:

抓取ChinaUnix板块标题.py

板块名称: IT运维
Docker    监控及自动化运维技术    集群和高可用    
服务器应用    虚拟化与云服务    分布式文件系统(FastDFS)    
数据安全    服务器及硬件技术    存储备份    
网络技术    初创企业IT架构选型    中间件技术    
Hadoop和大数据技术    
==================================================
板块名称: 操作系统
Linux新手园地    Linux系统管理    Windows系统    
BSD    AIX    AS400    
Solaris    HP-UX    其他UNIX    
移动操作系统    Mac OS X    
==================================================
板块名称: 程序设计
C/C++    Linux环境编程    内核源码    
Shell    Perl    Java    
PHP    Python    Ruby    
嵌入式开发    驱动开发    Web开发    
架构设计    CPU与编译器    软件配置管理    
Golang    Erlang    
==================================================
板块名称: 数据库技术
MySQL    Sybase    Oracle    
PostgreSQL    DB2    Informix    
数据仓库与数据挖掘    NoSQL技术    
==================================================
板块名称: 综合交流区
IT资讯    IT职业生涯    IT图书与评论    
二手交易    下载共享    
==================================================
板块名称: 站务及频道
站务交流    博客SNS站务交流区    CU活动专区    
频道交流区    
==================================================
相关文章
|
4月前
|
数据采集 数据可视化 算法
【优秀python案例】基于Python的豆瓣电影TOP250爬虫与可视化设计与实现
本文设计并实现了一个基于Python的豆瓣电影TOP250爬虫与可视化系统,通过获取电影评分、评论并应用词云和饼图等可视化技术,为用户提供了电影评价的直观展示和深入分析。
462 3
【优秀python案例】基于Python的豆瓣电影TOP250爬虫与可视化设计与实现
|
4月前
|
数据采集 数据可视化 关系型数据库
【python案例】基于Python 爬虫的房地产数据可视化分析设计与实现
本文设计并实现了一个基于Python爬虫的房地产数据可视化分析系统,通过BeautifulSoup框架采集房源信息,使用pandas进行数据处理,MySQL存储数据,并利用pyecharts进行数据可视化,以帮助用户更直观地了解房源信息并辅助选房购房。
430 4
|
4月前
|
搜索推荐 前端开发 数据可视化
【优秀python web毕设案例】基于协同过滤算法的酒店推荐系统,django框架+bootstrap前端+echarts可视化,有后台有爬虫
本文介绍了一个基于Django框架、协同过滤算法、ECharts数据可视化以及Bootstrap前端技术的酒店推荐系统,该系统通过用户行为分析和推荐算法优化,提供个性化的酒店推荐和直观的数据展示,以提升用户体验。
164 1
【优秀python web毕设案例】基于协同过滤算法的酒店推荐系统,django框架+bootstrap前端+echarts可视化,有后台有爬虫
|
4月前
|
数据采集 存储 C#
C# 爬虫技术:京东视频内容抓取的实战案例分析
C# 爬虫技术:京东视频内容抓取的实战案例分析
|
15天前
|
数据采集 前端开发 JavaScript
除了网页标题,还能用爬虫抓取哪些信息?
爬虫技术可以抓取网页上的各种信息,包括文本、图片、视频、链接、结构化数据、用户信息、价格和库存、导航菜单、CSS和JavaScript、元数据、社交媒体信息、地图和位置信息、广告信息、日历和事件信息、评论和评分、API数据等。通过Python和BeautifulSoup等工具,可以轻松实现数据抓取。但在使用爬虫时,需遵守相关法律法规,尊重网站的版权和隐私政策,合理控制请求频率,确保数据的合法性和有效性。
|
2月前
|
数据采集 前端开发 NoSQL
Python编程异步爬虫实战案例
Python编程异步爬虫实战案例
|
2月前
|
数据采集 Web App开发 JSON
爬虫实战小案例—获取喜马拉雅账号的关注数据和粉丝数据生成电子表格并实现批量关注或者取关然后生成表格文件
爬虫实战小案例—获取喜马拉雅账号的关注数据和粉丝数据生成电子表格并实现批量关注或者取关然后生成表格文件
|
2月前
|
数据采集
爬虫案例—抓取找歌词网站的按歌词找歌名数据
爬虫案例—抓取找歌词网站的按歌词找歌名数据
|
2月前
|
数据采集 存储
爬虫案例—根据四大名著书名抓取并存储为文本文件
爬虫案例—根据四大名著书名抓取并存储为文本文件
|
2月前
|
数据采集
以“雪球网行情中心板块数据抓取”的爬虫案例
爬虫案例—雪球网行情中心板块数据抓取