爬虫案例—爬取ChinaUnix.net论坛板块标题

简介: 爬虫案例—爬取ChinaUnix.net论坛板块标题

爬虫案例—爬取ChinaUnix.net论坛板块标题
ChinaUnix.net论坛网址:http://bbs.chinaunix.net

目标:抓取各个板块的标题和内容的标题

网站截图:
image.png

利用requests和xpath实现目标。源码如下:

import requests
from lxml import etree


headers = {
   
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',}

url = 'http://bbs.chinaunix.net'

res = requests.get(url, headers=headers)

html = res.text

tree = etree.HTML(html)
div_lst = tree.xpath('//div[@class="mn"]/div/table')

for div in div_lst[:6]:
    print('板块名称:', div.xpath('./tbody[1]/tr/td//h2/a/text()')[0])
    for tr in div.xpath('./tbody[2]/tr'):
        for td in tr.xpath('./td'):
            # if td.xpath('./table'):
            #     print(td.xpath('./table/tr/td[2]/a/text()'))
            table_lst = td.xpath('./table')
            if table_lst:
                print(td.xpath('./table/tr/td[2]/a/text()')[0],end='\t')

        print('')
    print('=' * 50)

运行结果如下:

抓取ChinaUnix板块标题.py

板块名称: IT运维
Docker    监控及自动化运维技术    集群和高可用    
服务器应用    虚拟化与云服务    分布式文件系统(FastDFS)    
数据安全    服务器及硬件技术    存储备份    
网络技术    初创企业IT架构选型    中间件技术    
Hadoop和大数据技术    
==================================================
板块名称: 操作系统
Linux新手园地    Linux系统管理    Windows系统    
BSD    AIX    AS400    
Solaris    HP-UX    其他UNIX    
移动操作系统    Mac OS X    
==================================================
板块名称: 程序设计
C/C++    Linux环境编程    内核源码    
Shell    Perl    Java    
PHP    Python    Ruby    
嵌入式开发    驱动开发    Web开发    
架构设计    CPU与编译器    软件配置管理    
Golang    Erlang    
==================================================
板块名称: 数据库技术
MySQL    Sybase    Oracle    
PostgreSQL    DB2    Informix    
数据仓库与数据挖掘    NoSQL技术    
==================================================
板块名称: 综合交流区
IT资讯    IT职业生涯    IT图书与评论    
二手交易    下载共享    
==================================================
板块名称: 站务及频道
站务交流    博客SNS站务交流区    CU活动专区    
频道交流区    
==================================================
相关文章
|
16天前
|
开发框架 .NET 中间件
.net8 使用 license 证书授权案例解析
本文介绍了如何使用 `.NET CLI` 创建并改造一个 `ASP.NET Core Web API` 项目,以实现基于许可证的授权机制。具体步骤包括创建项目、添加必要的 NuGet 包(如 `Standard.Licensing` 和 `Swashbuckle.AspNetCore`),以及修改 `Program.cs` 文件以集成自定义的许可证验证中间件。项目结构中新增了 `LicenseController` 接口用于处理授权相关操作,并通过测试流程验证了默认天气接口在未授权和授权状态下的响应情况。整个过程确保了应用程序能够在启动时正确验证许可证,保障系统的安全性与可控性。
51 8
.net8 使用 license 证书授权案例解析
|
7月前
|
数据采集 数据可视化 算法
【优秀python案例】基于Python的豆瓣电影TOP250爬虫与可视化设计与实现
本文设计并实现了一个基于Python的豆瓣电影TOP250爬虫与可视化系统,通过获取电影评分、评论并应用词云和饼图等可视化技术,为用户提供了电影评价的直观展示和深入分析。
1345 3
【优秀python案例】基于Python的豆瓣电影TOP250爬虫与可视化设计与实现
|
7月前
|
数据采集 数据可视化 关系型数据库
【python案例】基于Python 爬虫的房地产数据可视化分析设计与实现
本文设计并实现了一个基于Python爬虫的房地产数据可视化分析系统,通过BeautifulSoup框架采集房源信息,使用pandas进行数据处理,MySQL存储数据,并利用pyecharts进行数据可视化,以帮助用户更直观地了解房源信息并辅助选房购房。
971 4
|
7月前
|
数据采集 存储 C#
C# 爬虫技术:京东视频内容抓取的实战案例分析
C# 爬虫技术:京东视频内容抓取的实战案例分析
|
4月前
|
数据采集 前端开发 JavaScript
除了网页标题,还能用爬虫抓取哪些信息?
爬虫技术可以抓取网页上的各种信息,包括文本、图片、视频、链接、结构化数据、用户信息、价格和库存、导航菜单、CSS和JavaScript、元数据、社交媒体信息、地图和位置信息、广告信息、日历和事件信息、评论和评分、API数据等。通过Python和BeautifulSoup等工具,可以轻松实现数据抓取。但在使用爬虫时,需遵守相关法律法规,尊重网站的版权和隐私政策,合理控制请求频率,确保数据的合法性和有效性。
|
5月前
|
数据采集 前端开发 NoSQL
Python编程异步爬虫实战案例
Python编程异步爬虫实战案例
116 2
|
5月前
|
数据采集
以“雪球网行情中心板块数据抓取”的爬虫案例
爬虫案例—雪球网行情中心板块数据抓取
211 1
|
5月前
|
数据采集 Web App开发 JSON
爬虫实战小案例—获取喜马拉雅账号的关注数据和粉丝数据生成电子表格并实现批量关注或者取关然后生成表格文件
爬虫实战小案例—获取喜马拉雅账号的关注数据和粉丝数据生成电子表格并实现批量关注或者取关然后生成表格文件
100 0
|
5月前
|
数据采集
爬虫案例—抓取找歌词网站的按歌词找歌名数据
爬虫案例—抓取找歌词网站的按歌词找歌名数据
107 0
|
5月前
|
数据采集 存储
爬虫案例—根据四大名著书名抓取并存储为文本文件
爬虫案例—根据四大名著书名抓取并存储为文本文件
53 0