「Python」爬虫实战-北京公交线路信息爬取(requests+bs4)

简介: 使用requests爬取北京公交线路信息,目标网址为[https://beijing.8684.cn/](https://beijing.8684.cn/)。爬取的具体信息为公交线路名称、公交的运营范围、运行时间、参考票价、公交所属的公司以及服务热线、公交来回线路的途径站点。

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第4天, 点击查看活动详情

公交线路爬取

使用requests爬取北京公交线路信息,目标网址为https://beijing.8684.cn/

爬取的具体信息为公交线路名称、公交的运营范围、运行时间、参考票价、公交所属的公司以及服务热线、公交来回线路的途径站点。

考虑到现代技术与日俱进,反爬措施层数不穷,故可以考虑构建用户代理池,能够避免总是使用一个 UA 来访问网站,因为短时间内总使用一个 UA 高频率访问的网站,可能会引起网站的警觉,从而封杀掉 IP。

这里对User Agent的构造进行分析。标准的UA是由浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 、渲染引擎标识、 版本信息组成,所以不妨采用构造UA的方法结合随机函数,随机生成一个UA,以达到混淆服务器的效果。
核心部分代码如下:

def get_ua():
    first_num = random.randint(55, 76)
    third_num = random.randint(0, 3800)
    fourth_num = random.randint(0, 140)
    os_type = [
        '(Windows NT 6.1; WOW64)', '(Windows NT 10.0; WOW64)', 
        '(X11; Linux x86_64)', '(Macintosh; Intel Mac OS X 10_14_5)'
    ]
    chrome_version = 'Chrome/{}.0.{}.{}'.format(first_num, third_num, fourth_num)

    ua = ' '.join(['Mozilla/5.0', random.choice(os_type), 'AppleWebKit/537.36',
                   '(KHTML, like Gecko)', chrome_version, 'Safari/537.36']
                 )
    return ua

观察到目标网站的公交线路分别有以1开头至9开头以及url的变化。不难看出,以什么开头的公交就在https://beijing.8684.cn/ 后面加上list?。若以字母B开头,则为listB。通过字符串的拼接就可以得到不同数字或字母开头的公交线路名称。
image.pngimage.png
F12键观察一下页面的元素排列,通过观察页面源代码发现,我们所看到的代码与页面源代码没有出入(有些在页面源代码中并没有渲染信息在HTML中,而是通过js渲染到浏览器中)。
image.png

下面以1路车为例,进入到公交线路信息详情的页面进行信息提取。
image.png
观察页面发现1路公交车的详情页面 -> https://beijing.8684.cn/x_322e21c5 的url的最后的参数刚好和 https://beijing.8684.cn/list1 页面中的 a标签的href属性对应起来。

所以大胆假设:每一个list页面中相同位置的a标签的属性href中的值就是相应的线路详情路线的后缀,所以每个线路的具体目标网址只需要拿到list页面中的href值,然后和https://beijing.8684.cn/ 拼接就可得到线路的url

对于公交线路的名称、运行时间、所属区域、参考票价以及所属公司在页面中的位置都是在div class="info"的盒子里,并且发现class="info"的属性值在整个页面中只出现了一次。通过get_text()方法就可以提取到所需要的信息。

而对于公交来回具体经过的地方,在页面渲染时,由于经过的站太多,在页面需要隐藏显示,所以直接找到站点对应的div并提取text时,会提取到一些不需要的信息。在获取到信息还需要根据实际情况处理掉冗余的信息,保证爬取信息的正确性。

由于目标网站对于每个页面的渲染可能存在不同,也可能笔者在提取需要的信息考虑不完全等原因,并不能完全保证每一个页面都能完整的提取到所需要的信息。
故需要利用到try...except...来捕捉异常将不符合提取信息逻辑的页面的url另存一个文件,并在信息爬取结束后,观察该页面,进而完善原有代码或者模块。

运行效果

信息爬取成功界面:
image.png
爬取的信息:
image.png

注意到error文件中的链接只有一个,说明前面的逻辑还是写的相当不错的,😀囊括了大部分的情况,能够爬取到目标信息。

具体代码

from bs4 import BeautifulSoup
import requests
import random

# UA池
def get_headers(referer_url):
    first_num = random.randint(55, 76)
    third_num = random.randint(0, 3800)
    fourth_num = random.randint(0, 140)
    os_type = [
        '(Windows NT 6.1; WOW64)', '(Windows NT 10.0; WOW64)', '(X11; Linux x86_64)',
        '(Macintosh; Intel Mac OS X 10_14_5)'
    ]
    chrome_version = 'Chrome/{}.0.{}.{}'.format(first_num, third_num, fourth_num)

    ua = ' '.join(['Mozilla/5.0', random.choice(os_type), 'AppleWebKit/537.36',
                   '(KHTML, like Gecko)', chrome_version, 'Safari/537.36']
                  )
    headers = {
        "User-Agent": ua,
        "Referer": referer_url
    }
    return headers


def main():
    url = 'https://beijing.8684.cn'

    # bus_head = [str(i) for i in range(1, 10)] + ['B', 'C', 'D', 'F']

    bus_head = [str(i) for i in range(1, 3)]

    for bus in bus_head:
        bus_single_url = url + '/list' + bus  # 1字开头的bus
        resp = requests.get(bus_single_url, headers=get_headers(url))
        bus_main_html = BeautifulSoup(resp.text, 'html.parser')

        bus_route_list = bus_main_html.find('div', class_="list clearfix").find_all('a')
        route_href = []  # 只存取线路的链接-/x_322e21c5, 完整的url需要拼接  
        # 即:url + route_href[0] = https://beijing.8684.cn/x_322e21c5
        for single_route in bus_route_list:
            route_href.append(single_route.get('href'))

        for href in route_href:
            route_url = url + href

            bus_detail = requests.get(route_url, headers=get_headers(bus_single_url))

            bus_detail_html = BeautifulSoup(bus_detail.text, 'html.parser')

            try:
                bus_info = bus_detail_html.find('div', class_="info")

                detail = bus_info.get_text('#').split('#')[:6]

                route_total = bus_detail_html.find_all('div', 'bus-excerpt mb15')
                bus_lzlist = bus_detail_html.find_all('div', 'bus-lzlist mb15')

                with open('bus.txt', 'a') as f:
                    f.write('\n')
                    f.write('\n'.join(detail[:4]))  # 只需要写入一次
                    f.write('\n' + detail[-2] + detail[-1])  # 公司名

                for route, bus_ls in zip(route_total, bus_lzlist):
                    trip = route.find('div', 'trip').get_text()
                    start, end = trip.split('—')  # 获取起始站点和终点站的名字
                    li_list = [li.get_text() for li in bus_ls.find_all('a')]  # 获取经过站点
                    tmp = [li for idx, li in enumerate(li_list[1:-1]) if li != start and li != end] # 去掉首尾两个站点
                    tmp = [li_list[0]] + tmp + [li_list[-1]]  # 加上起始站点和终点站
                    tmp = [f'{idx + 1}:{r}' for idx, r in enumerate(tmp)]  # 添加站点编号
                    with open('bus.txt', 'a') as f:
                        f.write('\n' + trip + '\n')
                        f.write('->'.join(tmp))
                print(f'{route_url}信息写入成功!')
            except:
                with open('error.txt', 'a') as f:  # 爬取不到的路线,在细致分析
                    f.write(route_url + '\n')


if __name__ == '__main__':
    main()
一些心得:

在提取详情站点信息的时候由于最终写入的文本站点信息不能重复,即公交的起始点和终点只能出现一次,但是在直接使用get_text()方法时,或获取到多余的站点,即终点站的名称出现了两次。

解决方法:
对获取到的站点列表的中间部分(即去除了起始点和终点的部分)进行遍历,若当前的值是终点站或者起始站,则将该值从列表中删除。

相关文章
|
2月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
117 6
|
4天前
|
JavaScript API C#
【Azure Developer】Python代码调用Graph API将外部用户添加到组,结果无效,也无错误信息
根据Graph API文档,在单个请求中将多个成员添加到组时,Python代码示例中的`members@odata.bind`被错误写为`members@odata_bind`,导致用户未成功添加。
30 10
|
2月前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
2月前
|
数据采集 Web App开发 前端开发
Python爬虫进阶:Selenium在动态网页抓取中的实战
【10月更文挑战第26天】动态网页抓取是网络爬虫的难点,因为数据通常通过JavaScript异步加载。Selenium通过模拟浏览器行为,可以加载和执行JavaScript,从而获取动态网页的完整内容。本文通过实战案例,介绍如何使用Selenium在Python中抓取动态网页。首先安装Selenium库和浏览器驱动,然后通过示例代码展示如何抓取英国国家美术馆的图片信息。
118 6
|
2月前
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
2月前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
99 4
|
2月前
|
存储 数据采集 数据库
用 Python 爬取淘宝商品价格信息时需要注意什么?
使用 Python 爬取淘宝商品价格信息时,需注意法律和道德规范,遵守法律法规和平台规定,避免非法用途。技术上,可选择 Selenium 和 Requests 库,处理反爬措施如 IP 限制、验证码识别和请求频率控制。解析页面数据时,确定数据位置并清洗格式。数据存储可选择 CSV、Excel、JSON 或数据库,定期更新并去重。还需进行错误处理和日志记录,确保爬虫稳定运行。
|
2月前
|
数据采集 Web App开发 iOS开发
如何利用 Python 的爬虫技术获取淘宝天猫商品的价格信息?
本文介绍了使用 Python 爬虫技术获取淘宝天猫商品价格信息的两种方法。方法一使用 Selenium 模拟浏览器操作,通过定位页面元素获取价格;方法二使用 Requests 和正则表达式直接请求页面内容并提取价格。每种方法都有详细步骤和代码示例,但需注意反爬措施和法律法规。
|
3月前
|
Python
Python实现系统基础信息
Python实现系统基础信息
38 0
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
252 4