Python基础之爬虫小例子

简介: Python基础之爬虫小例子

概述

不知从何时起,Python和爬虫就如初恋一般,情不知所起,一往而深,相信很多朋友学习Python,都是从爬虫开始,其实究其原因,不外两方面:其一Python对爬虫的支持度比较好,类库众多。其二Pyhton的语法简单,入门容易。所以两者形影相随,不离不弃,本文主要以一个简单的小例子,简述Python在爬虫方面的简单应用,仅供学习分享使用,如有不足之处,还请指正。

涉及知识点

本例主要爬取某招聘网站发布的工作职位,用到的知识点如下:

  • 开发环境及工具:主要用到Python3.7 ,IDE为PyCharm
  • requests类库:本类库封装了python的内置模块,主要用于网络的请求和获取数据,可以支持不同形式的请求。
  • BeautifulSoup库:主要用于解析获取的数据,包括Html,Xml,Json等不同的格式。
  • 数据持久化:主要是将内存中的数据,保存到数据库或者文件中。

爬虫的基本步骤

爬虫的基本步骤,如下图所示:

爬取目标

如有要爬取相关内容,首先要对爬取的目标进行分析,了解其目录结构,才能进行解析。本例主要爬取51job中的工作列表,如下所示:

核心源码

1.获取数据

定义一个函数get_data,用于发起请求并获取数据,如下所示:

headers中的User-Agent主要用于模拟浏览器,不然会被反爬虫程序屏蔽,http状态码为418,意思是被网站的反爬程序返回的。

encoding是要爬取的网站的编码为gbk,如果不加,会产生乱码,默认为utf-8

def get_data(req_url):
    """获取数据"""
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko',
        'Accept-Language': 'zh-Hans-CN, zh-Hans;q=0.5'
    }
    resp = requests.get(req_url, headers=headers)
    resp.encoding = 'gbk'  # 不加会产生中文乱码
    if resp.status_code == 200:
        return resp.text
    else:
        return None

2.解析数据

定义一个函数parse_data,用于解析获取到的内容,如下所示:

采用BeautifulSoup,将返回的文本,解析成html对象,并获取对应的内容。本例主要获取工作的列表

def parse_data(resp_html):
    """解析数据,并返回列表"""
    soup = BeautifulSoup(resp_html, features='html.parser')
    job_table = soup.find('div', attrs={'class': 'dw_table'})
    # print(job_table)
    job_list = job_table.find_all('div', attrs={'class': 'el'})
    # print(job_list)
    # 循环列表,去掉第一个title和最后一个
    res_list = []
    for job in job_list[1: -1]:
        job_name = job.find('p', attrs={'class': "t1"}).find('span').find('a').get_text()
        job_name = job_name.replace('\r\n', '').strip()
        job_company = job.find('span', attrs={'class': "t2"}).find('a').get_text()
        job_addr = job.find('span', attrs={'class': "t3"}).get_text()
        job_salary = job.find('span', attrs={'class': "t4"}).get_text()
        job_time = job.find('span', attrs={'class': "t5"}).get_text()
        # print('工作信息:', job_name, '---', job_company, '---', job_addr, '---', job_salary, '---', job_time)
        res_item = {
            '工作名称': job_name,
            '公司': job_company,
            '工作地址': job_addr,
            '薪资水平': job_salary,
            '发布时间': job_time
        }
        res_list.append(res_item)
    return res_list

3.保存数据

定义一个函数save_data,用于将获取到的内容保存到json文件中,如下所示:

with函数 可以自动进行释放。因包含中文,所以json文件的编码为utf-8,否则会出现乱码

def save_data(res_list):
    """保存数据"""
    with open('jobs.json', 'w', encoding='utf-8') as f:
        res_list_json = json.dumps(res_list, ensure_ascii=False)
        f.write(res_list_json)

4.整体调用步骤

依次调用定义的三个函数,如下所示:

if __name__ == '__main__':
    """如果是主程序自己调用"""
    req_url = 'https://search.51job.com/list/040000,000000,0000,00,9,99,java,2,1.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='
    # 获取数据
    resp_html = get_data(req_url)
    # print(html)
    # 解析数据
    res_list = parse_data(resp_html)
    # 保存数据
    save_data(res_list)

爬取结果展示

爬取的结果保存在jobs.json文件中,格式如下所示:

[
  {
    "工作名称": "Java架构师",
    "公司": "深圳市钻木信息技术有限公司",
    "工作地址": "深圳-福田区",
    "薪资水平": "1.8-3万/月",
    "发布时间": "06-13"
  },
  {
    "工作名称": "Java开发工程师",
    "公司": "深圳市网新新思软件有限公司",
    "工作地址": "深圳-南山区",
    "薪资水平": "1.5-1.7万/月",
    "发布时间": "06-13"
  },
  {
    "工作名称": "Java开发工程师",
    "公司": "深圳市睿服科技有限公司",
    "工作地址": "深圳-福田区",
    "薪资水平": "1.3-1.7万/月",
    "发布时间": "06-13"
  },
  {
    "工作名称": "Java开发经理",
    "公司": "深圳市聚惠企业登记代理有限公司",
    "工作地址": "深圳-龙华新区",
    "薪资水平": "1-3万/月",
    "发布时间": "06-13"
  },
  {
    "工作名称": "Java开发工程师",
    "公司": "深圳市智璟科技有限公司",
    "工作地址": "深圳-福田区",
    "薪资水平": "0.9-1.5万/月",
    "发布时间": "06-13"
  },
  {
    "工作名称": "Java开发工程师",
    "公司": "上海舟恩信息技术有限公司",
    "工作地址": "深圳-南山区",
    "薪资水平": "1.4-1.9万/月",
    "发布时间": "06-13"
  }
]

进一步思考

本例可以进一步优化的空间,如下所示:

  • 本次爬虫只是单次爬取,数据量相对小,如果要爬取大量数据的时候,则需要使用多线程相关的知识。
  • 基础的爬虫,只能爬取静态渲染的内容,如果是异步动态渲染的数据,如何爬取呢?
  • 将爬取的结果保存到数据库如何操作呢?

备注

芙蓉楼送辛渐

[唐]王昌龄

寒雨连江夜入吴,平明送客楚山孤。

洛阳亲友如相问,一片冰心在玉壶。

相关文章
|
5天前
|
数据采集 XML 数据处理
使用Python实现简单的Web爬虫
本文将介绍如何使用Python编写一个简单的Web爬虫,用于抓取网页内容并进行简单的数据处理。通过学习本文,读者将了解Web爬虫的基本原理和Python爬虫库的使用方法。
|
3天前
|
数据采集 数据挖掘 Python
使用Python构建简单网页爬虫的技术指南
【5月更文挑战第17天】使用Python构建简单网页爬虫的教程,涉及`requests`和`BeautifulSoup4`库。首先安装所需库,然后发送HTTP GET请求获取HTML内容。利用`BeautifulSoup`解析HTML,找到目标元素,如`<h2>`标签内的新闻标题。处理相对链接,将它们转化为绝对URL。添加异常处理以应对网络问题,同时遵循网站的`robots.txt`规则。此爬虫适用于数据分析和市场研究等场景。
|
5天前
|
数据采集 Web App开发 数据处理
Lua vs. Python:哪个更适合构建稳定可靠的长期运行爬虫?
Lua vs. Python:哪个更适合构建稳定可靠的长期运行爬虫?
|
5天前
|
数据采集 Web App开发 Java
Python 爬虫:Spring Boot 反爬虫的成功案例
Python 爬虫:Spring Boot 反爬虫的成功案例
|
5天前
|
数据采集 Python
使用Python实现简单的Web爬虫
本文将介绍如何使用Python编写一个简单的Web爬虫,用于抓取网页上的信息。通过分析目标网页的结构,利用Python中的requests和Beautiful Soup库,我们可以轻松地提取所需的数据,并将其保存到本地或进行进一步的分析和处理。无论是爬取新闻、股票数据,还是抓取图片等,本文都将为您提供一个简单而有效的解决方案。
|
5天前
|
数据采集 存储 XML
如何利用Python构建高效的Web爬虫
本文将介绍如何使用Python语言以及相关的库和工具,构建一个高效的Web爬虫。通过深入讨论爬虫的基本原理、常用的爬虫框架以及优化技巧,读者将能够了解如何编写可靠、高效的爬虫程序,实现数据的快速获取和处理。
|
5天前
|
数据采集 Web App开发 数据可视化
Python爬虫技术与数据可视化:Numpy、pandas、Matplotlib的黄金组合
Python爬虫技术与数据可视化:Numpy、pandas、Matplotlib的黄金组合
|
5天前
|
数据采集 存储 大数据
Python爬虫:数据获取与解析的艺术
本文介绍了Python爬虫在大数据时代的作用,重点讲解了Python爬虫基础、常用库及实战案例。Python因其简洁语法和丰富库支持成为爬虫开发的优选语言。文中提到了requests(发送HTTP请求)、BeautifulSoup(解析HTML)、Scrapy(爬虫框架)、Selenium(处理动态网页)和pandas(数据处理分析)等关键库。实战案例展示了如何爬取电商网站的商品信息,包括确定目标、发送请求、解析内容、存储数据、遍历多页及数据处理。最后,文章强调了遵守网站规则和尊重隐私的重要性。
30 2
|
5天前
|
数据采集 定位技术 Python
Python爬虫IP代理技巧,让你不再为IP封禁烦恼了! 
本文介绍了Python爬虫应对IP封禁的策略,包括使用代理IP隐藏真实IP、选择稳定且数量充足的代理IP服务商、建立代理IP池增加爬虫效率、设置合理抓取频率以及运用验证码识别技术。这些方法能提升爬虫的稳定性和效率,降低被封禁风险。
|
5天前
|
数据采集 存储 JSON
Python爬虫面试:requests、BeautifulSoup与Scrapy详解
【4月更文挑战第19天】本文聚焦于Python爬虫面试中的核心库——requests、BeautifulSoup和Scrapy。讲解了它们的常见问题、易错点及应对策略。对于requests,强调了异常处理、代理设置和请求重试;BeautifulSoup部分提到选择器使用、动态内容处理和解析效率优化;而Scrapy则关注项目架构、数据存储和分布式爬虫。通过实例代码,帮助读者深化理解并提升面试表现。
27 0