Python实现网络爬虫自动化:从基础到实践

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 Tair(兼容Redis),内存型 2GB
简介: 本文将介绍如何使用Python编写网络爬虫,从最基础的请求与解析,到自动化爬取并处理复杂数据。我们将通过实例展示如何抓取网页内容、解析数据、处理图片文件等常用爬虫任务。

1. 基础:使用 requests 抓取网页

在网络爬虫中,requests库是最常用的基础库,用来向网页发送请求并获取响应内容。

示例:抓取网页内容

以下代码示例展示如何请求某网站的HTML内容,并简单打印出其标题。

import requests
from bs4 import BeautifulSoup

def fetch_page(url):
    response = requests.get(url)
    if response.status_code == 200:
        return response.text
    else:
        print("请求失败,状态码:", response.status_code)
        return None

def get_page_title(url):
    html = fetch_page(url)
    if html:
        soup = BeautifulSoup(html, "html.parser")
        title = soup.title.string
        print("网页标题:", title)

# 使用示例
get_page_title("https://example.com")

2. 使用 BeautifulSoup 解析网页内容

BeautifulSoup 是一款强大的HTML和XML解析工具。通过它,我们可以轻松地提取网页中的关键信息。

示例:抓取新闻标题和链接

假设我们要抓取一个新闻网站首页上所有新闻的标题和链接。下面代码展示了如何使用 BeautifulSoup 实现这一目标:

import requests
from bs4 import BeautifulSoup

def fetch_news_titles(url):
    html = fetch_page(url)
    if html:
        soup = BeautifulSoup(html, "html.parser")
        news_list = []

        # 假设每个新闻标题在 <h2> 标签,链接在 <a> 标签中
        for news in soup.find_all("h2"):
            title = news.get_text()
            link = news.find("a")["href"]
            news_list.append({
   "title": title, "link": link})

        return news_list

# 使用示例
news = fetch_news_titles("https://example-news-website.com")
for item in news:
    print(item)

3. 数据清洗与存储

我们可以利用 pandas 将爬取到的数据进行处理,并保存为Excel或CSV文件,以便后续分析。

示例:将数据保存到Excel

import pandas as pd

def save_to_excel(data, filename="news_data.xlsx"):
    df = pd.DataFrame(data)
    df.to_excel(filename, index=False)
    print(f"数据已保存到 {filename}")

# 使用示例
news_data = fetch_news_titles("https://example-news-website.com")
save_to_excel(news_data)

4. 爬取带有图片的内容

很多网页包含图片,而爬取图片通常可以结合requests和文件操作,将图片下载到本地保存。

示例:爬取并保存图片

假设我们要爬取包含图片的网址,以下代码展示如何自动下载图片到本地。

import os
import requests
from bs4 import BeautifulSoup

def fetch_images(url, folder="images"):
    os.makedirs(folder, exist_ok=True)
    html = fetch_page(url)
    if html:
        soup = BeautifulSoup(html, "html.parser")

        for i, img in enumerate(soup.find_all("img")):
            img_url = img.get("src")
            img_data = requests.get(img_url).content
            with open(f"{folder}/image_{i}.jpg", "wb") as f:
                f.write(img_data)
                print(f"已保存图片:{folder}/image_{i}.jpg")

# 使用示例
fetch_images("https://example-website-with-images.com")

5. 自动化爬取多页内容

很多网站分页展示数据,这时需要自动化获取多页数据。我们可以使用一个循环并拼接URL,自动化爬取每一页内容。

示例:自动抓取多页数据

以下代码自动化爬取一个分页的新闻网站上所有页面的标题和链接。

def fetch_paginated_news(base_url, pages=5):
    all_news = []
    for page in range(1, pages + 1):
        url = f"{base_url}?page={page}"
        news = fetch_news_titles(url)
        all_news.extend(news)
        print(f"已爬取第 {page} 页")

    return all_news

# 使用示例
all_news_data = fetch_paginated_news("https://example-news-website.com")
save_to_excel(all_news_data, "all_news_data.xlsx")

6. 模拟浏览器请求

有些网站对简单的请求会进行限制,可能需要模拟浏览器请求或在请求中添加Headers来伪装。

示例:添加Headers模拟请求

以下代码在请求中添加Headers以模拟真实浏览器请求:

def fetch_page_with_headers(url):
    headers = {
   
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36"
    }
    response = requests.get(url, headers=headers)
    return response.text if response.status_code == 200 else None

# 使用示例
html_content = fetch_page_with_headers("https://example-website.com")

总结

Python的requestsBeautifulSouppandas等库,可以帮助我们轻松实现网络爬虫自动化,包括网页内容提取、图片下载、数据清洗与存储等任务。掌握这些方法后,可以用于自动化数据采集、舆情监测等多个应用场景。

相关文章
|
7天前
|
人工智能 自然语言处理 测试技术
从人工到AI驱动:天猫测试全流程自动化变革实践
天猫技术质量团队探索AI在测试全流程的落地应用,覆盖需求解析、用例生成、数据构造、执行验证等核心环节。通过AI+自然语言驱动,实现测试自动化、可溯化与可管理化,在用例生成、数据构造和执行校验中显著提效,推动测试体系从人工迈向AI全流程自动化,提升效率40%以上,用例覆盖超70%,并构建行业级知识资产沉淀平台。
从人工到AI驱动:天猫测试全流程自动化变革实践
|
4天前
|
数据采集 Web App开发 数据安全/隐私保护
实战:Python爬虫如何模拟登录与维持会话状态
实战:Python爬虫如何模拟登录与维持会话状态
|
23天前
|
监控 负载均衡 安全
WebSocket网络编程深度实践:从协议原理到生产级应用
蒋星熠Jaxonic,技术宇宙中的星际旅人,以代码为舟、算法为帆,探索实时通信的无限可能。本文深入解析WebSocket协议原理、工程实践与架构设计,涵盖握手机制、心跳保活、集群部署、安全防护等核心内容,结合代码示例与架构图,助你构建稳定高效的实时应用,在二进制星河中谱写极客诗篇。
WebSocket网络编程深度实践:从协议原理到生产级应用
|
23天前
|
数据采集 监控 数据库
Python异步编程实战:爬虫案例
🌟 蒋星熠Jaxonic,代码为舟的星际旅人。从回调地狱到async/await协程天堂,亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验,助你驾驭并发,在二进制星河中谱写极客诗篇。
Python异步编程实战:爬虫案例
|
3天前
|
存储 数据采集 监控
Python定时爬取新闻网站头条:从零到一的自动化实践
在信息爆炸时代,本文教你用Python定时爬取腾讯新闻头条,实现自动化监控。涵盖请求、解析、存储、去重、代理及异常通知,助你构建高效新闻采集系统,适用于金融、电商、媒体等场景。(238字)
53 2
|
24天前
|
数据采集 存储 XML
Python爬虫技术:从基础到实战的完整教程
最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.
536 19
|
10天前
|
数据采集 存储 JSON
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
|
14天前
|
数据采集 存储 JavaScript
解析Python爬虫中的Cookies和Session管理
Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储,用于标识用户;Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。
|
6月前
|
数据采集 测试技术 C++
无headers爬虫 vs 带headers爬虫:Python性能对比
无headers爬虫 vs 带headers爬虫:Python性能对比
|
6月前
|
数据采集 存储 监控
Python 原生爬虫教程:网络爬虫的基本概念和认知
网络爬虫是一种自动抓取互联网信息的程序,广泛应用于搜索引擎、数据采集、新闻聚合和价格监控等领域。其工作流程包括 URL 调度、HTTP 请求、页面下载、解析、数据存储及新 URL 发现。Python 因其丰富的库(如 requests、BeautifulSoup、Scrapy)和简洁语法成为爬虫开发的首选语言。然而,在使用爬虫时需注意法律与道德问题,例如遵守 robots.txt 规则、控制请求频率以及合法使用数据,以确保爬虫技术健康有序发展。
919 31

推荐镜像

更多