FastAPI与Selenium:打造高效的Web数据抓取服务 —— 采集Pixabay中的图片及相关信息

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 本文介绍了如何使用FastAPI和Selenium搭建RESTful接口,访问免版权图片网站Pixabay并采集图片及其描述信息。通过配置代理IP、User-Agent和Cookie,提高爬虫的稳定性和防封禁能力。环境依赖包括FastAPI、Uvicorn和Selenium等库。代码示例展示了完整的实现过程,涵盖代理设置、浏览器模拟及数据提取,并提供了详细的中文注释。适用于需要高效、稳定的Web数据抓取服务的开发者。

爬虫代理

引言

在互联网数据采集中,图片数据往往占据了重要位置。Pixabay作为一个免版权图片网站,拥有海量优质图片。本文将展示如何利用FastAPI搭建一个RESTful接口,通过Selenium模拟浏览器行为访问Pixabay,并使用代理IP、User-Agent和Cookie配置提高爬虫稳定性,进而采集页面中图片及其相关描述信息。

环境准备

本文示例依赖以下第三方库:

  • FastAPI:用于搭建API接口;
  • Uvicorn:作为ASGI服务器运行FastAPI应用;
  • Selenium:用于模拟浏览器操作,实现数据抓取;
  • ChromeDriver:与Chrome浏览器版本匹配的驱动程序。

安装命令示例:

pip install fastapi uvicorn selenium

代理IP、User-Agent与Cookie配置说明

  1. 代理IP技术
    使用代理IP可以有效防止目标网站对单一IP的封禁。本文以亿牛云爬虫代理为例,配置了代理的域名、端口、用户名和密码,通过ChromeOptions传递给Selenium。
  2. User-Agent设置
    为了模拟真实用户访问,在浏览器启动时设置User-Agent,降低被反爬的风险。
  3. Cookie设置
    Cookie可用于维持会话状态或绕过部分反爬策略。在访问Pixabay后,添加Cookie可以确保后续操作更贴近真实浏览器行为。

代码实现

以下代码示例展示了如何整合FastAPI和Selenium,实现对Pixabay页面的访问及图片数据采集。代码中包含详细的中文注释,便于理解各步骤的作用。

# -*- coding: utf-8 -*-
"""
FastAPI与Selenium结合示例:
通过FastAPI提供API接口,使用Selenium进行网页抓取。
代码中配置了代理IP(参考亿牛云爬虫代理www.16yun.cn)、User-Agent和Cookie。
此示例访问 https://pixabay.com ,采集页面中的图片及其相关信息。
"""

from fastapi import FastAPI
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time

app = FastAPI()

def create_driver():
    # 初始化Chrome选项
    chrome_options = Options()

    # 设置User-Agent,模拟真实浏览器请求
    user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 " \
                 "(KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
    chrome_options.add_argument(f"user-agent={user_agent}")

    # 配置代理IP参数(参考亿牛云爬虫代理)
    proxy_host = "proxy.16yun.cn"      # 代理域名
    proxy_port = "8000"                    # 代理端口
    proxy_user = "your_username"           # 代理用户名
    proxy_pass = "your_password"           # 代理密码
    # 拼接代理字符串,格式为:username:password@host:port
    proxy = f"{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}"
    chrome_options.add_argument(f"--proxy-server=http://{proxy}")

    # 可选:如果需要无头模式(不打开浏览器窗口),取消下行注释
    # chrome_options.add_argument("--headless")

    # 初始化Chrome WebDriver
    driver = webdriver.Chrome(options=chrome_options)

    # 预先访问目标网站,设置Cookie示例(Cookie需与目标域名匹配)
    driver.get("https://pixabay.com")
    driver.add_cookie({
   
        "name": "example_cookie",    # Cookie名称
        "value": "cookie_value",     # Cookie值
        "domain": "pixabay.com"      # Cookie对应的域名
    })

    return driver

@app.get("/crawl")
def crawl():
    """
    接口说明:
    该接口使用Selenium访问 https://pixabay.com 页面,
    采集页面中所有图片的URL及其相关描述信息(通过alt属性提供),
    并以JSON格式返回采集结果。
    """
    try:
        # 创建Selenium WebDriver实例
        driver = create_driver()
        # 访问目标URL:Pixabay首页
        driver.get("https://pixabay.com")
        # 等待页面加载(根据实际情况可调整等待时间)
        time.sleep(5)

        # 查找页面中所有的img标签元素
        img_elements = driver.find_elements(By.TAG_NAME, "img")

        # 存储图片信息的列表
        images_info = []

        # 遍历所有图片元素,提取图片URL和描述信息(alt属性)
        for img in img_elements:
            src = img.get_attribute("src")
            alt = img.get_attribute("alt")
            # 如果图片URL不存在则跳过
            if not src:
                continue
            images_info.append({
   
                "src": src,
                "alt": alt
            })
    except Exception as e:
        # 捕获异常并返回错误信息
        return {
   "error": str(e)}
    finally:
        # 关闭浏览器,释放资源
        driver.quit()

    return {
   "total_images": len(images_info), "images": images_info}

# 启动FastAPI服务(在命令行中运行: uvicorn main:app --host 0.0.0.0 --port 8000)
if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)

代码说明

  1. 代理配置
    create_driver函数中,通过chrome_options.add_argument("--proxy-server=http://{proxy}")设置了代理IP,其中代理信息参考亿牛云爬虫代理的参数。
  2. User-Agent设置
    利用chrome_options.add_argument(f"user-agent={user_agent}")模拟真实浏览器请求,帮助绕过部分反爬机制。
  3. Cookie设置
    通过在访问Pixabay后添加Cookie(示例中为example_cookie),使得后续请求更接近真实浏览器行为。
  4. 图片信息采集
    /crawl接口中,通过driver.find_elements(By.TAG_NAME, "img")获取页面中所有图片元素,并提取每个图片的src(图片链接)和alt(图片描述)属性,构造成列表返回。
  5. FastAPI接口
    FastAPI提供的/crawl接口无需传入参数,直接访问Pixabay首页采集图片数据,适用于展示或后续数据处理流程。

总结

本文通过实际案例演示了如何使用FastAPI和Selenium构建一个Web数据抓取服务。通过配置代理IP、User-Agent和Cookie,我们能够更稳健地访问目标网站(此处为Pixabay),并采集其中的图片及相关信息。在实际应用中,可根据需求扩展数据解析逻辑、增加错误重试机制或并行处理策略,进一步优化抓取效率与鲁棒性。

希望这篇文章及示例代码能为你构建高效爬虫服务提供有价值的参考。

相关文章
|
7月前
|
算法 Java Go
【GoGin】(1)上手Go Gin 基于Go语言开发的Web框架,本文介绍了各种路由的配置信息;包含各场景下请求参数的基本传入接收
gin 框架中采用的路优酷是基于httprouter做的是一个高性能的 HTTP 请求路由器,适用于 Go 语言。它的设计目标是提供高效的路由匹配和低内存占用,特别适合需要高性能和简单路由的应用场景。
586 4
|
12月前
|
数据采集 Web App开发 JavaScript
基于Selenium的Python爬虫抓取动态App图片
基于Selenium的Python爬虫抓取动态App图片
890 68
|
前端开发 数据安全/隐私保护
【前端web入门第二天】03 表单-下拉菜单 文本域 label标签 按钮 【附注册信息综合案例】
本文档详细介绍了HTML表单的多种元素及其用法,包括下拉菜单(`<select>` 和 `<option>`)、文本域(`<textarea>`)、标签解释(`<label>`)、各类按钮(`<button>`)及表单重置功能、无语义布局标签(`<div>` 和 `<span>`)以及字符实体的应用。此外,还提供了一个完整的注册信息表单案例,涵盖个人信息、教育经历和工作经历等部分,展示了如何综合运用上述元素构建实用的表单。
401 6
【前端web入门第二天】03 表单-下拉菜单 文本域 label标签 按钮 【附注册信息综合案例】
|
数据采集 Web App开发 测试技术
使用Selenium与WebDriver实现跨浏览器自动化数据抓取
在网络爬虫领域,Selenium与WebDriver是实现跨浏览器自动化数据抓取的利器。本文详细介绍了如何利用Selenium和WebDriver结合代理IP技术提升数据抓取的稳定性和效率。通过设置user-agent和cookie来模拟真实用户行为,避免被网站检测和阻止。文章提供了具体的代码示例,展示了如何配置代理IP、设置user-agent和cookie,并实现了跨浏览器的数据抓取。合理的参数配置能有效减少爬虫被封禁的风险,提高数据抓取效率。
1468 6
使用Selenium与WebDriver实现跨浏览器自动化数据抓取
|
前端开发 Windows
【前端web入门第一天】02 HTML图片标签 超链接标签 音频标签 视频标签
本文档详细介绍了HTML中的图片、超链接、音频和视频标签的使用方法。首先讲解了`<img>`标签的基本用法及其属性,包括如何使用相对路径和绝对路径。接着介绍了`<a>`标签,用于创建超链接,并展示了如何设置目标页面打开方式。最后,文档还涵盖了如何在网页中嵌入音频和视频文件,包括简化写法及常用属性。
492 13
|
安全 应用服务中间件 开发工具
Web安全-SVN信息泄露漏洞分析
Web安全-SVN信息泄露漏洞分析
1576 2
|
Serverless 对象存储
现代化 Web 应用构建问题之配置Serverless Devs的秘钥信息如何解决
现代化 Web 应用构建问题之配置Serverless Devs的秘钥信息如何解决
254 1
|
Java 缓存 数据库连接
揭秘!Struts 2性能翻倍的秘诀:不可思议的优化技巧大公开
【8月更文挑战第31天】《Struts 2性能优化技巧》介绍了提升Struts 2 Web应用响应速度的关键策略,包括减少配置开销、优化Action处理、合理使用拦截器、精简标签库使用、改进数据访问方式、利用缓存机制以及浏览器与网络层面的优化。通过实施这些技巧,如懒加载配置、异步请求处理、高效数据库连接管理和启用GZIP压缩等,可显著提高应用性能,为用户提供更快的体验。性能优化需根据实际场景持续调整。
378 0
|
JSON API 数据库
探索FastAPI:不仅仅是一个Python Web框架,更是助力开发者高效构建现代化RESTful API服务的神器——从环境搭建到CRUD应用实战全面解析
【8月更文挑战第31天】FastAPI 是一个基于 Python 3.6+ 类型提示标准的现代 Web 框架,以其高性能、易用性和现代化设计而备受青睐。本文通过示例介绍了 FastAPI 的优势及其在构建高效 Web 应用中的强大功能。首先,通过安装 FastAPI 和 Uvicorn 并创建简单的“Hello, World!”应用入门;接着展示了如何处理路径参数和查询参数,并利用类型提示进行数据验证和转换。
898 0
|
数据可视化 Python
通过python建立一个web服务查看服务器上的文本、图片、视频等文件
通过python建立一个web服务查看服务器上的文本、图片、视频等文件
473 0