Python-数据爬取（爬虫）

2024-07-23 102

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

全局流量管理 GTM，标准版 1个月

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

云解析 DNS，旗舰版 1个月

简介： 【7月更文挑战第24天】

1.简要描述一下Python爬虫的工作原理，并介绍几个常用的Python爬虫库。
Python爬虫的工作原理
发送请求：爬虫向目标网站发送HTTP请求，通常使用GET请求来获取网页内容。
解析响应：接收并解析HTTP响应，提取出有用的数据。常用的解析方式包括HTML解析和JSON解析。
数据提取：使用解析后的数据，根据特定的规则或结构，提取所需信息。
数据存储：将提取出的数据保存到文件、数据库或其他存储系统中。
遵守规则：爬虫需要遵守目标网站的robots.txt文件中的规则，避免对服务器造成过大压力。
常用的Python爬虫库
Requests：一个简单易用的HTTP库，用于发送请求和接收响应。
BeautifulSoup：一个用于解析HTML和XML的库，可以轻松地提取网页中的数据。
Scrapy：一个功能强大的爬虫框架，提供了许多高级功能，如请求调度、数据提取和存储。
Selenium：用于模拟浏览器操作，适合处理需要JavaScript渲染的网页。
使用selenium库爬取东方财富网站股票数据信息

示例代码和过程说明
安装Selenium库：首先确保已经安装了Selenium库和对应的浏览器驱动，例如Chrome驱动（Chrome WebDriver）。

pip install selenium
导入必要的库和设置：导入Selenium库，并设置浏览器驱动的路径和目标网页URL。

from selenium import webdriver
import time

设置 Chrome 驱动程序路径

driver_path = '/path/to/chromedriver'

目标网页 URL

url = 'http://quote.eastmoney.com/center/gridlist.html#hs_a_board'
设置浏览器选项和启动WebDriver：配置Chrome浏览器选项，启动WebDriver，并打开目标网页。

设置 Chrome 浏览器选项

options = webdriver.ChromeOptions()
options.add_argument('--headless') # 无头模式运行浏览器，即不打开实际浏览器窗口
options.add_argument('--disable-gpu')
options.add_argument('--no-sandbox')

启动 Chrome 浏览器

driver = webdriver.Chrome(executable_path=driver_path, options=options)

打开目标网页

driver.get(url)
模拟翻页和数据抓取：使用Selenium模拟点击下一页按钮，然后等待2秒钟加载下一页数据，并抓取页面中的股票数据。

try:
while True:

    # 等待页面加载完全
    time.sleep(2)

    # 爬取当前页面数据（这里假设抓取表格数据的过程）
    table = driver.find_element_by_css_selector('table.stock-table')

    # 处理表格数据，例如输出或者存储数据
    rows = table.find_elements_by_css_selector('tr')
    for row in rows:
        # 处理每一行数据，例如打印股票代码和名称
        cells = row.find_elements_by_css_selector('td')
        if len(cells) >= 2:
            stock_code = cells[0].text
            stock_name = cells[1].text
            print(f"股票代码: {stock_code}, 股票名称: {stock_name}")

    # 查找并点击下一页按钮
    next_button = driver.find_element_by_css_selector('a.next')
    next_button.click()

except Exception as e:
print(f"爬取过程出现异常: {str(e)}")

finally:

# 关闭浏览器驱动
driver.quit()

源码
from selenium import webdriver
import time

设置 Chrome 驱动程序路径

driver_path = '/path/to/chromedriver'

目标网页 URL

url = 'http://quote.eastmoney.com/center/gridlist.html#hs_a_board'

设置 Chrome 浏览器选项

启动 Chrome 浏览器

driver = webdriver.Chrome(executable_path=driver_path, options=options)

try:

# 打开目标网页
driver.get(url)

while True:
    # 等待页面加载完全
    time.sleep(2)

    # 爬取当前页面数据（这里假设抓取表格数据的过程）
    table = driver.find_element_by_css_selector('table.stock-table')

    # 处理表格数据，例如输出或者存储数据
    rows = table.find_elements_by_css_selector('tr')
    for row in rows:
        # 处理每一行数据，例如打印股票代码和名称
        cells = row.find_elements_by_css_selector('td')
        if len(cells) >= 2:
            stock_code = cells[0].text
            stock_name = cells[1].text
            print(f"股票代码: {stock_code}, 股票名称: {stock_name}")

    # 查找并点击下一页按钮
    next_button = driver.find_element_by_css_selector('a.next')
    next_button.click()

except Exception as e:
print(f"爬取过程出现异常: {str(e)}")

finally:

# 关闭浏览器驱动
driver.quit()

过程说明
设置浏览器选项和启动WebDriver：通过设置ChromeOptions来配置Chrome浏览器的参数，包括无头模式等，然后启动Chrome浏览器。

模拟翻页和数据抓取：使用一个while循环，不断查找并点击页面的下一页按钮（假设为CSS选择器a.next），然后等待2秒钟（使用time.sleep(2)）加载下一页数据。在每一页加载完成后，使用Selenium的方法找到表格元素（假设为CSS选择器table.stock-table），然后逐行抓取并处理股票数据。

异常处理和浏览器关闭：使用try-except语句捕获可能出现的异常，并在最后通过driver.quit()关闭浏览器驱动，确保资源释放。

2.Scrapy 框架的基本结构和工作流程是怎样的？
Scrapy 框架的基本结构
项目结构：Scrapy项目包含多个文件和目录，如spiders（存放爬虫代码）、items（定义数据结构）、pipelines（处理提取的数据）、settings（项目配置）等。
Spiders：定义爬虫的核心部分，负责发送请求和解析响应。
Items：定义数据结构，用于存储爬取的数据。
Pipelines：处理提取的数据，可以进行清洗、验证和存储等操作。
Middlewares：中间件，用于处理请求和响应的过程，类似于过滤器。
Scrapy 工作流程
启动爬虫：Scrapy启动后，加载配置和爬虫类。
发送请求：爬虫类发送初始请求（通常是start_urls列表中的URL）。
解析响应：收到响应后，调用爬虫类中的解析方法（如parse），提取数据和生成新的请求。
生成新的请求：解析方法可以生成新的请求，这些请求会被放入调度器中，等待执行。
处理数据：提取到的数据会被传递到pipelines进行进一步处理，如清洗和存储。
Scrapy 示例
下面是一个简单的Scrapy爬虫示例，它爬取一个示例网站的标题和链接。

创建Scrapy项目：

scrapy startproject example
定义数据结构（example/items.py）：

import scrapy

class ExampleItem(scrapy.Item):
title = scrapy.Field()
link = scrapy.Field()
创建爬虫类（example/spiders/example_spider.py）：

import scrapy
from example.items import ExampleItem

class ExampleSpider(scrapy.Spider):
name = "example"
start_urls = ['http://example.com']

def parse(self, response):
    for item in response.css('div.item'):
        example_item = ExampleItem()
        example_item['title'] = item.css('a.title::text').get()
        example_item['link'] = item.css('a::attr(href)').get()
        yield example_item

配置pipelines（example/settings.py）：

ITEM_PIPELINES = {
'example.pipelines.ExamplePipeline': 300,
}
定义pipelines（example/pipelines.py）：

class ExamplePipeline:
def process_item(self, item, spider):

    # 这里可以进行数据清洗和存储
    print(f"Title: {item['title']}, Link: {item['link']}")
    return item

运行爬虫：

scrapy crawl example
这个爬虫会访问http://example.com，提取每个div.item中的标题和链接，并将其输出。
原文链接：https://blog.csdn.net/m0_74940474/article/details/140381034

Python-数据爬取（爬虫）

设置 Chrome 驱动程序路径

目标网页 URL

设置 Chrome 浏览器选项

启动 Chrome 浏览器

打开目标网页

设置 Chrome 驱动程序路径

目标网页 URL

设置 Chrome 浏览器选项

启动 Chrome 浏览器

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Python-数据爬取（爬虫）

设置 Chrome 驱动程序路径

目标网页 URL

设置 Chrome 浏览器选项

启动 Chrome 浏览器

打开目标网页

设置 Chrome 驱动程序路径

目标网页 URL

设置 Chrome 浏览器选项

启动 Chrome 浏览器

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像