Python编程：PyThink数据库交互模块提高爬虫编写速度

2022-10-08 67

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云数据库 RDS MySQL，集群系列 2核4GB

云数据库 RDS MySQL，高可用系列 2核4GB

简介： Python编程：PyThink数据库交互模块提高爬虫编写速度

PyThink模块提供了一些快捷方式，用于数据库的基本增、删、改、查

可以让你如丝般顺滑地向MySQL插入数据

github： https://github.com/mouday/PyThink

安装

pip install pythink

一、使用方式

1、定义数据Model

# -*- coding: utf-8 -*-

from pythink import ThinkModel, ThinkDatabase

# 1、定义数据Model, 定义方式类似peewee
db_url = "mysql://root:123456@127.0.01:3306/demo"
db = ThinkDatabase(db_url)

# demo库的基类，以便复用
class DemoThinkModel(ThinkModel):
database = db

# 方便之处在于不用定义字段
class StudentThinkModel(DemoThinkModel):
"""
学生表
"""

2、插入数据

# -- coding: utf-8 --

# 插入数据
data = {
    "name": "Tom",
    "age": 23
}

StudentThinkModel.insert(data)


# 插入多条数据
lst = [
    {
        "name": "Tom",
        "age": 23
    },
    {
        "name": "Jack",
        "age": 24
    }
]

StudentThinkModel.insert(lst)

二、配合Scrapy框架使用

首先回忆一下Scrapy 所提供的数据操作流程

思路很清晰，不过有个更快的方式

如果字段过多，而且一次性抓取，实在没必要去定义那么多类，而且项目文件数量会以惊人的速度增加

下面采用后者写一个简单的实例

1、定义model demo_models.py

# -- coding: utf-8 --

# @Date    : 2019-05-15
# @Author  : Peng Shiyu


from pythink import ThinkModel, ThinkDatabase

db_url = "mysql://root:123456@127.0.01:3306/demo"
db = ThinkDatabase(db_url, echo=True)


class DemoThinkModel(ThinkModel):
    database = db


class TitleThinkModel(DemoThinkModel):
    """
    定义title 表

    create table title(
        id int(11) primary key auto_increment,
        title varchar(50),
        url varchar(100)
    ) comment '存放爬虫数据'
    """

2、编写爬虫 baidu_spider.py

# -- coding: utf-8 --

from scrapy import Spider
from demo_models import TitleThinkModel


# 定义百度spider
class BaiduSpider(Spider):
    name = "baidu_spider"

    start_urls = [
        "https://www.baidu.com/";
    ]

    def parse(self, response):
        title = response.css("title::text").extract_first("")

        item = {
            "title": title,
            "url": response.url
        }

        TitleThinkModel.insert(item)

3、运行爬虫

$ scrapy runspider baidu_spider.py

4、查看数据库的数据，数据已经成功入库

mysql> select * from title;

+----+-----------------------------+------------------------+
| id | title                       | url                    |
+----+-----------------------------+------------------------+
|  1 | 百度一下，你就知道          | https://www.baidu.com/ |
+----+-----------------------------+------------------------+
1 row in set (0.00 sec)