Python编程:PyThink数据库交互模块提高爬虫编写速度

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介: Python编程:PyThink数据库交互模块提高爬虫编写速度

PyThink模块 提供了一些快捷方式,用于数据库的基本增、删、改、查

可以让你 如丝般顺滑地向MySQL插入数据

github: https://github.com/mouday/PyThink

安装

pip install pythink

一、使用方式

1、定义数据Model

# -*- coding: utf-8 -*-


from pythink import ThinkModel, ThinkDatabase

# 1、定义数据Model, 定义方式类似peewee
db_url = "mysql://root:123456@127.0.01:3306/demo"
db = ThinkDatabase(db_url)


# demo库的基类,以便复用
class DemoThinkModel(ThinkModel):
database = db


# 方便之处在于不用定义字段
class StudentThinkModel(DemoThinkModel):
"""
学生表
"""

2、插入数据

# -- coding: utf-8 --

# 插入数据
data = {
"name": "Tom",
"age": 23
}

StudentThinkModel.insert(data)


# 插入多条数据
lst = [
{
"name": "Tom",
"age": 23
},
{
"name": "Jack",
"age": 24
}
]

StudentThinkModel.insert(lst)

二、配合Scrapy框架使用

首先回忆一下Scrapy 所提供的数据操作流程

1.png

思路很清晰,不过有个更快的方式

2.png

如果字段过多,而且一次性抓取,实在没必要去定义那么多类,而且项目文件数量会以惊人的速度增加

下面采用后者写一个简单的实例

1、定义model demo_models.py

# -- coding: utf-8 --

# @Date : 2019-05-15
# @Author : Peng Shiyu


from pythink import ThinkModel, ThinkDatabase

db_url = "mysql://root:123456@127.0.01:3306/demo"
db = ThinkDatabase(db_url, echo=True)


class DemoThinkModel(ThinkModel):
database = db


class TitleThinkModel(DemoThinkModel):
"""
定义title 表

create table title(
id int(11) primary key auto_increment,
title varchar(50),
url varchar(100)
) comment '存放爬虫数据'
"""

2、编写爬虫 baidu_spider.py

# -- coding: utf-8 --

from scrapy import Spider
from demo_models import TitleThinkModel


# 定义百度spider
class BaiduSpider(Spider):
name = "baidu_spider"

start_urls = [
"https://www.baidu.com/";
]

def parse(self, response):
title = response.css("title::text").extract_first("")

item = {
"title": title,
"url": response.url
}

TitleThinkModel.insert(item)

3、运行爬虫

$ scrapy runspider baidu_spider.py

4、 查看数据库的数据,数据已经成功入库

mysql> select * from title;

+----+-----------------------------+------------------------+
| id | title | url |
+----+-----------------------------+------------------------+
| 1 | 百度一下,你就知道 | https://www.baidu.com/ |
+----+-----------------------------+------------------------+
1 row in set (0.00 sec)

三、总结

第一、项目结构

回头看下,按照原来的方式,我们应该至少会定义 3 个文件:


  1. spider
  2. item
  3. pipline

现在,我们一共定义了2个文件

  1. spider
  2. model

文件减少,意味着项目文件会减少,代码量减少,何乐不为?

第二、性能

原有方式,使用yield 返回Item对象,速度上是要快一些


不过你必须在项目中使用全局搜索,才能搜索到哪个地方在处理这个Item ,在IDE中不能直接跳转,很不方便


使用后者,能够轻松的知道是哪个地方在处理这个数据,使得项目易于维护


使用ThinkModel 还可以在其中进行自定义扩展,增加其他操作,那是后话了


最后

总之,使用item-pipline 方式编写复杂,性能好;使用model 方式编写容易,会降低性能。

当然,一个折中的方式是将model写入操作移到pipline中使用

            </div>
相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
1天前
|
机器学习/深度学习 数据采集 数据挖掘
探索Python编程的奥秘
【10月更文挑战第7天】本文将带你走进Python的世界,探索其背后的逻辑与魅力。我们将从基础语法开始,逐步深入到函数、面向对象编程等高级特性,最后通过实际项目案例,让你体验Python的强大与便捷。无论你是编程新手,还是有一定基础的开发者,都能在这篇文章中找到你需要的信息和启发。
|
2天前
|
IDE 开发工具 Python
Python 编程入门:打造你的第一个程序
【10月更文挑战第6天】编程,这个听起来高大上又充满神秘感的领域,其实就像学习骑自行车一样。一开始你可能会觉得难以掌握平衡,但一旦你学会了,就能自由地穿梭在广阔的道路上。本文将带你走进 Python 的世界,用最简单的方式让你体验编写代码的乐趣。不需要复杂的理论,我们将通过一个简单的例子——制作一个猜数字游戏,来实践学习。准备好了吗?让我们开始吧!
|
4天前
|
存储 人工智能 Java
Python编程入门:从基础到实战
【10月更文挑战第4天】本文旨在为初学者提供一个全面而深入的Python编程学习路径。我们将从Python的基本语法和概念开始,然后逐步深入到更复杂的主题,如数据结构、面向对象编程和异常处理等。最后,我们将通过一些实际的项目案例,帮助读者将理论知识应用到实践中去。无论你是编程新手,还是有一定经验的开发者,都可以在这篇文章中找到适合自己的学习内容。让我们一起开启Python编程的学习之旅吧!
|
6天前
|
人工智能 数据挖掘 Serverless
探索Python编程:从基础到实战
【10月更文挑战第2天】本文将带你走进Python的世界,了解它的基本语法、数据结构、函数等核心概念,并通过实例演示如何应用这些知识解决实际问题。无论你是编程新手还是有一定经验的开发者,都能在这篇文章中找到有价值的内容。让我们一起开启Python编程之旅吧!
|
3天前
|
存储 人工智能 数据挖掘
探索Python编程:从基础到进阶
【10月更文挑战第5天】在数字时代的浪潮中,掌握编程技能已成为一项宝贵的能力。本文旨在为初学者提供一个深入浅出的Python编程之旅,从基本概念到实际应用,逐步揭示编程之美。无论你是编程新手还是希望深化理解,跟随这篇文章的脚步,你将学会如何用Python语言构建你的第一个程序,并了解代码背后的逻辑。让我们开始吧,解锁编程的秘密,开启你的技术成长之路!
|
4天前
|
数据可视化 Python
Python编程之数据可视化入门
【10月更文挑战第4天】在数字时代的洪流中,数据如同星辰般璀璨,而将它们绘制成图表,便是我们探索宇宙的方式。本文将带你启航,用Python这艘航船,驶向数据可视化的奥秘。我们将从安装必要的工具包开始,逐步深入到数据的呈现,最后通过代码示例点亮知识的灯塔,指引你在数据海洋中航行。让我们握紧舵盘,乘风破浪,揭开数据背后的故事吧!
|
3天前
|
数据采集 程序员 开发者
Python编程入门:从基础到实战
【10月更文挑战第5天】本文旨在为初学者提供一条清晰的Python学习路径,涵盖基础知识、关键概念、实战项目以及常见问题解答。我们将通过简单易懂的语言和实际代码示例,帮助读者快速掌握Python编程技能。无论你是零基础的新手还是有一定经验的开发者,都能在这篇文章中找到有价值的信息。让我们一起开启Python编程之旅吧!
|
4天前
|
开发者 Python
Python 语法糖:让编程更简单
Python 语法糖:让编程更简单
16 3
|
4天前
|
开发者 Python
Python 语法糖:让编程更简单(续)
Python 语法糖:让编程更简单(续)
13 3
|
5天前
|
存储 关系型数据库 数据库
轻量级数据库的利器:Python 及其内置 SQLite 简介
轻量级数据库的利器:Python 及其内置 SQLite 简介
13 3