scrapy MysqlPipeline 同步和异步

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
import MySQLdb
import MySQLdb.cursors
 
 
class  MysqlPipeline(object):
     #采用同步的机制写入mysql
     def __init__(self):
         self.conn = MySQLdb.connect( '192.168.0.106' 'root' 'root' 'article_spider' , charset= "utf8" , use_unicode=True)
         self.cursor = self.conn.cursor()
 
     def process_item(self, item, spider):
         insert_sql =  "" "
             insert into jobbole_article(title, url, create_date, fav_nums)
             VALUES (%s, %s, %s, %s)
         "" "
         self.cursor.execute(insert_sql, (item[ "title" ], item[ "url" ], item[ "create_date" ], item[ "fav_nums" ]))
         self.conn.commit()
 
 
class  MysqlTwistedPipline(object):
     def __init__(self, dbpool):
         self.dbpool = dbpool
 
     @classmethod
     def from_settings(cls, settings):
         dbparms = dict(
             host = settings[ "MYSQL_HOST" ],
             db = settings[ "MYSQL_DBNAME" ],
             user = settings[ "MYSQL_USER" ],
             passwd = settings[ "MYSQL_PASSWORD" ],
             charset= 'utf8' ,
             cursorclass=MySQLdb.cursors.DictCursor,
             use_unicode=True,
         )
         dbpool = adbapi.ConnectionPool( "MySQLdb" , **dbparms)
 
         return  cls(dbpool)
 
     def process_item(self, item, spider):
         #使用twisted将mysql插入变成异步执行
         query = self.dbpool.runInteraction(self.do_insert, item)
         query.addErrback(self.handle_error, item, spider) #处理异常
 
     def handle_error(self, failure, item, spider):
         # 处理异步插入的异常
         print (failure)
 
     def do_insert(self, cursor, item):
         #执行具体的插入
         #根据不同的item 构建不同的sql语句并插入到mysql中
         insert_sql, params = item.get_insert_sql()
         print (insert_sql, params)
         cursor.execute(insert_sql, params)







      本文转自ning1022 51CTO博客,原文链接:http://blog.51cto.com/ning1022/1925593 ,如需转载请自行联系原作者



相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
6月前
|
存储 数据采集 NoSQL
Scrapy与MongoDB的异步数据存储
在数据采集过程中,处理大量的数据请求和存储任务是常见的需求。使用Scrapy来爬取数据并将其存储到MongoDB中是一个高效的解决方案。本文将介绍如何实现一个异步插入MongoDB的Scrapy管道。
|
7月前
|
数据采集 Python
scrapy异步下载图片
scrapy异步下载图片
78 0
scrapy异步下载图片
|
1月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
114 6
|
2月前
|
数据采集 中间件 开发者
Scrapy爬虫框架-自定义中间件
Scrapy爬虫框架-自定义中间件
64 1
|
2月前
|
数据采集 中间件 Python
Scrapy爬虫框架-通过Cookies模拟自动登录
Scrapy爬虫框架-通过Cookies模拟自动登录
127 0
|
1月前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
90 4
|
1月前
|
数据采集 中间件 API
在Scrapy爬虫中应用Crawlera进行反爬虫策略
在Scrapy爬虫中应用Crawlera进行反爬虫策略
|
7月前
|
数据采集 中间件 Python
Scrapy爬虫:利用代理服务器爬取热门网站数据
Scrapy爬虫:利用代理服务器爬取热门网站数据
|
2月前
|
数据采集 中间件 数据挖掘
Scrapy 爬虫框架(一)
Scrapy 爬虫框架(一)
61 0
|
2月前
|
数据采集 XML 前端开发
Scrapy 爬虫框架(二)
Scrapy 爬虫框架(二)
52 0