(solr系列:四)将mysql数据库中的数据导入到solr中及删除solr中导入的数据

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用系列 2核4GB
简介:

在前面的博文中,已完成了在tomcat中对solr的部署,为solr添加了一个自定义的core,并且引入了ik分词器。

那么该如何将本地的mysql的数据导入到solr中呢?

准备工作:

1、mysql数据源:myuser库中的user表(8条数据),其中这个updateTime字段是用于solr更新数据库数据的依据,表中必须得有这个字段。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
/*
Navicat MySQL Data Transfer
 
Source Server         : localhost
Source Server Version : 50521
Source Host           : localhost:3306
Source Database       : user
 
Target Server Type    : MYSQL
Target Server Version : 50521
File Encoding         : 65001
 
Date: 2016-10-21 10:14:01
*/
 
SET FOREIGN_KEY_CHECKS=0;
 
-- ----------------------------
-- Table structure for user
-- ----------------------------
DROP TABLE IF EXISTS `user`;
CREATE TABLE `user` (
   `id` int(11) NOT NULL AUTO_INCREMENT,
   `name` varchar(255) NOT NULL,
   `password` varchar(255) NOT NULL,
   `updateTime` datetime DEFAULT NULL,
   PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=10 DEFAULT CHARSET=utf8;
 
-- ----------------------------
-- Records of user
-- ----------------------------
INSERT INTO `user` VALUES ('1', '张三', 'abc', '2016-10-21 10:10:58');
INSERT INTO `user` VALUES ('2', '李四', 'def', '2016-10-21 10:10:58');
INSERT INTO `user` VALUES ('3', '王五', 'ghi', '2016-10-21 10:10:58');
INSERT INTO `user` VALUES ('4', '赵六', 'jkl', '2016-10-21 10:10:58');
INSERT INTO `user` VALUES ('5', '田七', 'mno', '2016-10-21 10:10:58');
INSERT INTO `user` VALUES ('6', '老八', 'pqr', '2016-10-21 10:10:58');
INSERT INTO `user` VALUES ('7', '金九', 'stu', '2016-10-21 10:10:58');
INSERT INTO `user` VALUES ('8', '银十', 'vwx', '2016-10-21 10:10:58');

2、数据源配置文件:新建文件:data-config.xml,文件内容如下

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
< dataConfig >
     < dataSource  type = "JdbcDataSource"  driver = "com.mysql.jdbc.Driver"
         url = "jdbc:mysql://localhost:3306/myuser"  user = "root"  password = "root"
         batchSize = "100"  />
     < document >
         < entity  name = "user"  pk = "id"
             query = "SELECT id,name,password,updateTime FROM user"
             deltaImportQuery = "SELECT id,name,password,updateTime FROM user where id='${dataimporter.delta.id}'"
             deltaQuery="SELECT id FROM user where updateTime > '${dataimporter.last_index_time}'">
             < field  column = "id"  name = "id"  />
             < field  column = "name"  name = "name"  />
             < field  column = "password"  name = "password"  />
             < field  column = "updateTime"  name = "updateTime"  />
         </ entity >
     </ document >
</ dataConfig >

3、mysql驱动jar包和solr导入数据所需的jar包:mysql-connector-java-5.1.32.jar(这个大家都有) 和 solr-dataimporthandler-4.10.2.jar(这个在solr-4.10.2\dist目录下可以找到,复制出来一个即可)

====================================================================================

准备工作完成之后就可以进行配置和操作了。

步骤一:将刚才准备的那两个jar包复制到apache-tomcat-7.0.72\webapps\solr\WEB-INF\lib目录下。


步骤二:将准备的data-config.xml文件复制到solrhome\simple\conf目录下,和schema.xml同一目录。


步骤三:在solrhome\simple\conf目录下找到solrconfig.xml文件,为该文件添加如下内容:

1
2
3
4
5
6
  < requestHandler  name = "/dataimport" 
  class = "org.apache.solr.handler.dataimport.DataImportHandler" >
     < lst  name = "defaults" >
          < str  name = "config" >data-config.xml</ str >
     </ lst >
   </ requestHandler >

步骤四:在solrhome\simple\conf目录下找到schema.xml文件,打开并修改如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
<? xml  version = "1.0"  encoding = "UTF-8"  ?>
< schema  name = "example"  version = "1.5" >
     <!--定义type类型-->
   < types >
         < fieldType  name = "string"  class = "solr.StrField"
             sortMissingLast = "true"  />  
         < fieldType  name = "long"  class = "solr.TrieLongField"
             precisionStep = "0"  positionIncrementGap = "0" />           
         < fieldType  name = "int"  class = "solr.TrieIntField"
             precisionStep = "0"  positionIncrementGap = "0"  />
         < fieldType  name = "date"  class = "solr.TrieDateField"
             precisionStep = "8"  positionIncrementGap = "0"  />
         < fieldType  name = "text_ik"  class = "solr.TextField" >
             < analyzer  class = "org.wltea.analyzer.lucene.IKAnalyzer"  />
         </ fieldType >
   </ types >
   <!--定义字段-->
     < fields >
         < field  name = "_version_"  type = "long"  indexed = "true"  stored = "true"  />
         < field  name = "_root_"  type = "string"  indexed = "true"  stored = "false"  />
         < field  name = "id"  type = "int"  indexed = "true"  stored = "true"
             required = "true"  multiValued = "false"  />
         <!--注意:这里的field中的name要和data-config.xml中的name对应-->
         <!--字段为name的type类型可以是string-->
         < field  name = "name"  type = "text_ik"  indexed = "true"  stored = "true"  />
         < field  name = "password"  type = "string"  indexed = "true"  stored = "true"  />
         < field  name = "updateTime"  type = "date"  indexed = "true"  stored = "true"  />
     </ fields >
     < uniqueKey >id</ uniqueKey >
     < solrQueryParser  defaultOperator = "AND"  />
</ schema >

步骤四:启动tomcat,浏览器访问:locahost:8080/solr 原来的simple中数没有任何数据的。

wKiom1gJg1mzQHFVAAEzLfQL15A890.png


步骤五:导入mysql数据到solr中


wKioL1gJhEjAWQ8BAAFEUREJWCE860.png

再次查看数据,如果显示如下,那么恭喜你,数据导入成功!

wKioL1gJh6Kiv8HDAAFRCaGoUng916.png



=====================================================================================

如果想删除solr中导入的数据该如何操作,一上图就……了然j_0007.gif

wKioL1gJzXjw6LC6AAD3LRm78h4615.pngxml命令:

1、根据查询删除:删除所有数据

1
2
< delete >< query >*:*</ query ></ delete >
< commit />

当然,上面说的是手动删除,如果要删除的数据很多,想在下一次自动同步数据的时候自动删除指定的数据该如何做呢?

场景:有一批要拍卖的店铺数据存储在solr中,拍卖的店铺数据有一个拍卖结束时间(endTime),当拍卖结束时间一到,这条存储在solr中的拍卖数据就没有意义了,想要删除这条存储在solr中的数据。

按照上面的手动删除也不是不可以,但这人工操作未免太扯了,到时间人工去solr中删除这条数据耗时又耗力,也不太现实。

解决办法就是:

    在data-config.xmlentity中添加:

1
deletedPkQuery= "select id from shops  where endTime &lt; NOW()"

这一句,这句和entiy的query同级,目的是查询出所有店铺数据中结束时间小于当前时间的店铺id,

这个店铺id会和deltaQuery中收集到的id一并执行deltaImportQuery操作,只不过一个是添加数据,一个是删除数据。


如果是其他业务场景也可以借鉴下这篇博客中在表中添加isdelete字段的方式完成删除,其实只要有一个字段能够标识就行:

参考地址:http://simplelife.blog.51cto.com/9954761/1883024 




本文转自 兴趣e族 51CTO博客,原文链接:http://blog.51cto.com/simplelife/1864154

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
存储 监控 数据处理
flink 向doris 数据库写入数据时出现背压如何排查?
本文介绍了如何确定和解决Flink任务向Doris数据库写入数据时遇到的背压问题。首先通过Flink Web UI和性能指标监控识别背压,然后从Doris数据库性能、网络连接稳定性、Flink任务数据处理逻辑及资源配置等方面排查原因,并通过分析相关日志进一步定位问题。
168 61
|
2天前
|
前端开发 JavaScript 数据库
获取数据库中字段的数据作为下拉框选项
获取数据库中字段的数据作为下拉框选项
24 5
|
12天前
|
存储 关系型数据库 MySQL
mysql怎么查询longblob类型数据的大小
通过本文的介绍,希望您能深入理解如何查询MySQL中 `LONG BLOB`类型数据的大小,并结合优化技术提升查询性能,以满足实际业务需求。
45 6
|
1月前
|
存储 Oracle 关系型数据库
【赵渝强老师】MySQL InnoDB的数据文件与重做日志文件
本文介绍了MySQL InnoDB存储引擎中的数据文件和重做日志文件。数据文件包括`.ibd`和`ibdata`文件,用于存放InnoDB数据和索引。重做日志文件(redo log)确保数据的可靠性和事务的持久性,其大小和路径可由相关参数配置。文章还提供了视频讲解和示例代码。
149 11
【赵渝强老师】MySQL InnoDB的数据文件与重做日志文件
|
21天前
|
SQL 关系型数据库 MySQL
MySQL导入.sql文件后数据库乱码问题
本文分析了导入.sql文件后数据库备注出现乱码的原因,包括字符集不匹配、备注内容编码问题及MySQL版本或配置问题,并提供了详细的解决步骤,如检查和统一字符集设置、修改客户端连接方式、检查MySQL配置等,确保导入过程顺利。
|
24天前
|
SQL 关系型数据库 MySQL
mysql分页读取数据重复问题
在服务端开发中,与MySQL数据库进行数据交互时,常因数据量大、网络延迟等因素需分页读取数据。文章介绍了使用`limit`和`offset`参数实现分页的方法,并针对分页过程中可能出现的数据重复问题进行了详细分析,提出了利用时间戳或确保排序规则绝对性等解决方案。
|
29天前
|
关系型数据库 MySQL 数据库
GBase 数据库如何像MYSQL一样存放多行数据
GBase 数据库如何像MYSQL一样存放多行数据
|
1月前
|
缓存 NoSQL 关系型数据库
Redis和Mysql如何保证数据⼀致?
在项目中,为了解决Redis与Mysql的数据一致性问题,我们采用了多种策略:对于低一致性要求的数据,不做特别处理;时效性数据通过设置缓存过期时间来减少不一致风险;高一致性但时效性要求不高的数据,利用MQ异步同步确保最终一致性;而对一致性和时效性都有高要求的数据,则采用分布式事务(如Seata TCC模式)来保障。
67 14
|
1月前
|
SQL 前端开发 关系型数据库
SpringBoot使用mysql查询昨天、今天、过去一周、过去半年、过去一年数据
SpringBoot使用mysql查询昨天、今天、过去一周、过去半年、过去一年数据
65 9
|
3天前
|
存储 Oracle 关系型数据库
数据库传奇:MySQL创世之父的两千金My、Maria
《数据库传奇:MySQL创世之父的两千金My、Maria》介绍了MySQL的发展历程及其分支MariaDB。MySQL由Michael Widenius等人于1994年创建,现归Oracle所有,广泛应用于阿里巴巴、腾讯等企业。2009年,Widenius因担心Oracle收购影响MySQL的开源性,创建了MariaDB,提供额外功能和改进。维基百科、Google等已逐步替换为MariaDB,以确保更好的性能和社区支持。掌握MariaDB作为备用方案,对未来发展至关重要。
13 3