(solr系列:四)将mysql数据库中的数据导入到solr中及删除solr中导入的数据

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介:

在前面的博文中,已完成了在tomcat中对solr的部署,为solr添加了一个自定义的core,并且引入了ik分词器。

那么该如何将本地的mysql的数据导入到solr中呢?

准备工作:

1、mysql数据源:myuser库中的user表(8条数据),其中这个updateTime字段是用于solr更新数据库数据的依据,表中必须得有这个字段。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
/*
Navicat MySQL Data Transfer
 
Source Server         : localhost
Source Server Version : 50521
Source Host           : localhost:3306
Source Database       : user
 
Target Server Type    : MYSQL
Target Server Version : 50521
File Encoding         : 65001
 
Date: 2016-10-21 10:14:01
*/
 
SET FOREIGN_KEY_CHECKS=0;
 
-- ----------------------------
-- Table structure for user
-- ----------------------------
DROP TABLE IF EXISTS `user`;
CREATE TABLE `user` (
   `id` int(11) NOT NULL AUTO_INCREMENT,
   `name` varchar(255) NOT NULL,
   `password` varchar(255) NOT NULL,
   `updateTime` datetime DEFAULT NULL,
   PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=10 DEFAULT CHARSET=utf8;
 
-- ----------------------------
-- Records of user
-- ----------------------------
INSERT INTO `user` VALUES ('1', '张三', 'abc', '2016-10-21 10:10:58');
INSERT INTO `user` VALUES ('2', '李四', 'def', '2016-10-21 10:10:58');
INSERT INTO `user` VALUES ('3', '王五', 'ghi', '2016-10-21 10:10:58');
INSERT INTO `user` VALUES ('4', '赵六', 'jkl', '2016-10-21 10:10:58');
INSERT INTO `user` VALUES ('5', '田七', 'mno', '2016-10-21 10:10:58');
INSERT INTO `user` VALUES ('6', '老八', 'pqr', '2016-10-21 10:10:58');
INSERT INTO `user` VALUES ('7', '金九', 'stu', '2016-10-21 10:10:58');
INSERT INTO `user` VALUES ('8', '银十', 'vwx', '2016-10-21 10:10:58');

2、数据源配置文件:新建文件:data-config.xml,文件内容如下

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
< dataConfig >
     < dataSource  type = "JdbcDataSource"  driver = "com.mysql.jdbc.Driver"
         url = "jdbc:mysql://localhost:3306/myuser"  user = "root"  password = "root"
         batchSize = "100"  />
     < document >
         < entity  name = "user"  pk = "id"
             query = "SELECT id,name,password,updateTime FROM user"
             deltaImportQuery = "SELECT id,name,password,updateTime FROM user where id='${dataimporter.delta.id}'"
             deltaQuery="SELECT id FROM user where updateTime > '${dataimporter.last_index_time}'">
             < field  column = "id"  name = "id"  />
             < field  column = "name"  name = "name"  />
             < field  column = "password"  name = "password"  />
             < field  column = "updateTime"  name = "updateTime"  />
         </ entity >
     </ document >
</ dataConfig >

3、mysql驱动jar包和solr导入数据所需的jar包:mysql-connector-java-5.1.32.jar(这个大家都有) 和 solr-dataimporthandler-4.10.2.jar(这个在solr-4.10.2\dist目录下可以找到,复制出来一个即可)

====================================================================================

准备工作完成之后就可以进行配置和操作了。

步骤一:将刚才准备的那两个jar包复制到apache-tomcat-7.0.72\webapps\solr\WEB-INF\lib目录下。


步骤二:将准备的data-config.xml文件复制到solrhome\simple\conf目录下,和schema.xml同一目录。


步骤三:在solrhome\simple\conf目录下找到solrconfig.xml文件,为该文件添加如下内容:

1
2
3
4
5
6
  < requestHandler  name = "/dataimport" 
  class = "org.apache.solr.handler.dataimport.DataImportHandler" >
     < lst  name = "defaults" >
          < str  name = "config" >data-config.xml</ str >
     </ lst >
   </ requestHandler >

步骤四:在solrhome\simple\conf目录下找到schema.xml文件,打开并修改如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
<? xml  version = "1.0"  encoding = "UTF-8"  ?>
< schema  name = "example"  version = "1.5" >
     <!--定义type类型-->
   < types >
         < fieldType  name = "string"  class = "solr.StrField"
             sortMissingLast = "true"  />  
         < fieldType  name = "long"  class = "solr.TrieLongField"
             precisionStep = "0"  positionIncrementGap = "0" />           
         < fieldType  name = "int"  class = "solr.TrieIntField"
             precisionStep = "0"  positionIncrementGap = "0"  />
         < fieldType  name = "date"  class = "solr.TrieDateField"
             precisionStep = "8"  positionIncrementGap = "0"  />
         < fieldType  name = "text_ik"  class = "solr.TextField" >
             < analyzer  class = "org.wltea.analyzer.lucene.IKAnalyzer"  />
         </ fieldType >
   </ types >
   <!--定义字段-->
     < fields >
         < field  name = "_version_"  type = "long"  indexed = "true"  stored = "true"  />
         < field  name = "_root_"  type = "string"  indexed = "true"  stored = "false"  />
         < field  name = "id"  type = "int"  indexed = "true"  stored = "true"
             required = "true"  multiValued = "false"  />
         <!--注意:这里的field中的name要和data-config.xml中的name对应-->
         <!--字段为name的type类型可以是string-->
         < field  name = "name"  type = "text_ik"  indexed = "true"  stored = "true"  />
         < field  name = "password"  type = "string"  indexed = "true"  stored = "true"  />
         < field  name = "updateTime"  type = "date"  indexed = "true"  stored = "true"  />
     </ fields >
     < uniqueKey >id</ uniqueKey >
     < solrQueryParser  defaultOperator = "AND"  />
</ schema >

步骤四:启动tomcat,浏览器访问:locahost:8080/solr 原来的simple中数没有任何数据的。

wKiom1gJg1mzQHFVAAEzLfQL15A890.png


步骤五:导入mysql数据到solr中


wKioL1gJhEjAWQ8BAAFEUREJWCE860.png

再次查看数据,如果显示如下,那么恭喜你,数据导入成功!

wKioL1gJh6Kiv8HDAAFRCaGoUng916.png



=====================================================================================

如果想删除solr中导入的数据该如何操作,一上图就……了然j_0007.gif

wKioL1gJzXjw6LC6AAD3LRm78h4615.pngxml命令:

1、根据查询删除:删除所有数据

1
2
< delete >< query >*:*</ query ></ delete >
< commit />

当然,上面说的是手动删除,如果要删除的数据很多,想在下一次自动同步数据的时候自动删除指定的数据该如何做呢?

场景:有一批要拍卖的店铺数据存储在solr中,拍卖的店铺数据有一个拍卖结束时间(endTime),当拍卖结束时间一到,这条存储在solr中的拍卖数据就没有意义了,想要删除这条存储在solr中的数据。

按照上面的手动删除也不是不可以,但这人工操作未免太扯了,到时间人工去solr中删除这条数据耗时又耗力,也不太现实。

解决办法就是:

    在data-config.xmlentity中添加:

1
deletedPkQuery= "select id from shops  where endTime &lt; NOW()"

这一句,这句和entiy的query同级,目的是查询出所有店铺数据中结束时间小于当前时间的店铺id,

这个店铺id会和deltaQuery中收集到的id一并执行deltaImportQuery操作,只不过一个是添加数据,一个是删除数据。


如果是其他业务场景也可以借鉴下这篇博客中在表中添加isdelete字段的方式完成删除,其实只要有一个字段能够标识就行:

参考地址:http://simplelife.blog.51cto.com/9954761/1883024 




本文转自 兴趣e族 51CTO博客,原文链接:http://blog.51cto.com/simplelife/1864154

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
16天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
7天前
|
存储 Oracle 关系型数据库
【赵渝强老师】MySQL InnoDB的数据文件与重做日志文件
本文介绍了MySQL InnoDB存储引擎中的数据文件和重做日志文件。数据文件包括`.ibd`和`ibdata`文件,用于存放InnoDB数据和索引。重做日志文件(redo log)确保数据的可靠性和事务的持久性,其大小和路径可由相关参数配置。文章还提供了视频讲解和示例代码。
113 11
【赵渝强老师】MySQL InnoDB的数据文件与重做日志文件
|
18天前
|
SQL 关系型数据库 数据库
国产数据实战之docker部署MyWebSQL数据库管理工具
【10月更文挑战第23天】国产数据实战之docker部署MyWebSQL数据库管理工具
58 4
国产数据实战之docker部署MyWebSQL数据库管理工具
|
7天前
|
缓存 NoSQL 关系型数据库
Redis和Mysql如何保证数据⼀致?
在项目中,为了解决Redis与Mysql的数据一致性问题,我们采用了多种策略:对于低一致性要求的数据,不做特别处理;时效性数据通过设置缓存过期时间来减少不一致风险;高一致性但时效性要求不高的数据,利用MQ异步同步确保最终一致性;而对一致性和时效性都有高要求的数据,则采用分布式事务(如Seata TCC模式)来保障。
40 14
|
10天前
|
SQL 前端开发 关系型数据库
SpringBoot使用mysql查询昨天、今天、过去一周、过去半年、过去一年数据
SpringBoot使用mysql查询昨天、今天、过去一周、过去半年、过去一年数据
42 9
|
15天前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
22天前
|
SQL Java 关系型数据库
java连接mysql查询数据(基础版,无框架)
【10月更文挑战第12天】该示例展示了如何使用Java通过JDBC连接MySQL数据库并查询数据。首先在项目中引入`mysql-connector-java`依赖,然后通过`JdbcUtil`类中的`main`方法实现数据库连接、执行SQL查询及结果处理,最后关闭相关资源。
|
18天前
|
SQL 关系型数据库 MySQL
定时任务频繁插入数据导致锁表问题 -> 查询mysql进程
定时任务频繁插入数据导致锁表问题 -> 查询mysql进程
38 1
|
20天前
|
SQL 关系型数据库 MySQL
mysql数据误删后的数据回滚
【11月更文挑战第1天】本文介绍了四种恢复误删数据的方法:1. 使用事务回滚,通过 `pymysql` 库在 Python 中实现;2. 使用备份恢复,通过 `mysqldump` 命令备份和恢复数据;3. 使用二进制日志恢复,通过 `mysqlbinlog` 工具恢复特定位置的事件;4. 使用延迟复制从副本恢复,通过停止和重启从库复制来恢复数据。每种方法都有详细的步骤和示例代码。
|
23天前
|
人工智能 Cloud Native 容灾
云数据库“再进化”,OB Cloud如何打造云时代的数据底座?
云数据库“再进化”,OB Cloud如何打造云时代的数据底座?