HBase数据同步到ElasticSearch的方案-阿里云开发者社区

HBase数据同步到ElasticSearch的方案

2014-11-15 2866

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： ElasticSearch的River机制ElasticSearch自身提供了一个River机制，用于同步数据。这里可以找到官方目前推荐的River：http://www.elasticsearch.org/guide/en/elasticsearch/rivers/current/但是官方没有提供HBase的River。

ElasticSearch的River机制

ElasticSearch自身提供了一个River机制，用于同步数据。

这里可以找到官方目前推荐的River：

http://www.elasticsearch.org/guide/en/elasticsearch/rivers/current/

但是官方没有提供HBase的River。

其实ES的River非常简单，就是一个用户打包好的jar包，ES负责找到一个node，并启动这个River。如果node失效了，会自动找另外一个node来启动这个River。

public interface RiverComponent {
    RiverName riverName();
}
public interface River extends RiverComponent {

    /**
     * Called whenever the river is registered on a node, which can happen when:
     * 1) the river _meta document gets indexed
     * 2) an already registered river gets started on a node
     */
    void start();

    /**
     * Called when the river is closed on a node, which can happen when:
     * 1) the river is deleted by deleting its type through the delete mapping api
     * 2) the node where the river is allocated is shut down or the river gets rerouted to another node
     */
    void close();
}

Elasticsearch-HBase-River

这个项目其实很简单，在River里用定时器启动一个HBase的Scanner，去扫描数据，并把数据插到ES里。和自己手动写代码去扫描差不多。

https://github.com/posix4e/Elasticsearch-HBase-River

这个项目利用了HBase的Replication机制，模拟了一个Hbase Replication的结点，然后同步数据到ES里。

但是这个项目是基于Hbase0.94的，实现的功能有限。

Hbase0.94和HBase0.98 的API变化很大，基本不可用，而且作者也说了不能用于生产环境。

HBase的Relication机制

可以参考官方文档和cloudera的一些博客文章：
http://hbase.apache.org/book.html#cluster_replication
http://blog.cloudera.com/blog/2012/07/hbase-replication-overview-2/

HBase的Relication机制，其实和Mysql的同步机制很像，HBase的每个Region Server都会有WAL Log，当Put/Delete时，都会先写入到WAL Log里。然后后台有线程会把WAL Log随机发给Slave的Region Server。而Slave的Region Server会在zookeeper上记录自己同步到的位置。

HBase同步数据到Solr的方案：Lily HBase Indexer

Cloudera内置的Cloudera Search实际上就是这个Lily Hbase Indexer：

https://github.com/NGDATA/hbase-indexer

这个项目就是利用了HBase的Replication功能，把HBase数据修改（Put，Delete）都抽像成为一系列Event，然后就可以同步到Solr里了。

这个项目抽象出了一个子项目：HBase Side-Effect Processor。

https://github.com/NGDATA/hbase-indexer/blob/master/hbase-sep/README.md

让用户可以自己写Listener来处理Event。

HBase数据同步到ElasticSearch的最终方案

考虑了上面的东东，所以决定基于HBase Side-Effect Processor，来自己写简单的程序同步数据到ES里。

其实代码是非常简单的，参考下Demo里的LoggingConsumer就好了。

https://github.com/NGDATA/hbase-indexer/blob/master/hbase-sep/hbase-sep-demo/src/main/java/com/ngdata/sep/demo/LoggingConsumer.java

    private static class EventLogger implements EventListener {
        @Override
        public void processEvents(List<SepEvent> sepEvents) {
            for (SepEvent sepEvent : sepEvents) {
                System.out.println("Received event:");
                System.out.println("  table = " + Bytes.toString(sepEvent.getTable()));
                System.out.println("  row = " + Bytes.toString(sepEvent.getRow()));
                System.out.println("  payload = " + Bytes.toString(sepEvent.getPayload()));
                System.out.println("  key values = ");
                for (KeyValue kv : sepEvent.getKeyValues()) {
                    System.out.println("    " + kv.toString());
                }
            }
        }
    }

其它的一些东东：

ElasticSearch 和Solr cloud的比较

从网上找到的帖子，讨论比较多的是12年，貌似后面就比较少了。

https://github.com/superkelvint/solr-vs-elasticsearch
http://stackoverflow.com/questions/2271600/elasticsearch-sphinx-lucene-solr-xapian-which-fits-for-which-usage

http://www.quora.com/Why-Cloudera-search-is-built-on-Solr-and-not-Elasticsearch Cloudera-Search为什么选择Solr而不是ElasticSearch

个人倾向于ElasticSearch，因为从流行度来看，ES正在超越solr cloud：

Logstash + ElasticSearch + Kibana的完整日志收集分析工具链，也有很多公司在用。

HBase数据同步到ElasticSearch的方案

ElasticSearch的River机制

Elasticsearch-HBase-River

HBase的Relication机制

HBase同步数据到Solr的方案：Lily HBase Indexer

HBase数据同步到ElasticSearch的最终方案

其它的一些东东：

ElasticSearch 和Solr cloud的比较

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

HBase数据同步到ElasticSearch的方案

ElasticSearch的River机制

Elasticsearch-HBase-River

HBase的Relication机制

HBase同步数据到Solr的方案：Lily HBase Indexer

HBase数据同步到ElasticSearch的最终方案

其它的一些东东：

ElasticSearch 和Solr cloud的比较

热门文章

最新文章

相关课程

相关电子书