中国科学院大学硕士,《从Lucene到Elasticsearch:全文检索实战》一书作者
能力说明:
精通JVM运行机制,包括类生命、内存模型、垃圾回收及JVM常见参数;能够熟练使用Runnable接口创建线程和使用ExecutorService并发执行任务、识别潜在的死锁线程问题;能够使用Synchronized关键字和atomic包控制线程的执行顺序,使用并行Fork/Join框架;能过开发使用原始版本函数式接口的代码。
阿里云技能认证
详细说明ES-Hadoop是一个用于Elasticsearch和Hadoop进行交互的开源独立库,在Hadoop和Elasticsearch之间起到桥梁的作用,本文基于阿里云E-MapReduce和阿里云Elasticsearch,演示如何通过ES-Hadoop连通Hadoop生态系统和Elasticsearch。
ELK 是 Elastic 公司出品的开源实时日志处理与分析解决方案,ELK 分别代表分布式搜索引擎 Elasticsearch、日志采集与解析工具 Logstash、日志可视化分析工具Kibana,具有配置方式灵活、集群可线性扩展、日志实时导入、检索性能高效、可视化分析方便等优点,已经成为业界日志处理方案的不二选择。
一、HDFS体系结构 HDFS作为分布式文件系统,使用的是master/slave体系结构,角色有三种: NameNode:为HDFS提供元数据服务,NameNode可以控制所有文件的操作,它会把所有的文件元数据存储在文件系统树中,文件信息在硬盘上保存成两个文件:命名空间镜像文件(fsimage)和修改日志文件(edit log)。
一、前言 决定在CSDN写博客的原因是想把自己解决过的问题、踩过的坑、总结出来的经验记录下来,作为编程之路的“笔记本”,同时也能给遇到同样问题的人提供参考、节省时间,写书的初衷也一样。
1.query是怎么分发到每个节点的? 2.Elasticsearch使用上的优化有哪些? 3.怎么避免脑裂? 4.query和filter的区别? 5.Elasticsearch的缺点有哪些?你觉得可以在哪些地方进行改进? 6.Lucene加快查询的机制有哪些? 7.如何使用Lucene构建分布式索引? 8.说一下master节点选举算法 9.Elasticsearch出现OOM的场景遇到过吗? 10.说一下副本的作用。
一、Spark环境搭建 1.1 下载Spark 下载地址:http://spark.apache.org/downloads.html 下载完成后解压即可。
一、有限状态机 有限状态机是一个特殊的有向图,包含节点和连接这些节点的弧。每个有限状态机都有开始、结束和若干个中间状态,每个弧上带有从一个状态进入下一个状态的条件。
一、硬件层面优化配置 (1) 合理选择服务器。 Elasticsearch的运行对JDK版本、Linux内核、最小内存等都有一定的要求,在安装部署集群之前需要选择和Elasticsearch版本匹配的的服务器配置,同时也要根据业务量做集群规划。
一、学习网站 Redis官网 http://redis.io/ Redis中文网 http://www.
在软件开发中,很多时候需要在特定时间的时间执行某些操作,比如每天的凌晨三点、每周的周日、每个月的15号,Apache Quartz就是一个开源的作业调度框架,可以让计划的程序任务一个预定义的日期和时间运行。
最近参考各种资料,尤其是《深入理解Java虚拟机 JVM高级特性和最佳实践》,大牛之作。把最近学习的Java虚拟机组成和垃圾回收机制总结一下。
一、集合框架 集合是容纳数据的容器,java常用的集合体系图如下。以集合中是否运行重复元素来分,主要有List和Set接口,List集合中可以有重复元素,Set集合集合中的元素不可重复,Iterator和List Iterator是遍历集合的2个迭代器,Map是存储Key/Value键值对的容器。
一、用户组和用户 Linux是一个多用户、多任务环境,如下图,GroupA代表一个用户组,GroupB代表一个用户组,root是超级用户。
一、需求 A、B、C代表3个用户,第二列代表各自的得分,求A、B、C的最好成绩以及A、B、C最好成绩的均值 A 10 A 11 A 13 B 11 B 11 B 12 C 10 C 10 C 11 C 15 二、思路 先terms分组,求最大值,最后加一个pipeline均值。
一、工具 1.1 正则表达式验证工具 http://regexr.com/ 1.2 练习工具 https://alf.nu/RegexGolf 二、例子 使用正则表达式匹配以下文本,很明显所有文本都是以ick结尾的,对应的正则为ick$ Mick Rick allocochick backtrick bestick candlestick java中处理正则表达式的类位于java.util.regex包中,包含pattern、matcher和PatternSyntaxException类。
一、下载Jmeter 下载地址:http://jmeter.apache.org/download_jmeter.cgi 解压之后运行: cd /apache-jmeter-3.2/bin ./jmeter 二、添加线程组 依次店测试计划->添加->threads->线程组: 在线程组中添加线程数和用户数,模拟用户访问: 10个用户,每个用户200个线程,循环10次。
Elasticsearch提供了丰富的查询语句DSL,查询可分2类: Leaf Query:查询特定字段特定值的查询,可以单独使用,比如match查询、term查询、range查询。
IntelliJ IDEA For Mac 快捷键 Mac键盘符号和修饰键说明 一Editing编辑 二SearchReplace查询替换 三Usage Search使用查询 四Compile and Run编译...
LeetCode数组习题 26.Remove Duplicates from Sorted Array 题目描述: Given a sorted array, remove the duplicates in ...
一单文档API 1 Index API 2 Get API 3 Delete API 4 Update API 二多文档API 1 Multi Get API 2 Bulk API 3 Delete By Q...
前言 一索引管理 1 创建索引 2 删除索引 3 查看索引信息 4 索引是否存在 5 关闭打开索引 6 索引收缩 7 翻滚索引 二mapping管理 1 设置mapping 2 查看mapping 3 获取字...
前言 一Field datatype字段数据类型 1string类型 2 text类型 3 keyword类型 4 数字类型 5 Object类型 6 date类型 7 Array类型 8 binary类型 9 i...
一、Spring JDBC Spring JDBC是在JDBC API的基础上定义一个抽象层,用以简化JDBC操作。Spring JdbcTemplate是Spring JDBC框架的核心,为不同类型的JDBC操作提供模板方法,每个模板方法都能控制整个过程,并允许覆盖过程中的特定任务。
一、AOP核心思想 AOP是Aspect-Oriented Programming的缩写,翻译为面向切面编程。我个人理解切面就是一个方面。
Spring是简化j2ee开发的一个框架,通过指定id、类名配置bean虽然简单,但是当bean很多的时候,spring的配置文件会过于臃肿,使用注解技术配置bean使配置更加简介。
一、Java注解技术的基本概念 Java注解又称Java标注,通俗的说注解就是对某一事物添加注释说明,是Java 5.0版本开始支持加入源代码的特殊语法元数据。
十一、工厂方法配置Bean 通过全类名方法配置Bean底层采用的是反射,除此之外还可以通过工厂方法(静态工厂方法&实例工厂方法)、FactoryBean来配置Bean。
十、Bean生命周期 10.1 Bean的生命周期 Spring IOC容器可以管理Bean的生命周期,也允许在Bean生命周期的特定点执行定制的任务。
九、SpEL SpEL是Spring表达式语言(Spring Expression Language)的简称,是一个支持运行查询和操作对象图的强大的表达式语言。
五、Bean的自动装配 Spring IOC容器可以自动装配Bean,需要在bean的autowire属性里指定自动装配的模式。
一、认识Spring 1.1 Spring简介 Spring是一个开源框架,为简化企业级应用而生,是一个IOC(DI)和AOP容器框架。
今天发现了一个好用的Linux工具-Tmux,用于在终端中管理多个会话窗口。捯饬了一会效果如下: 图一:在一个窗口中启动ELasticsearch、head插件、Kibana 图2:一个窗口中登录四台Linux服务器 下面简介一下安装步骤和窗口分隔的命令。
一、Filebeat简介 Beats是Elastic Stack技术栈中轻量级的日志采集器,Beats家族包括以下五个成员: Filebeat:轻量级的日志采集器,可用于收集文件数据。
版权声明:本文为博主原创文章,地址:http://blog.csdn.net/napoay,转载请留言。 总结Jackcard相似度和余弦相似度。
如果 你正在学习如何使用Linux操作系统 你正在学习ruby 你正在学习Elasticsearch 你正在学习shell编程 你正在学习Hadoop, 需要搭建Hadoop的完全分布式集群 你正在学习Spark,需要搭建Spark的完全分布式集群 …… 那么 我建议你抽出来半天的时间,下载好软件安装包,参考本博客,动手实践一把如何使用VirtualBox安装CentOS 7虚拟机。
一、倒排索引简介 倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。
一、Elasticsearch for Hadoop安装 Elasticsearch for Hadoop并不像logstash、kibana一样是一个独立的软件,而是Hadoop和Elasticsearch交互所需要的jar包。
一、问题描述 下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。 输入文件内容如下: child parent Steven Lucy Steven Jack...
一、问题描述 三个文件中分别存储了学生的语文、数学和英语成绩,输出每个学生的平均分。 数据格式如下: Chinese.
一、问题描述 文件中存储了商品id和商品价格的信息,文件中每行2列,第一列文本类型代表商品id,第二列为double类型代表商品价格。
一、问题描述 对输入的多个文件进行合并,并剔除其中重复的内容,去重后的内容输出到一个文件中。 file1.txt中的内容: 20150101 x 20150102 y 20150103 x 20150104 y file2.
介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境。 一、软件环境 我使用的软件版本如下: Intellij Idea 2017.1 Maven 3.3.9 Hadoop伪分布式环境( 安装教程可参考这里) 二、创建maven工程 打开Idea,file->new->Project,左侧面板选择maven工程。
如果想阅读Elasticsearch源码,定制功能,不可避免的要编译Elasticsearch。本文图文并茂,介绍如何使用Intellij Idea编译Elasticsearch源码包。
一、TF-IDF 词项频率: df:term frequency。 term在文档中出现的频率.tf越大,词项越重要. 文档频率: tf:document frequecy。
一、简介 Grok是迄今为止使蹩脚的、无结构的日志结构化和可查询的最好方式。Grok在解析 syslog logs、apache and other webserver logs、mysql logs等任意格式的文件上表现完美。
介绍一下如何从Java工程中导出log4J日志到Logstash。 一、log4j基础 不能免俗的官方介绍: Log4j 是一个使用 Java 语言编写的,可靠、快速、灵活的日志框架(API),使用 Apache Software License 授权。
一、导入数据 Mysql中的新闻数据: 二、搜索框 三、搜索结果
Elasticsearch分析聚合介绍了分析聚合的REST命令,这篇博客介绍一下如何使用Java API。 一、准备数据 测试数据请参考我的上一篇博客:Elasticsearch分析聚合。
一、扩展停用词字典 IK Analyzer默认的停用词词典为IKAnalyzer2012_u6/stopword.dic,这个停用词词典并不完整,只有30多个英文停用词。
一、需求 给出一篇新闻文档,统计出现频率最高的有哪些词语。 二、思路 关于文本关键词提取的算法有很多,开源工具也不止一种。