中国科学院大学硕士,《从Lucene到Elasticsearch:全文检索实战》一书作者
能力说明:
精通JVM运行机制,包括类生命、内存模型、垃圾回收及JVM常见参数;能够熟练使用Runnable接口创建线程和使用ExecutorService并发执行任务、识别潜在的死锁线程问题;能够使用Synchronized关键字和atomic包控制线程的执行顺序,使用并行Fork/Join框架;能过开发使用原始版本函数式接口的代码。
阿里云技能认证
详细说明一、机器环境 系统:MAC OS Hadoop:2.7.3 Hbase:1.2.4 JDK: 1.8.0_112 二、配置SSH免密码登录 第一步:打开terminal,进入根目录,运行命令: cd 第二步: 显示隐藏文件,这时还没有.
机器环境:Win7 64位 Eclipse:Neon.1a Release (4.6.1) 在Win7上安装SVN server作为搭建代码服务器,在另外一台机器上提交代码进行测试。
5.1.1的搜索高亮和2.X有所变化,但是变化不大。下面分四步来介绍:创建索引(设置mapping/IK分词)、索引文档、REST API的搜索高亮、JAVA API的搜索高亮。
一、拼音分词的应用 拼音分词在日常生活中其实很常见,也许你每天都在用。打开淘宝看一看吧,输入拼音”zhonghua”,下面会有包含”zhonghua”对应的中文”中华”的商品的提示: 拼音分词是根据输入的拼音提示对应的中文,通过拼音分词提升搜索体验、加快搜索速度。
一、下载安装包 下载Elasticsearch 5.1.1 下载地址:https://www.elastic.co/downloads/elasticsearch zip和tar格式是各种系统都通用的,解压之后启动Elasticsearch即可。
Elasticsearch 5.0下Java API使用指南 一.2.X到5.X Elasticsearch 2.x使用java api把elasticsearch安装包下的lib文件夹下的jar文件全部加入到工程类路径即可,换到5.
Elasticsearch不仅仅适合做全文检索,分析聚合功能也很好用。下面通过实例来学习。 一、准备数据 {"index":{ "_index": "books", "_type": "IT", "_id": "...
scp命令用途 scp是secure copy的缩写,是Linux系统下的远程文件拷贝命令。核心通途有2个: 拷贝本机文件到远程服务器 拷贝远程服务器上的文件到本地 它使用ssh安全协议传输数据,具有和ssh一样的验证机制,从而安全的远程拷贝文件。
一、logstash是什么? Logstash是一款轻量级的日志搜集处理框架,可以方便的把分散的、多样化的日志搜集起来,并进行自定义的处理,然后传输到指定的位置,比如某个服务器或者文件。
cd命令 ls命令 mkdir和rmdir命令 cp命令 mv命令 rm命令 cat命令 tac命令 more命令 head命令 tail命令 touch命令 chown命令 find命令 tar命令 grep命令 s...
在CentOS 6.5 上运行Elasticsearch 2.3,异常如下: Exception in thread "main" java.
一、获取索引的所有mapping 通过java客户端获取mapping: package elasticsearch.
Lucene 6.0中BooleanQuery创建和之前的不太一样,4.3版本的创建BooleanQuery: BooleanQuery bQuery=new BooleanQuery(); bQuery.
Lucene索引的删除和更新 删除和更新和新增一样,也是通过IndexWriter 对象来操作的,IndexWrite对象的deleteDocuments ()方法用于实现索引的删除,updateDocument()方法用于实现索引的更新。
使用multi get API可以通过索引名、类型名、文档id一次得到一个文档集合,文档可以来自同一个索引库,也可以来自不同索引库。
一、准备文件 2016中国人工智能大会 顶尖专家齐聚.pptx 2016中国人工智能大会 大咖云集探讨人工智能.doc 2016中国人工智能大会在京召开.
1.判断索引是否存在 IndicesExistsResponse indexResponse = ia.client.admin().
一、集群角色 多机集群中的节点可以分为master nodes和data nodes,在配置文件中使用Zen发现(Zen discovery)机制来管理不同节点。
ElasticSearch本身没有权限管理模块,只要获取服务器的地址和端口,任何人都可以随意读写ElasticSearch的API并获取数据,这样非常不安全。
一、需求 项目中需要实现删除文档的一个field以及删除指定field的一个属性. 以文档test/document/1为例: { "_index": "test", "_type": "docum...
需求: 搜索具有相同父id的所有子文档. 数据: mapping: { "mappings": { "branch": {}, "employee": { ...
要在java中实现一个有三级父子关系的嵌套搜索,相关资料很少,发在stackoverflow上以后一个Switzerland的大神很快回复了我,google+stackoverflow很好使。
参考stackoverflow上的帖子,总结DeleteByQuery的java api 一、安装插件 要删除某个索引的一个type下的所有文档,相当于关系型数据库中的清空表操作。
#Elasticsearch允许给文档建立父子关系,这篇博客介绍文档的父子关系是如何映射的(Parent-Child Mapping)、如何索引父子文档(Indexing Parents and Children)、如何通过子文档查询父文档 (Finding Parents by Their Children)、如何通过父文档查询子文档(Finding Children by Their Parents)。
mapping的写入与查看 首先创建一个索引: curl -XPOST "http://127.0.0.1:9200/productindex" {"acknowledged":true} 现在只创建了一个索引...
编辑:elasticsearch-2.3.3/bin/ elasticsearch 加上: export ES_HEAP_SIZE=10g 或者启动的时候设置参数,确保Xmx和Xms大小相等: .
Lucene 6.0使用IK分词器需要修改修改IKAnalyzer和IKTokenizer. 使用时先新建一个MyIKTokenizer类,一个MyIkAnalyzer类: MyIKTokenizer.
这篇博客介绍一下Elasticsearch对多个文档进行索引的简便方法。Bulk api的支持可以实现一次请求执行批量的添加、删除、更新等操作.
今天终于在安装成功了scrapy,之前试过很多次都安装失败,系统重装之后也没有成功,在mac系统上的安装不像windows那么容易,今天再次试了一遍成功了。
ElasticSearch同步Mysql的插件选择了elasticsearch-jdbc,理由是活跃度高,持续更新,最新版本兼容elasticsearch-2.
删除可以是删除整个索引库,也可以根据文档id删除索引库下的文档,还可以通过query查询条件删除所有符合条件的数据。 一、删除整个索引库 下面的例子会删除indexName索引: DeleteIndexResponse dResponse = client.
官网文档:https://www.elastic.co/guide/en/elasticsearch/client/java-api/current/java-docs-update.
上篇博客记录了如何用java调用api把数据写入索引,这次记录下如何搜索。 一、准备数据 String data1 = JsonUtil.
ElasticSearch JAVA API 一、生成JSON 创建索引的第一步是要把对象转换为JSON字符串.官网给出了四种创建JSON文档的方法: 1.
一、下载与安装 Elasticsearch 依赖 java,在安装 ES 之前首先要配好 java,这个默认我们的电 脑已经完成。
更新 最新的solr 6.1.0安装更加简单,只需下载解压运行启动命令即可: $solr-6.1.0 ./bin/solr start 下面是基于Solr 4.
一、修改授权 进入tomcat的bin目录,修改授权 bin pwd /Users/yp/Documents/workspace/apache-tomcat-7.
一、Grunt简介 Grunt是一个基于命令的javascript工程命令行构建工具。 1. 官网:http://gruntjs.
贝叶斯概率在机器学习、自然语言处理中被广泛地应用,对于海量数据的文本分类问题(比如垃圾邮件的甄选和过滤),基于贝叶思的算法取得非常好的效果。
一、选题 工程类搜索型: 定向采集 3-4 个新闻网站, 实现这些网站信息的抽取、索引和检索。网页数 目不少于 10 万条。
需求 输入文件:文本文件 每行格式: 3个部分由空格隔开 其中source和destination为两个字符串,内部没有空格 time为一个浮点数,代表时间(秒为单位) 涵义:可以表示一次电话通话,或表示一次...
android的数据持久化方案常用的有三种: 文件存储 SharedPreferences存储 SQLite数据库存储 文件存储路径为:data/data/包名/files SharedPreferences储路径为...
MapReduce/Hadoop MapReduce是目前云计算中最广泛使用的计算模型,由Google于2004年提出,谷歌关于云计算有三篇著名的论文: 《Bigtable_A Distributed Storage ...
QueryParser(单域查询) QueryParser子类对单个域查询时创建查询query,构造方法中需要传入Lucene版本号,检索域名和分词器。
检索结果高亮对于用户的体验度和友好度非常重要,可以快速标记出用户检索对关键词。本例中的索引仍使用上一篇博客( Lucene查询索引)中创建的索引,代码高亮参考了Lucene4.x高亮 fast高亮 前端高亮。
一、效果图: 二、代码实现 2.1ListViewActivity package cn.ac.ucas.yp.uiwidgettest; import android.
现在回头看看毕设做的安卓程序,不论从深度还是广度上对安卓开发都不够深入,这次从头复习,恰好遇到了一本让人欲罢不能的好书。 每一个安卓开发者都是从activity开始入门的,先整理一篇关于activity的知识点。
一、XML简介 xml是可扩展标记语言,主要用来标记数据、定义数据类型,非常适合万维网传输。 xml特点: xml是一种标记语言,很类似HTML xml的设计宗旨是传输数据,而不是显示数据 xml标签没有被预定义,需要自行定义标签 xml被设计为具有自我描述性 xml是W3C的推荐标准 xml和html对比: XML被设计为传输和存储数据,其焦点是数据的内容。
创建文件夹: hadoop fs -mkdir /work 拷贝: hadoop fs -put /Users/yp/Documents/test.
sublime(官网:https://www.sublimetext.com/)是我比较喜欢的文本编辑器,使用非常顺手。这里记录下package control及常用插件的安装。