姚攀_高分内容_个人页-阿里云开发者社区

发表了文章 2018-04-03

ES-hadoop写数据到阿里云Elasticsearch

ES-Hadoop是一个用于Elasticsearch和Hadoop进行交互的开源独立库，在Hadoop和Elasticsearch之间起到桥梁的作用，本文基于阿里云E-MapReduce和阿里云Elasticsearch，演示如何通过ES-Hadoop连通Hadoop生态系统和Elasticsearch。

发表了文章 2018-01-03

ELK 日志处理开发指南

ELK 是 Elastic 公司出品的开源实时日志处理与分析解决方案，ELK 分别代表分布式搜索引擎 Elasticsearch、日志采集与解析工具 Logstash、日志可视化分析工具Kibana，具有配置方式灵活、集群可线性扩展、日志实时导入、检索性能高效、可视化分析方便等优点，已经成为业界日志处理方案的不二选择。

发表了文章 2017-12-11

HDFS文件读写流程

一、HDFS体系结构 HDFS作为分布式文件系统，使用的是master/slave体系结构，角色有三种： NameNode:为HDFS提供元数据服务，NameNode可以控制所有文件的操作，它会把所有的文件元数据存储在文件系统树中，文件信息在硬盘上保存成两个文件：命名空间镜像文件(fsimage)和修改日志文件(edit log)。

发表了文章 2017-12-05

《从Lucene到Elasticsearch:全文检索实战》已出版！

一、前言决定在CSDN写博客的原因是想把自己解决过的问题、踩过的坑、总结出来的经验记录下来，作为编程之路的“笔记本”，同时也能给遇到同样问题的人提供参考、节省时间，写书的初衷也一样。

发表了文章 2017-10-21

Elasticsearch面试题系列

1.query是怎么分发到每个节点的？ 2.Elasticsearch使用上的优化有哪些？ 3.怎么避免脑裂？ 4.query和filter的区别？ 5.Elasticsearch的缺点有哪些？你觉得可以在哪些地方进行改进？ 6.Lucene加快查询的机制有哪些？ 7.如何使用Lucene构建分布式索引？ 8.说一下master节点选举算法 9.Elasticsearch出现OOM的场景遇到过吗？ 10.说一下副本的作用。

发表了文章 2017-10-11

Spark机器学习环境搭建

一、Spark环境搭建 1.1 下载Spark 下载地址：http://spark.apache.org/downloads.html 下载完成后解压即可。

发表了文章 2017-09-23

(spring全家桶十)Spring Statemachine有限状态机与地址分析

一、有限状态机有限状态机是一个特殊的有向图，包含节点和连接这些节点的弧。每个有限状态机都有开始、结束和若干个中间状态，每个弧上带有从一个状态进入下一个状态的条件。

发表了文章 2017-09-10

Elasticsearch 集群优化总结

一、硬件层面优化配置 (1) 合理选择服务器。 Elasticsearch的运行对JDK版本、Linux内核、最小内存等都有一定的要求，在安装部署集群之前需要选择和Elasticsearch版本匹配的的服务器配置，同时也要根据业务量做集群规划。

发表了文章 2017-08-16

Redis总结

一、学习网站 Redis官网 http://redis.io/ Redis中文网 http://www.

发表了文章 2017-07-31

java作业调度框架Quartz

在软件开发中，很多时候需要在特定时间的时间执行某些操作，比如每天的凌晨三点、每周的周日、每个月的15号，Apache Quartz就是一个开源的作业调度框架,可以让计划的程序任务一个预定义的日期和时间运行。

发表了文章 2017-07-31

JVM运行时数据区和垃圾回收机制

最近参考各种资料，尤其是《深入理解Java虚拟机 JVM高级特性和最佳实践》，大牛之作。把最近学习的Java虚拟机组成和垃圾回收机制总结一下。

发表了文章 2017-07-30

Java集合体系总结

一、集合框架集合是容纳数据的容器，java常用的集合体系图如下。以集合中是否运行重复元素来分，主要有List和Set接口，List集合中可以有重复元素，Set集合集合中的元素不可重复，Iterator和List Iterator是遍历集合的2个迭代器，Map是存储Key/Value键值对的容器。

发表了文章 2017-07-14

Linux文件权限总结

一、用户组和用户 Linux是一个多用户、多任务环境，如下图，GroupA代表一个用户组，GroupB代表一个用户组,root是超级用户。

发表了文章 2017-07-12

elasticsearch聚合案例－－分组、求最大值再求最大值的均值

一、需求 A、B、C代表3个用户，第二列代表各自的得分，求A、B、C的最好成绩以及A、B、C最好成绩的均值 A 10 A 11 A 13 B 11 B 11 B 12 C 10 C 10 C 11 C 15 二、思路先terms分组，求最大值，最后加一个pipeline均值。

发表了文章 2017-07-12

Java正则表达式

一、工具 1.1 正则表达式验证工具 http://regexr.com/ 1.2 练习工具 https://alf.nu/RegexGolf 二、例子使用正则表达式匹配以下文本，很明显所有文本都是以ick结尾的，对应的正则为ick$ Mick Rick allocochick backtrick bestick candlestick java中处理正则表达式的类位于java.util.regex包中，包含pattern、matcher和PatternSyntaxException类。

发表了文章 2017-06-30

Elasticsearch压力测试工具－Apache Jmeter

一、下载Jmeter 下载地址：http://jmeter.apache.org/download_jmeter.cgi 解压之后运行： cd /apache-jmeter-3.2/bin ./jmeter 二、添加线程组依次店测试计划->添加->threads->线程组：在线程组中添加线程数和用户数，模拟用户访问： 10个用户，每个用户200个线程，循环10次。

发表了文章 2017-06-30

Elasticsearch 5.4 Query DSL

Elasticsearch提供了丰富的查询语句DSL，查询可分2类： Leaf Query：查询特定字段特定值的查询，可以单独使用，比如match查询、term查询、range查询。

发表了文章 2017-06-22

IntelliJ IDEA For Mac 快捷键

IntelliJ IDEA For Mac 快捷键 Mac键盘符号和修饰键说明一Editing编辑二SearchReplace查询替换三Usage Search使用查询四Compile and Run编译...

发表了文章 2017-06-16

LeetCode Array

LeetCode数组习题 26.Remove Duplicates from Sorted Array 题目描述： Given a sorted array, remove the duplicates in ...

发表了文章 2017-06-15

Elasticsearch 5.4 Documents API

一单文档API 1 Index API 2 Get API 3 Delete API 4 Update API 二多文档API 1 Multi Get API 2 Bulk API 3 Delete By Q...

发表了文章 2017-06-15

Elasticsearch 5.4 Indices(索引) API

前言一索引管理 1 创建索引 2 删除索引 3 查看索引信息 4 索引是否存在 5 关闭打开索引 6 索引收缩 7 翻滚索引二mapping管理 1 设置mapping 2 查看mapping 3 获取字...

发表了文章 2017-06-12

Elasticsearch 5.4 Mapping详解

前言一Field datatype字段数据类型 1string类型 2 text类型 3 keyword类型 4 数字类型 5 Object类型 6 date类型 7 Array类型 8 binary类型 9 i...

发表了文章 2017-05-31

Spring全家桶(九)Spring JdbcTemplate

一、Spring JDBC Spring JDBC是在JDBC API的基础上定义一个抽象层，用以简化JDBC操作。Spring JdbcTemplate是Spring JDBC框架的核心，为不同类型的JDBC操作提供模板方法，每个模板方法都能控制整个过程，并允许覆盖过程中的特定任务。

发表了文章 2017-05-17

Spring全家桶(八)AOP核心思想与AspectJ 5种类型通知

一、AOP核心思想 AOP是Aspect-Oriented Programming的缩写，翻译为面向切面编程。我个人理解切面就是一个方面。

发表了文章 2017-05-16

Spring全家桶(七)通过注解配置Bean

Spring是简化j2ee开发的一个框架，通过指定id、类名配置bean虽然简单，但是当bean很多的时候，spring的配置文件会过于臃肿，使用注解技术配置bean使配置更加简介。

发表了文章 2017-05-16

Spring全家桶(六)必知必会的java注解技术

一、Java注解技术的基本概念 Java注解又称Java标注，通俗的说注解就是对某一事物添加注释说明，是Java 5.0版本开始支持加入源代码的特殊语法元数据。

发表了文章 2017-05-16

Spring全家桶(五)Bean的多种配置方法

十一、工厂方法配置Bean 通过全类名方法配置Bean底层采用的是反射，除此之外还可以通过工厂方法(静态工厂方法&实例工厂方法)、FactoryBean来配置Bean。

发表了文章 2017-05-16

Spring全家桶(四)Bean的生命周期

十、Bean生命周期 10.1 Bean的生命周期 Spring IOC容器可以管理Bean的生命周期，也允许在Bean生命周期的特定点执行定制的任务。

发表了文章 2017-05-16

Spring全家桶(三)Spring SpEL

九、SpEL SpEL是Spring表达式语言(Spring Expression Language)的简称，是一个支持运行查询和操作对象图的强大的表达式语言。

发表了文章 2017-05-16

Spring全家桶(二)Bean之间的关系、自动装配、作用域和使用外部文件

五、Bean的自动装配 Spring IOC容器可以自动装配Bean，需要在bean的autowire属性里指定自动装配的模式。

发表了文章 2017-05-16

Spring全家桶(一)HelloWorld与入门基础

一、认识Spring 1.1 Spring简介 Spring是一个开源框架，为简化企业级应用而生，是一个IOC(DI)和AOP容器框架。

发表了文章 2017-04-24

终端会话管理工具tmux

今天发现了一个好用的Linux工具-Tmux，用于在终端中管理多个会话窗口。捯饬了一会效果如下：图一：在一个窗口中启动ELasticsearch、head插件、Kibana 图2：一个窗口中登录四台Linux服务器下面简介一下安装步骤和窗口分隔的命令。

发表了文章 2017-04-18

ELK日志处理之Filebeat工作原理

一、Filebeat简介 Beats是Elastic Stack技术栈中轻量级的日志采集器，Beats家族包括以下五个成员: Filebeat：轻量级的日志采集器，可用于收集文件数据。

发表了文章 2017-04-12

Jackcard相似度和余弦相似度(向量空间模型)的java实现

发表了文章 2017-04-04

MapReduce编程(七) 倒排索引构建

一、倒排索引简介倒排索引（英语：Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。

发表了文章 2017-04-01

MapReduce编程(六) 从HDFS导入数据到Elasticsearch

一、Elasticsearch for Hadoop安装 Elasticsearch for Hadoop并不像logstash、kibana一样是一个独立的软件，而是Hadoop和Elasticsearch交互所需要的jar包。

发表了文章 2017-03-31

MapReduce编程(五) 单表关联

一、问题描述下面给出一个child-parent的表格，要求挖掘其中的父子辈关系，给出祖孙辈关系的表格。输入文件内容如下: child parent Steven Lucy Steven Jack...

发表了文章 2017-03-31

MapReduce编程(四) 求均值

一、问题描述三个文件中分别存储了学生的语文、数学和英语成绩，输出每个学生的平均分。数据格式如下： Chinese.

发表了文章 2017-03-31

MapReduce编程(三) 排序

一、问题描述文件中存储了商品id和商品价格的信息，文件中每行2列，第一列文本类型代表商品id，第二列为double类型代表商品价格。

发表了文章 2017-03-30

MapReduce编程(二) 文件合并和去重

一、问题描述对输入的多个文件进行合并，并剔除其中重复的内容，去重后的内容输出到一个文件中。 file1.txt中的内容: 20150101 x 20150102 y 20150103 x 20150104 y file2.

发表了文章 2017-03-30

MapReduce编程(一) Intellij Idea配置MapReduce编程环境

介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境。一、软件环境我使用的软件版本如下: Intellij Idea 2017.1 Maven 3.3.9 Hadoop伪分布式环境( 安装教程可参考这里) 二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。

发表了文章 2017-03-27

Intellij Idea编译Elasticsearch源码

如果想阅读Elasticsearch源码，定制功能，不可避免的要编译Elasticsearch。本文图文并茂，介绍如何使用Intellij Idea编译Elasticsearch源码包。

发表了文章 2017-03-23

TF-IDF词项权重计算

一、TF-IDF 词项频率: df:term frequency。 term在文档中出现的频率.tf越大,词项越重要. 文档频率: tf:document frequecy。

发表了文章 2017-03-17

ELK日志处理之使用Grok解析日志

一、简介 Grok是迄今为止使蹩脚的、无结构的日志结构化和可查询的最好方式。Grok在解析 syslog logs、apache and other webserver logs、mysql logs等任意格式的文件上表现完美。

发表了文章 2017-03-11

ELK日志处理之使用logstash收集log4J日志

介绍一下如何从Java工程中导出log4J日志到Logstash。一、log4j基础不能免俗的官方介绍: Log4j 是一个使用 Java 语言编写的，可靠、快速、灵活的日志框架（API），使用 Apache Software License 授权。

发表了文章 2017-02-27

Elasticsearch整合Mysql新闻搜索

一、导入数据 Mysql中的新闻数据: 二、搜索框三、搜索结果

发表了文章 2017-02-21

Elasticsearch Java API(十一)--聚合(aggregations)

Elasticsearch分析聚合介绍了分析聚合的REST命令，这篇博客介绍一下如何使用Java API。一、准备数据测试数据请参考我的上一篇博客:Elasticsearch分析聚合。

发表了文章 2017-02-04

Lucene扩展停用词字典与自定义词库

一、扩展停用词字典 IK Analyzer默认的停用词词典为IKAnalyzer2012_u6/stopword.dic,这个停用词词典并不完整，只有30多个英文停用词。

发表了文章 2017-01-11

Lucene 6.0 提取新闻关键词Top-N

一、需求给出一篇新闻文档，统计出现频率最高的有哪些词语。二、思路关于文本关键词提取的算法有很多，开源工具也不止一种。

发表了文章 2017-01-06

[大数据]Hadoop 2.7.3 和Hbase 1.2.4安装教程

一、机器环境系统：MAC OS Hadoop:2.7.3 Hbase:1.2.4 JDK: 1.8.0_112 二、配置SSH免密码登录第一步：打开terminal，进入根目录，运行命令： cd 第二步: 显示隐藏文件，这时还没有.

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

姚攀_个人页

个人介绍

擅长的技术

ES-hadoop写数据到阿里云Elasticsearch

ELK 日志处理开发指南

HDFS文件读写流程

《从Lucene到Elasticsearch:全文检索实战》已出版！

Elasticsearch面试题系列

Spark机器学习环境搭建

(spring全家桶十)Spring Statemachine有限状态机与地址分析

Elasticsearch 集群优化总结

Redis总结

java作业调度框架Quartz

JVM运行时数据区和垃圾回收机制

Java集合体系总结

Linux文件权限总结

elasticsearch聚合案例－－分组、求最大值再求最大值的均值

Java正则表达式

Elasticsearch压力测试工具－Apache Jmeter

Elasticsearch 5.4 Query DSL

IntelliJ IDEA For Mac 快捷键

LeetCode Array

Elasticsearch 5.4 Documents API

Elasticsearch 5.4 Indices(索引) API

Elasticsearch 5.4 Mapping详解

Spring全家桶(九)Spring JdbcTemplate

Spring全家桶(八)AOP核心思想与AspectJ 5种类型通知

Spring全家桶(七)通过注解配置Bean

Spring全家桶(六)必知必会的java注解技术

Spring全家桶(五)Bean的多种配置方法

Spring全家桶(四)Bean的生命周期

Spring全家桶(三)Spring SpEL

Spring全家桶(二)Bean之间的关系、自动装配、作用域和使用外部文件

Spring全家桶(一)HelloWorld与入门基础

终端会话管理工具tmux

ELK日志处理之Filebeat工作原理

Jackcard相似度和余弦相似度(向量空间模型)的java实现

MapReduce编程(七) 倒排索引构建

MapReduce编程(六) 从HDFS导入数据到Elasticsearch

MapReduce编程(五) 单表关联

MapReduce编程(四) 求均值

MapReduce编程(三) 排序

MapReduce编程(二) 文件合并和去重

MapReduce编程(一) Intellij Idea配置MapReduce编程环境

Intellij Idea编译Elasticsearch源码

TF-IDF词项权重计算

ELK日志处理之使用Grok解析日志

ELK日志处理之使用logstash收集log4J日志

Elasticsearch整合Mysql新闻搜索

Elasticsearch Java API(十一)--聚合(aggregations)

Lucene扩展停用词字典与自定义词库

Lucene 6.0 提取新闻关键词Top-N

[大数据]Hadoop 2.7.3 和Hbase 1.2.4安装教程

ES-hadoop写数据到阿里云Elasticsearch

ELK 日志处理开发指南

HDFS文件读写流程

《从Lucene到Elasticsearch:全文检索实战》已出版！

Elasticsearch面试题系列

Spark机器学习环境搭建

(spring全家桶十)Spring Statemachine有限状态机与地址分析

Elasticsearch 集群优化总结

Redis总结

java作业调度框架Quartz

JVM运行时数据区和垃圾回收机制