Step By Step
一、测试环境
Ubuntu16.04
二、Java JDK环境安装与配置
1、更新软件包列表:
sudo apt-get update
2、安装openjdk-8-jdk
sudo apt-get install openjdk-8-jdk
3、查看Java安装情况及版本号
java -version
三、安装Ruby(安装插件的时候底层依赖需要)
1、安装
apt install ruby
2、查看版本
ruby -version
四、LogStash安装
1、下载
wget https://mirrors.huaweicloud.com/logstash/7.5.0/logstash-7.5.0.tar.gz
注意:目前直接从ElasticSearch官网下载,因为资源在国外,下载会特别慢,建议使用:Logstash 国内加速下载
2、解压
tar -xzvf logstash-7.5.0.tar.gz
五、Datahub 插件安装
1、插件下载
2、修改Gemfile(路径 /logstash-7.5.0/Gemfile)
https://gems.ruby-china.com/
3、插件安装
$ {LOG_STASH_HOME}/bin/logstash-plugin install logstash-output-datahub-1.0.8.gem$ {LOG_STASH_HOME}/bin/logstash-plugin install logstash-input-datahub-1.0.8.gem
$ {LOG_STASH_HOME} 为LogStash的解压路径
六、Datahub控制台创建Topic
七、测试数据集配置文件准备
1、CSV数据(多行)
1111,1.23456789012E9,true,14321111111000000,string_dataxxx0
2222,2.23456789012E9,false,14321111111000000,string_dataxxx1
3333,1.23456789012E9,true,14321111111000000,string_dataxxx0
4444,2.23456789012E9,false,14321111111000000,string_dataxxx1
2、配置文件:csv-sample2.conf
input {
file {
path => "/root/logstash/data2.csv"
start_position => "beginning"
}
}
filter{
csv {
columns => ['col1', 'col2', 'col3', 'col4', 'col5']
}
}
output {
datahub {
access_id => "LTAIOZZg********"
access_key => "v7CjUJCMk7j9aK****************"
endpoint => "https://dh-cn-shanghai.aliyuncs.com"
project_name => "logstash_project"
topic_name => "logstash"
#shard_id => "0"
#shard_keys => ["thread_id"]
dirty_data_continue => true
dirty_data_file => "/root/logstash/data/dirty.data"
dirty_data_file_max_size => 1000
}
}
八、运行与查看数据
1、运行
./logstash-7.5.0/bin/logstash -f csv-sample2.conf
2、查看数据