使用 Logstash 导入流式数据|学习笔记

简介: 快速学习使用 Logstash 导入流式数据

开发者学堂课程【阿里云 DataHub 使用教程使用 Logstash 导入流式数据】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/429/detail/5367


使用 Logstash 导入流式数据


 如何使用 Logstash 上传数据到 Datahub 中

1、首先,进入到 Datahub 的控制台,

(https://datahub.console.aliyun.com),可看到之前创建的 project。

2、进入后创建一个能上传数据的 topic ,Topic 名称为 longstash_test,准备了五个字段,因此 topic 也有五个字段,Shard 数量为1,备注 longstash。(如下图)

image.png

创建成功后,点击查看 topic,数据量为0。

3、进入迷你行终端,可先下载

logstash-with-datahub-2.3.0.tar.gz的包,包里包含 datahub 插件,可解压出来,进入已解压好的目录中,准备好的配置文件包含 input,表示上传数据文件的位置

Input {

fail {

path=>”/Users/wz/workspace/Logstash-with-datahub-2.3.0/sample_conf/datahub_type.data”

start_position=>”beginning”//从文件开始处上传

sincedb_path=>”/tmp/.sincedb_test”//表示文件上传到哪里

}

}

filter是 csv 的插件

filter {

csv {

## change to you own columns

columns => { ‘f_bigint”, ‘f_double’, ‘f_boolean’, ‘f_timestamp’, ‘f_string’ }//表示把数据文件分成五个字段,每个字段的名字即 topic 定义的五个字段的名字

}

}

Output 插件

output {

datahub {

acess_id=>”your acessId”

acess_key=>”your acesskey”

endpoint=>”http://dh_cn_hangzhou.aliyuncs.com

project_name=>”test_dh1”

topic_name=>”logstash_test”

}//表示输出到 datahub 哪一个 topic

继续上传数据,亦包含五个字段,每一行用逗号分隔的五段数据

例:

1001,1.23456789012E9,true,14321111111,test_string_filed

其中1001为bigint,1.23456789012E9为dubbo,true 为buling,14321111111为typestep,test_string_filed为string。

启动 logstash

./bin/logstash-f sample_conf/datahub-type-data.conf.ak-verbose

已经把数据文件的40行 put 到文件里。

4、查看控制台

数据为40条,点击数据抽样,数据已上传

5、在数据文件中加入数据

Logstash 已检测出数据变动,把数据也写到 datahub 中。查看控制台,有41条数据,进行数据抽样,最后的数据是1041。

相关文章
|
5月前
|
数据库连接 数据库
kettle开发篇-流查询
kettle开发篇-流查询
153 0
|
消息中间件 Kafka API
数据管道 Logstash 入门(上)
数据管道 Logstash 入门
106 0
|
消息中间件 数据可视化 关系型数据库
(3)sparkstreaming从kafka接入实时数据流最终实现数据可视化展示
1)我们通过kafka与各个业务系统的数据对接,将各系统中的数据实时接到kafka; 2)通过sparkstreaming接入kafka数据流,定义时间窗口和计算窗口大小,业务计算逻辑处理; 3)将结果数据写入到mysql; 4)通过可视化平台接入mysql数据库,这里使用的是NBI大数据可视化构建平台; 5)在平台上通过拖拽式构建各种数据应用,数据展示;
(3)sparkstreaming从kafka接入实时数据流最终实现数据可视化展示
|
1月前
|
消息中间件 Kafka 搜索推荐
|
5月前
|
消息中间件 数据采集 分布式计算
【数据采集与预处理】数据接入工具Kafka
【数据采集与预处理】数据接入工具Kafka
78 1
【数据采集与预处理】数据接入工具Kafka
|
4月前
|
消息中间件 数据挖掘 Kafka
使用 Flume 将 CSV 数据导入 Kafka:实现实时数据流
使用 Flume 将 CSV 数据导入 Kafka:实现实时数据流
|
3月前
|
存储 消息中间件 数据挖掘
Python实时数据分析:利用丰富的库(如Pandas, PySpark, Kafka)进行流处理,涵盖数据获取、预处理、处理、存储及展示。
【7月更文挑战第5天】Python实时数据分析:利用丰富的库(如Pandas, PySpark, Kafka)进行流处理,涵盖数据获取、预处理、处理、存储及展示。示例代码展示了从Kafka消费数据,计算社交媒体活跃度和物联网设备状态,并可视化结果。适用于监控、故障检测等场景。通过学习和实践,提升实时数据分析能力。
95 0
|
5月前
|
自然语言处理 测试技术 网络安全
ElasticSearch7最新实战文档-附带logstash同步方案
ElasticSearch7最新实战文档-附带logstash同步方案
78 0
|
5月前
|
SQL Oracle 关系型数据库
实时计算 Flink版产品使用合集之采集选择增量(latest)读取模式,是否可以使用动态加载表功能
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
5月前
|
缓存 算法 BI
【天衍系列 02】深入理解Flink的FileSink 组件:实时流数据持久化与批量写入
【天衍系列 02】深入理解Flink的FileSink 组件:实时流数据持久化与批量写入
228 2