阿里云分析型数据库AnalyticDB:使用Logstash插件进行高效数据写入

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介:

前言

AnalyticDB(简称ADB,ADS,早期项目名Garuda)是阿里巴巴自主研发的海量数据实时高并发在线实时分析型数据库(Real-Time OLAP)。自2012年第一次在集团发布上线以来(初期内部命名Garuda),至今已累计迭代发布一百多个版本,支撑起集团内的电商、广告、菜鸟、文娱、飞猪等众多在线数据分析业务。AnalyticDB 于2014年在阿里云开始正式对外输出,包括公共云和专有云,支撑行业既包括传统的大中型企业和政府机构,也包括众多的互联网公司。每年集团双十一、电商、广告投放、游戏和物流等公有云和专有云大量用户和大量业务的实时分析业务高峰都驱动着AnalyticDB不断的架构演进,技术创新。

背景

众所周知,Logstash是一个开源的服务器端数据处理管道,起初是为了处理日志类数据写入到ES中,但随着开源社区的不断发展,如今可以同时从多个数据源获取数据,并对其进行转换,然后将其发送到你想要的“存储”。就日志数据为例,我们如果想要把log数据导入ADB中进行进一步分析,因为ADB支持原生JDBC方式访问,所以目前可以通过开源logstash output插件logstash-output-jdbc进行数据的导入,但是在使用过程中发现,在日志量非常大的情况下,jdbc方式写入ADB的性能是比较低的,并且会非常消耗CPU的资源(因为jdbc是单条记录写入的方式)。在日志量非常大的时候,这种方式性价比明显是很低的,因此,我们基于jdbc插件的方式优化了一个专门支持ADB的聚合写入方式的output plugin——logstash-ouput-analyticdb,在此就简单介绍一下logstash通过logstash-output-analyticdb插件写入ADB的使用方式。

安装

Logstash的安装流程可以参见传送门,这里不多叙,我们主要介绍一下安装logstash-output-analyticdb的流程:

  • 进入logstash根目录:cd logstash
  • 安装logstash-output-analyticdb:bin/logstash-plugin install logstash-output-analyticdb
  • 在logstash目录下创建vendor/jar/jdbc目录:mkdir -p vendor/jar/jdbc
  • 将jdbc jar拷贝到vendor/jar/jdbc中:cd vendor/jar/jdbc; wget http://central.maven.org/maven2/mysql/mysql-connector-java/5.1.36/mysql-connector-java-5.1.36.jar
    至此,logstash-output-analyticdb的安装步骤就都完成了!

使用方式

上面我们已经安装好了logstash-output-analyticdb插件,下面我们看看怎么使用呢?
和大多数logstash案例的使用方式一样,我们在config目录下创建一个logstash-analyticdb.conf(名字可以自行定义)的配置文件,此处我们贴一个简单的example:

input
{
    stdin { }
}
output {
    analyticdb {
        driver_class => "com.mysql.jdbc.Driver"
        connection_string => "jdbc:mysql://HOSTNAME:PORT/DATABASE?user=USER&password=PASSWORD"
        statement => [ "INSERT INTO log (host, timestamp, message) VALUES(?, ?, ?)", "host", "@timestamp", "message" ]
    }
}

connection_string:连接你的AnalyticDB的jdbc url
statement:insert SQL的声明数组,要提前在你的AnalyticDB上创建对应的表哦,不然往哪儿写呢?
此配置文件的内容只是一个例子,具体配置文件的内容根据各使用者的实际使用场景决定。其他analyticdb相关的配置项请看README
logstash的原有使用配置项,大家可以看看logstash的文档(因为配置项和规则太多了,就不在此赘述了)
至此,我们使用前的配置任务都已经做完,下面我们来启动任务,在logstash安装目录执行:bin/logstash -f config/logstash-analyticdb.conf即可

后记

我们在使用logstash-output-analyticdb写入AnalyticDB的性能相较于logstash-output-jdbc会有5倍的提升,并且对于CPU的使用也有明显的降低。
如果大家在使用过程中遇到任何问题,欢迎issue抛过来

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
8天前
|
人工智能 关系型数据库 OLAP
光云科技 X AnalyticDB:构建 AI 时代下的云原生企业级数仓
AnalyticDB承载了光云海量数据的实时在线分析,为各个业务线的商家提供了丝滑的数据服务,实时物化视图、租户资源隔离、冷热分离等企业级特性,很好的解决了SaaS场景下的业务痛点,也平衡了成本。同时也基于通义+AnalyticDB研发了企业级智能客服、智能导购等行业解决方案,借助大模型和云计算为商家赋能。
57 17
|
1月前
|
缓存 NoSQL 关系型数据库
WordPress数据库查询缓存插件
这款插件通过将MySQL查询结果缓存至文件、Redis或Memcached,加速页面加载。它专为未登录用户优化,支持跨页面缓存,不影响其他功能,且可与其他缓存插件兼容。相比传统页面缓存,它仅缓存数据库查询结果,保留动态功能如阅读量更新。提供三种缓存方式选择,有效提升网站性能。
52 1
|
2月前
|
人工智能 JavaScript 关系型数据库
【02】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-ui设计图figmaUI设计准备-figma汉化插件-mysql数据库设计-优雅草卓伊凡商业项目实战
【02】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-ui设计图figmaUI设计准备-figma汉化插件-mysql数据库设计-优雅草卓伊凡商业项目实战
133 14
【02】Java+若依+vue.js技术栈实现钱包积分管理系统项目-商业级电玩城积分系统商业项目实战-ui设计图figmaUI设计准备-figma汉化插件-mysql数据库设计-优雅草卓伊凡商业项目实战
|
2月前
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
|
2月前
|
SQL 存储 OLAP
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
|
5月前
|
SQL Java 数据库连接
深入 MyBatis-Plus 插件:解锁高级数据库功能
Mybatis-Plus 提供了丰富的插件机制,这些插件可以帮助开发者更方便地扩展 Mybatis 的功能,提升开发效率、优化性能和实现一些常用的功能。
837 26
深入 MyBatis-Plus 插件:解锁高级数据库功能
|
5月前
|
存储 SQL 缓存
AnalyticDB 实时数仓架构解析
AnalyticDB 是阿里云自研的 OLAP 数据库,广泛应用于行为分析、数据报表、金融风控等应用场景,可支持 100 trillion 行记录、10PB 量级的数据规模,亚秒级完成交互式分析查询。本文是对 《 AnalyticDB: Real-time OLAP Database System at Alibaba Cloud 》的学习总结。
142 1
|
6月前
|
人工智能 分布式计算 数据管理
阿里云位居 IDC MarketScape 中国实时湖仓评估领导者类别
国际数据公司( IDC )首次发布了《IDC MarketScape: 中国实时湖仓市场 2024 年厂商评估》,阿里云在首次报告发布即位居领导者类别。
|
6月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
417 0
|
数据库
MySQL---数据库从入门走向大神系列(四)-子查询、表与表之间的关系(3)
MySQL---数据库从入门走向大神系列(四)-子查询、表与表之间的关系
242 0
MySQL---数据库从入门走向大神系列(四)-子查询、表与表之间的关系(3)

热门文章

最新文章

相关产品

  • 云原生数据仓库AnalyticDB MySQL版
  • 下一篇
    oss创建bucket