maxwell数据抓取工具

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: maxwell数据抓取工具

前言

maxwell是一款开源MySQL数据抓取工具,可以读取MySQL的binlog,然后转换成json并输出到kafka、redis等消息队列中。

  • bin/maxwell,用于增量抓取
  • bin/maxwell-boostrap,用于全量抓取

搭建环境

应用 版本 Addr
MySQL 8.0.33 192.168.3.23:3306
Kafka 2.13_3.4.0 192.168.3.23:9092
Maxwell 1.40.0

安装MySQL

MySQL版本:8.0.33

  1. 修改配置文件,启用binlog和gtid
log_bin           = mysql-bin
binlog_format     = row
binlog_cache_size = 2M
server_id = 1
gtid_mode = on
enforce_gtid_consistency = on
log-slave-updates = 1
binlog-ignore-db = mysql,information_schema,sys,performance_schema
sync_binlog = 1
auto_increment_offset = 1
auto_increment_increment = 2
  1. 开启binlog直接输出SQL语句
SET GLOBAL binlog_rows_query_log_events=ON;
  1. 配置同步用户
CREATE USER 'maxwell'@'%' IDENTIFIED BY '123456';
-- GRANT ALL ON maxwell.* TO 'maxwell'@'%';
GRANT SELECT, REPLICATION CLIENT, REPLICATION SLAVE ON *.* TO 'maxwell'@'%';

安装JDK

后面的kafka和maxwell都需要java运行环境,本文使用的jdk版本为 openjdk 17.0.2

安装kafka(单节点)

Kafka版本2.13-3.4.0,使用kraft。

  1. 生成uuid
KAFKA_CLUSTER_ID="$(bin/kafka-storage.sh random-uuid)"
  1. 初始化log目录。可修改配置文件config/kraft/server.properties中日志目录路径。
bin/kafka-storage.sh format -t $KAFKA_CLUSTER_ID -c config/kraft/server.properties
  1. 启动。注意修改配置文件config/kraft/server.properties中的监听host地址
bin/kafka-server-start.sh -daemon config/kraft/server.properties
  1. 创建topic
bin/kafka-topics.sh --create --topic maxwell --bootstrap-server 127.0.0.1:9092

安装maxwell

  1. 从maxwell的github仓库 https://github.com/zendesk/maxwell 下载release压缩包并解压即可。

增量抓取

  1. 编辑配置文件
log_level=info
producer=kafka
kafka.bootstrap.servers=192.168.3.23:9092
# mysql连接信息
host=192.168.3.23
port=3306
user=maxwell
password=123456
# 过滤库表
# filter= include: test.*
gtid_mode=true
output_ddl=true
kafka_topic=maxwell
kafka.compression.type=snappy
kafka.retries=0
kafka.acks=1
# 全量抓取的时候会用到
client_id=2301
  1. 启动
nohup ./bin/maxwell --config ./config.properties > ./nohup.log 2>&1 &
  1. 测试。在数据库进行一些增删改操作,观测kafka的topic有没有数据,有数据则正常。

全量抓取

maxwell-bootstrap依赖maxwell实例,运行时需要指定maxwell的实例id。

./bin/maxwell-bootstrap --host='192.168.3.23' --port=3306 --user='root' --password='123456' --database="test" --table="tb1"

参考

相关文章
|
8月前
|
数据采集 存储 开发者
Python爬虫实战:打造高效数据采集工具
本文将介绍如何利用Python编写一个高效的网络爬虫,实现对特定网站数据的快速抓取与处理,帮助开发者更好地应对大规模数据采集的需求。
|
4月前
|
存储 Go API
使用GoFrame连接和操作TDengine时序数据库
通过使用GoFrame框架和TDengine Go驱动,我们可以方便地连接和操作TDengine时序数据库。无论是插入、查询还是分析时序数据,都可以通过简单的API调用来实现。GoFrame提供了强大的Web开发功能,结合TDengine的高性能时序数据存储和查询能力,可以构建高效、可扩展的时序数据应用。
|
3月前
|
数据采集 存储 Go
如何使用Colly库进行大规模数据抓取?
如何使用Colly库进行大规模数据抓取?
|
5月前
|
关系型数据库 MySQL 大数据
教你使用Python玩转MySQL数据库,大数据导入不再是难题!
教你使用Python玩转MySQL数据库,大数据导入不再是难题!
|
7月前
|
数据采集 存储 分布式计算
Nutch爬虫在大数据采集中的应用案例
Nutch爬虫在大数据采集中的应用案例
|
8月前
|
数据采集 消息中间件 分布式计算
Sqoop与其他数据采集工具的比较分析
Sqoop与其他数据采集工具的比较分析
|
8月前
|
关系型数据库 MySQL 大数据
程序员小sister的烦恼_快速上手大数据ETL神器Kettle(xls导入mysql)
程序员小sister的烦恼_快速上手大数据ETL神器Kettle(xls导入mysql)
114 0
|
数据采集 Java 关系型数据库
企业实战(20)ETL数据库迁移工具Kettle的安装配置详解
企业实战(20)ETL数据库迁移工具Kettle的安装配置详解
545 0
|
数据采集 自然语言处理 数据可视化
Python大作业——爬虫+可视化+数据分析+数据库(爬虫篇)
Python大作业——爬虫+可视化+数据分析+数据库(爬虫篇)
786 0
|
消息中间件 前端开发 关系型数据库