RMDB与hadoop的实时整合

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介:

一、MySQL的Hadoop Applier

    实现原理是:把hadoop作为MYSQL 的slave,实时把数据同步到hadoop,支持apache hadoop

    通过分析MYSQL的binlog日志,在hdfs产生一个目录(同表名),所有的表记录都存储在一个文件中,用户的操作如插入,更新,删除都会产生一笔记录追加到文件末尾.

    但如何利用hdfs上的这个数据,需要用户自己定义逻辑,把表中的数据插入到hbase表

    详见:http://dev.mysql.com/tech-resources/articles/mysql-hadoop-applier.html

MySQL to HDFS Integration

二、GoldenGate的HDFS Adapter

    Oracle GoldGate's 也有类似的工具,通过分析Trails File把数据实时同步到hadoop

    ORACLE官方网站提供了Hdfs Adapter,但不提供服务支持
    详见:https://blogs.oracle.com/dataintegration/entry/streaming_relational_transactions_to_hadoop

21145537_ttZP.jpg

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
5月前
|
存储 SQL 分布式计算
Hadoop数据整合
【5月更文挑战第9天】Hadoop数据整合
42 2
|
2月前
|
存储 分布式计算 资源调度
Hadoop生态系统概览:从HDFS到Spark
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它由多个组件构成,旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件,包括HDFS、MapReduce、YARN,并探讨它们如何与现代大数据处理工具如Spark集成。
61 0
|
5月前
|
存储 分布式计算 Hadoop
Hadoop数据集成
【5月更文挑战第7天】
42 1
|
存储 机器学习/深度学习 分布式计算
Hadoop HDFS特性和基本操作(hadoop离线-03)
Hadoop HDFS特性和基本操作(hadoop离线-03)
329 1
|
存储 分布式计算 资源调度
|
分布式计算 Hadoop Java
|
分布式计算 Hadoop 资源调度
hadoop的mapReduce历史服务配置及查看
查看MapReduce历史执行情况报错 查看已经运行完成的MapReduce作业记录,比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。
1433 0
|
分布式计算 Hadoop Apache
|
Web App开发 存储 分布式计算

相关实验场景

更多
下一篇
无影云桌面