分库分表上百后Dataworks同步策略分享

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用系列 2核4GB
简介:

大致说下业务场景, 在提倡云服务化的今天,我们拥有了一大堆的客户数据,同时我们也拥有了一大堆的rds。当这么多的rds存在时,数据统计有时就变得很麻烦,再也不能使用一条sql来统计双十一我们客户究竟卖了多少订单,我们客户在淘宝和天猫订单的比例等等。

在数据分析和数据统计的需求越来越多时,数据仓库的作用就显得非常重要。而不想花太多成本搭建数据仓库,又不想投入很多开发资源的情况下,dataworks作为一个集成了数据仓库和数据分析的工具,也是一个不错的选择。

dataworks从v1.0开始使用到现在v2.0。在下每天维护着超过200个数据库每个库20+核心表的数据同步,在产品的数据需求和大量的同步任务压迫下苟延残喘。

数据分析这块熟悉了sql后基本没什么好说的,对于维护数据库不多的同学,同步任务貌似也没什么太大的问题。当数据库达到100+,每天建同步任务建到吐血的同学,我们可以分享下当前的经验以及策略。顺便也恐惧下数据库达到1千后,我们该怎么办,或者坐等阿里的同学给出更合适的同步方案吧。

一图抵万语:
1542362577573

这是我使用的同步策略,将不同rds的同一个表统一的放入odps的同一个表中,用分区参数对应rds名的方式来存放。

优点

  • 计算很方便,100个rds的tableA都在同一个表里,sql很简单。
  • 节约计算成本,比如要取某rds的数据只需在条件中加入pt=rds名来过滤即可。

缺点

  • 同步任务很多,需要维护N(rds数)*T(表数)个同步任务,加上有些可以做增量的同步任务,将会有更多的同步任务。

基于上述的策略,受限于资源(不能在有限的时间里把全库数据同步完),同步任务太多(手工没法建这么多同步任务啊T,T), 产品需求急(急nm啊),我维护了两套同步方案。

继续上图:

方案A:

12

应用场景

产品急需对某rds的数据做出数据产品。此产品涉及的表比较多,但不涉及所有rds,数据只在某几个rds里面。

方案B:

0D1E78B6_5513_48E5_A14D_05A8F1B71047

应用场景

老板、市场、产品想了解公司目前经营现状,涉及的表比较少,但是需要全表。

难点

当数据库超过50个时,人力简直要泪奔。可以建同步任务建到精神恍惚。

写于最后:
分库分表数据库数量多的同学一起交流交流。分享下各自的思路。我现在的解决方案是通过selenium写网页自动化脚本来自动建同步任务T,T.

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 产品官网 https://www.aliyun.com/product/bigdata/ide 大数据&AI体验馆 https://workbench.data.aliyun.com/experience.htm#/ 帮助文档https://help.aliyun.com/zh/dataworks 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
2月前
|
DataWorks 关系型数据库 Serverless
DataWorks数据集成同步至Hologres能力介绍
本次分享的主题是DataWorks数据集成同步至Hologres能力,由计算平台的产品经理喆别(王喆)分享。介绍DataWorks将数据集成并同步到Hologres的能力。DataWorks数据集成是一款低成本、高效率、全场景覆盖的产品。当我们面向数据库级别,向Hologres进行同步时,能够实现简单且快速的同步设置。目前仅需配置一个任务,就能迅速地将一个数据库实例内的所有库表一并传输到Hologres中。
81 12
|
8月前
|
分布式计算 DataWorks NoSQL
DataWorks产品使用合集之同步Holo数据到ODPS的过程中,出现部分数据的值变为星号(),是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
120 23
DataWorks产品使用合集之同步Holo数据到ODPS的过程中,出现部分数据的值变为星号(),是什么原因
|
8月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之SAP数据源怎么通过向导模式配置同步任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
DataWorks产品使用合集之SAP数据源怎么通过向导模式配置同步任务
|
7月前
|
分布式计算 DataWorks NoSQL
DataWorks产品使用合集之怎么在同步脚本里进行列转行
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
7月前
|
存储 运维 DataWorks
DataWorks产品使用合集之怎么实现时间字段进行分区同步
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
7月前
|
SQL DataWorks 关系型数据库
DataWorks操作报错合集之如何处理在DI节点同步到OceanBase数据库时,出现SQLException: Not supported feature or function
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
130 0
|
7月前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之如何解决datax同步任务时报错ODPS-0410042:Invalid signature value
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
7月前
|
数据采集 运维 DataWorks
DataWorks产品使用合集之如何从es同步数据到es
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
8月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之如何在DataWorks中实现离线同步多个分表到MC的多级分区表
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8月前
|
分布式计算 DataWorks NoSQL
MaxCompute产品使用合集之数据总线同步到DataWorks的任务状态持续显示为HANG(挂起)且同步延迟不断增加,该如何排查
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
110 0

热门文章

最新文章