释放存储与计算压力,MySQL用户升级到EB级数据仓库MaxCompute攻略

简介: 在过去三年里产生的数据量比以往四万年的数据量还要大。大数据可以来自方方面面,从日常生活购物到社交网络,从地理位置定位到在线视频都会有大量的数据。云计算的蓬勃发展,进一步催生了大数据的价值。廉价的存储和计算,高效的海量数据处理,我们已经进入了“大数据时代”。

在过去三年里产生的数据量比以往四万年的数据量还要大。大数据可以来自方方面面,从日常生活购物到社交网络,从地理位置定位到在线视频都会有大量的数据。云计算的蓬勃发展,进一步催生了大数据的价值。廉价的存储和计算,高效的海量数据处理,我们已经进入了“大数据时代”。今天,移动、交易、广告、社会化游戏、在线传感器以及工业传感器数量在迅猛增长,数据规模给传统技术带来了很大的挑战。随着规模的不断增长传统软件无法解决EB级大数据处理带来的性能和成本方面的挑战。

当企业MySQL/RDS业务数据规模增长到一定阶段,比如单表数据量达到上亿,就会出现计算性能和存储成本问题。水平拆表?垂直拆表?一般业务型的研发团队,很难有额外的精力投入到数据库方面,也没有专业的DBA来不断调优数据库配置、优化数据库服务器性能。所以,采用新的技术方案是最有效的方法。

      MaxCompute2.0是一项提供快速、完全托管的EB级数据仓库解决方案的大数据计算服务,可以高效并经济的分析处理海量数据。MaxCompute是阿里巴巴内部和阿里云的大数据旗舰平台,阿里巴巴近99%的数据存储以及95%的计算能力都在这个平台上产生。在计费方面,存储一亿条数据,每条100B,则数据量约0.1G*100B= 10G。10G数据,按照MaxCompute 官方给出的1:3压缩率,存放在MaxCompute每月只要支付2元多钱。如果10GB数据全部参与排序计算,每次SQL计算最低只要支付3元钱。计费标准参考 https://help.aliyun.com/document_detail/27989.html

      那么如何将MySQL/RDS数据迁移到MaxCompute上,搭建数据仓库?接下来,我向大家介绍几款工具,通过实战帮助大家更快完成目标。

      前提条件:开通MaxCompute;开通教程参考 https://help.aliyun.com/document_detail/58226.html

      数据上云篇

      实时同步工具-DTS(收费,支持自建MySQL和RDS)

      数据传输(Data Transmission)服务DTS是阿里云提供的一种支持RDBMS(关系型数据库)、NoSQL、OLAP等多种数据源之间数据交互的数据服务。它提供了数据迁移、实时数据订阅及数据实时同步等多种数据传输能力。

  • 创建RDS for Mysql数据实时同步到MaxCompute,实现原理如下:

SQL Cost

如上图所示,整个同步过程分为两步:

  1. 全量初始化, 这个步骤将RDS MySQL中已经存在的全量数据初始化到MaxCompute中。对于同步的每个表,全量初始化的数据都会独立存储在MaxCompute中的全量基线表中,这个表的默认格式为:源表名_base。例如表 t1,那么全量基线表在MaxCompute中存储的表名为:t1_dts_base。这个存储表名前缀可以根据需要变更,您可以在配置任务时,修改表在MaxCompute存储的名称。
  2. 增量数据同步,这个步骤将RDS MySQL产生的增量数据数据实时同步到MaxCompute中。并存储在增量日志表中,每个同步表对应一个增量日志表。增量日志表在MaxCompute中存储的表名的默认格式为:源表名_log。这个存储表名前缀可以根据需要变更,您可以在配置任务时,修改表在MaxCompute存储的名称。

创建MySQL到MaxCompute数据实时同步作业


      离线同步工具-DataWorks数据集成(公测,支持自建MySQL和RDS)

      数据集成,是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。

      离线(批量)的数据通道主要通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(称之为 Reader)、数据写入插件(称之为 Writer),并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输的目的。

offline_trans.png

静态数据和动态数据增量同步

整库迁移到 MaxCompute

VPC环境$金融云环境的数据同步

RDS迁移到Maxcompute实现动态分区


总结,通过上述两种方法,可以帮助企业快速将RDS/MySql数据同步到MaxCompute中,接下来,用户可以通过DataWorks和MaxCompute Studio来进行日常的开发、数据调度。


华北2(北京)Region MaxCompute购买地址:https://common-buy.aliyun.com/?commodityCode=odpsplus#/buy

欢迎加入“数加·MaxCompute购买咨询”钉钉群(群号: 11782920)进行咨询,群二维码如下:

IMG_3471

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4天前
|
分布式计算 DataWorks 关系型数据库
DataWorks支持将ODPS表拆分并回流到MySQL的多个库和表中
DataWorks支持将ODPS表拆分并回流到MySQL的多个库和表中
12 4
|
25天前
|
存储 缓存 关系型数据库
鱼和熊掌如何兼得?一文解析RDS数据库存储架构升级
阿里云RDS率先推出新型存储类型通用云盘,提供低延迟、低成本、高持久性的用户体验。
鱼和熊掌如何兼得?一文解析RDS数据库存储架构升级
|
26天前
|
关系型数据库 MySQL Serverless
高顿教育:大数据抽数分析业务引入polardb mysql serverless
高顿教育通过使用polardb serverless形态进行数据汇总,然后统一进行数据同步到数仓,业务有明显高低峰期,灵活的弹性伸缩能力,大大降低了客户使用成本。
|
1月前
|
SQL 关系型数据库 MySQL
在云数据仓库AnalyticDB MySQL版中,有几个参数可能影响SELECT查询的执行及其稳定性
在云数据仓库AnalyticDB MySQL版中,有几个参数可能影响SELECT查询的执行及其稳定性【1月更文挑战第16天】【1月更文挑战第80篇】
23 4
|
1月前
|
存储 关系型数据库 MySQL
Linux C/C++ 开发(学习笔记八):Mysql数据库图片存储
Linux C/C++ 开发(学习笔记八):Mysql数据库图片存储
24 0
|
2月前
|
SQL 分布式计算 数据库
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
53 0
|
2月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
63 0
|
25天前
|
存储 关系型数据库 MySQL
Mysql 存储大数据量问题
Mysql 存储大数据量问题
57 1
|
21天前
|
SQL 分布式计算 关系型数据库
Dataphin实现MaxCompute外表数据快速批量同步至ADB MySQL
当前大数据时代背景下,企业对数据的处理、分析和实时应用的需求日益增强。阿里云MaxCompute广泛应用于海量数据的ETL、数据分析等场景,但在将处理后的数据进一步同步至在线数据库系统,如ADB MySQL 3.0(阿里云自研的新一代云原生关系型数据库MySQL版)以支持实时查询、业务决策等需求时,可能会遇到数据迁移速度缓慢的问题。 DataphinV3.14版本支持外表导入SQL的带参调度,实现通过MaxCompute外表的方式将数据批量同步至ADB MySQL 3.0中,显著提升数据迁移的速度和效率。
|
24天前
|
存储 缓存 关系型数据库
Mysql专栏 - Linux底层交互和Raid存储架构
Mysql专栏 - Linux底层交互和Raid存储架构
66 0

相关产品

  • 云原生大数据计算服务 MaxCompute