开发者社区> 隐林> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

释放存储与计算压力,MySQL用户升级到EB级数据仓库MaxCompute攻略

简介: 在过去三年里产生的数据量比以往四万年的数据量还要大。大数据可以来自方方面面,从日常生活购物到社交网络,从地理位置定位到在线视频都会有大量的数据。云计算的蓬勃发展,进一步催生了大数据的价值。廉价的存储和计算,高效的海量数据处理,我们已经进入了“大数据时代”。
+关注继续查看

在过去三年里产生的数据量比以往四万年的数据量还要大。大数据可以来自方方面面,从日常生活购物到社交网络,从地理位置定位到在线视频都会有大量的数据。云计算的蓬勃发展,进一步催生了大数据的价值。廉价的存储和计算,高效的海量数据处理,我们已经进入了“大数据时代”。今天,移动、交易、广告、社会化游戏、在线传感器以及工业传感器数量在迅猛增长,数据规模给传统技术带来了很大的挑战。随着规模的不断增长传统软件无法解决EB级大数据处理带来的性能和成本方面的挑战。

当企业MySQL/RDS业务数据规模增长到一定阶段,比如单表数据量达到上亿,就会出现计算性能和存储成本问题。水平拆表?垂直拆表?一般业务型的研发团队,很难有额外的精力投入到数据库方面,也没有专业的DBA来不断调优数据库配置、优化数据库服务器性能。所以,采用新的技术方案是最有效的方法。

      MaxCompute2.0是一项提供快速、完全托管的EB级数据仓库解决方案的大数据计算服务,可以高效并经济的分析处理海量数据。MaxCompute是阿里巴巴内部和阿里云的大数据旗舰平台,阿里巴巴近99%的数据存储以及95%的计算能力都在这个平台上产生。在计费方面,存储一亿条数据,每条100B,则数据量约0.1G*100B= 10G。10G数据,按照MaxCompute 官方给出的1:3压缩率,存放在MaxCompute每月只要支付2元多钱。如果10GB数据全部参与排序计算,每次SQL计算最低只要支付3元钱。计费标准参考 https://help.aliyun.com/document_detail/27989.html

      那么如何将MySQL/RDS数据迁移到MaxCompute上,搭建数据仓库?接下来,我向大家介绍几款工具,通过实战帮助大家更快完成目标。

      前提条件:开通MaxCompute;开通教程参考 https://help.aliyun.com/document_detail/58226.html

      数据上云篇

      实时同步工具-DTS(收费,支持自建MySQL和RDS)

      数据传输(Data Transmission)服务DTS是阿里云提供的一种支持RDBMS(关系型数据库)、NoSQL、OLAP等多种数据源之间数据交互的数据服务。它提供了数据迁移、实时数据订阅及数据实时同步等多种数据传输能力。

  • 创建RDS for Mysql数据实时同步到MaxCompute,实现原理如下:

SQL Cost

如上图所示,整个同步过程分为两步:

  1. 全量初始化, 这个步骤将RDS MySQL中已经存在的全量数据初始化到MaxCompute中。对于同步的每个表,全量初始化的数据都会独立存储在MaxCompute中的全量基线表中,这个表的默认格式为:源表名_base。例如表 t1,那么全量基线表在MaxCompute中存储的表名为:t1_dts_base。这个存储表名前缀可以根据需要变更,您可以在配置任务时,修改表在MaxCompute存储的名称。
  2. 增量数据同步,这个步骤将RDS MySQL产生的增量数据数据实时同步到MaxCompute中。并存储在增量日志表中,每个同步表对应一个增量日志表。增量日志表在MaxCompute中存储的表名的默认格式为:源表名_log。这个存储表名前缀可以根据需要变更,您可以在配置任务时,修改表在MaxCompute存储的名称。

创建MySQL到MaxCompute数据实时同步作业


      离线同步工具-DataWorks数据集成(公测,支持自建MySQL和RDS)

      数据集成,是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。

      离线(批量)的数据通道主要通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(称之为 Reader)、数据写入插件(称之为 Writer),并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输的目的。

offline_trans.png

静态数据和动态数据增量同步

整库迁移到 MaxCompute

VPC环境$金融云环境的数据同步

RDS迁移到Maxcompute实现动态分区


总结,通过上述两种方法,可以帮助企业快速将RDS/MySql数据同步到MaxCompute中,接下来,用户可以通过DataWorks和MaxCompute Studio来进行日常的开发、数据调度。


华北2(北京)Region MaxCompute购买地址:https://common-buy.aliyun.com/?commodityCode=odpsplus#/buy

欢迎加入“数加·MaxCompute购买咨询”钉钉群(群号: 11782920)进行咨询,群二维码如下:

IMG_3471

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+ AI | 学习笔记
快速学习 MaxCompute 持续定义 SaaS 模式云数据仓库 — 云数据仓库+ AI
49 0
Hologres+MaxCompute数据仓库服务化详解
介绍如何基于Hologres和MaxCompute产品组合,支撑高并发、快响应的数据服务化场景,替换HBase开发模式,实现数据资产服务化在线化能力。
18154 0
SaaS模式云数据仓库 MaxCompute 问答整理之2020-09~10月
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。
5489 0
【干货整理】MaxCompute 持续定义 SaaS 模式云数据仓库 — 2020阿里巴巴大数据技术公开课第四季
数据管理领域的技术演进以及云计算的蓬勃发展催生了基于云提供开箱即用的数据仓库服务的产品模式-Data Warehouse as a Service(DWaaS),最终用户无需关心基础设施、平台软件管理以及平台运维和优化升级工作。这部分工作由服务提供商完全托管并提供满足SLA要求的高质量服务,减少用户的前期投入并加速价值实现,让数据仓库服务回归服务的本质。阿里云MaxCompute正是基于云构建的SaaS模式的数据仓库服务。本季直播将重点从SaaS模式云数据仓库按需使用的核心能力-Serverless能力、"云数据仓库+价值场景" 两个方面做深入解读。
4643 0
SaaS模式云数据仓库 MaxCompute 问答整理之2020-07~08月
飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。
2072 0
SaaS 模式云数据仓库 MaxCompute 数据安全最佳实践
MaxCompute作为企业级SaaS模式云数据仓库,正在为客户业务及其数据提供持续的安全保护。 MaxCompute 近期对产品的安全能力进行了全面升级,本文将针对数据误用、数据滥用、数据泄露、数据丢失等典型数据风险场景,结合数据生命周期,为您介绍基 于MaxCompute 和 DataWorks 原生集成安全能力的最佳实践。
451 0
SaaS模式云数据仓库 MaxCompute 企业级安全能力升级—持续定义云原生
日前,阿里云SaaS模式云数据仓库MaxCompute 全面升级企业级安全新能力,新发布功能包含实时审计日志、细粒度授权、数据脱敏、存储加密( BYOK)、持续备份恢复和跨地域的容灾备份。MaxCompute作为全托管大数据平台内建完善的安全管理能力,本次升级将对企业云上数据和业务形成更加全面和细粒度的保护,有效提升企业安全管理水平。
432 0
SaaS 模式云数据仓库 MaxCompute 数据安全最佳实践
MaxCompute作为企业级SaaS模式云数据仓库,正在为客户业务及其数据提供持续的安全保护。 MaxCompute 近期对产品的安全能力进行了全面升级,本文将针对数据误用、数据滥用、数据泄露、数据丢失等典型数据风险场景,结合数据生命周期,为您介绍基 于MaxCompute 和 DataWorks 原生集成安全能力的最佳实践。
657 0
SaaS模式云数据仓库 MaxCompute 企业级安全能力升级—持续定义云原生,有效提升企业数据安全管理水平
日前,阿里云SaaS模式云数据仓库MaxCompute 全面升级企业级安全新能力,新发布功能包含实时审计日志、细粒度授权、数据脱敏、存储加密( BYOK)、持续备份恢复和跨地域的容灾备份。MaxCompute作为全托管大数据平台内建完善的安全管理能力,本次升级将对企业云上数据和业务形成更加全面和细粒度的保护,有效提升企业安全管理水平。
404 0
飞天大数据产品价值解读— SaaS模式云数据仓库MaxCompute
企业在数字化转型过程中面临数据技术平台建设和运营的诸多挑战,随着现代化数据仓库向多功能、服务化方向发展演进,技术侧的变革为解决企业数据平台各项挑战带来新的可能。MaxCompute作为阿里云飞天大数据中的数据仓库产品,已经成为了阿里内部及众多的外部客户广泛使用且高度信赖的企业数据平台。本次直播将为您介绍SaaS模式云数据仓库MaxCompute核心能力及优势,并结合大数据分析平台经典使用场景,为您介绍MaxCompute 为企业带来的业务敏捷性、面向分析统一平台、显著降低TCO等关键业务价值。
1463 0
+关注
隐林
阿里云大数据产品专家,擅长MaxCompute、机器学习、分布式、可视化、人工智能等大数据领域;
文章
问答
来源圈子
更多
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。
+ 订阅
相关文档: MaxCompute
文章排行榜
最热
最新
相关电子书
更多
HTAP能力持续增强 HybridDB for MySQL分析性能提升
立即下载
ECS 计算与存储分离架构实践
立即下载
云数据库HBase产品架构场景解析
立即下载