免费开通大数据服务:https://www.aliyun.com/product/odps
618大促马上来了,快递企业包裹量又要剧增了。数据显示,2017年全行业快件量会接近400亿件。
虽然各大快递公司都事先增加了人员、设备、仓库,提升了运能,但面临的压力仍旧空前。
去年 618菜鸟凭借着强大的物流云仓储、计算能力斩获首单;
历史告诉我们,有些事情不要等发生了再干!
介绍神器前,我们先来看一下某互联网大数据企业使用洪荒之力后的收益
1.数据仓库迁移到阿里云MaxCompute后,流程上做了优化,省掉了编写MR程序的工作,日志数据全部通过SQL进行分析,效率提升了5倍以上。2.存储方面,MaxCompute的表按列压缩存储,更节省存储空间,整体存储和计算的费用比之前省了70%,性能和稳定性也有很大提升。
4.阿里云MaxCompute提供更为易用、全面的大数据分析功能。MaxCompute可根据业务情况做到计算资源自动弹性伸缩,天然集成存储功能。通过简单的几项配置操作后,即可完成数据上传,同时实现了多种开源软件的对接。
接下来,我们给分析师宝宝们两件神器,TB级数据整库同步工具-数加大数据开发套件,海量数据存储及计算平台MaxCompute。
神器介绍:
阿里云大数据计算服务MaxCompute https://www.aliyun.com/product/odps
阿里云大数据开发套件DataIDE https://data.aliyun.com/product/ide
【如何发动洪荒之力】
数加大数据开发套件中的整库迁移是为了提升用户效率、降低用户使用成本的一种快捷工具,它可以快速完成用户把一个 Mysql DB 库内所有表一并上传到 MaxCompute 的工作。
本文将通过实践操作,为大家介绍如何使用整库迁移功能,完成 MySQL 数据整库迁移到 MaxCompute。具体步骤如下:
登录到数加 数据集成产品页 并单击左侧的离线同步-数据源标签,进入数据源管理页面,如下图所示:
点击右上角的新增数据源,添加一个面向整库迁移的 MySQL 数据源clone_databae,点击测试连通性验证数据源访问正确无误后,确认并保存此数据源。如下图所示:
新增数据源成功后,即可在数据源列表中看到新增的 MySQL 数据源clone_databae。点击对应 MySQL 数据源后的“整库迁移”,即可进入对应数据源的整库迁移功能界面,如下图所示:
整库迁移界面主要分为3块功能区域,如下图所示:
- 待迁移表筛选区,此处将 MySQL 数据源 clone_databae 下所有数据库表以表格的形式展现出来,您可以根据实际需要批量选择待迁移的数据库表;
- 高级设置,此处提供了 MySQL 数据表和 MaxCompute 数据表的表名称、列名称、列类型的映射转换规则;
- 迁移模式、并发控制区,此处可以控制整库迁移的模式(全量、增量)、并发度配置(分批上次、整批上传)、提交迁移任务进度状态信息等。
5 . 点击“高级设置”按钮,您可以根据您具体需求选择转换规则。比如 MaxCompute 端建表时统一增加了 ods_ 这一前缀,如下图所示:
6 . 在迁移模式、并发控制区中,选择同步方式为”每日增量”,并配置增量字段为 gmt_modified,数据集成默认会根据您选择的增量字段生成具体每个任务的增量抽取where条件,并配合 DataWorks DataIde 调度参数比如 ${bdp.system.bizdate} 形成针对每天的数据抽取条件。如下图所示:
数据集成抽取 MySQL 库表的数据是通过 JDBC 连接远程 MySQL 数据库,并执行相应的 SQL 语句将数据从 MySQL 库中 SELECT 出来,由于是标准的 SQL 抽取语句,可以配置 WHERE 子句控制数据范围。此处您可以查看到增量抽取的 where 条件是:
STR_TO_DATE('${bdp.system.bizdate}', '%Y%m%d') <= gmt_modified AND gmt_modified < DATE_ADD(STR_TO_DATE('${bdp.system.bizdate}', '%Y%m%d'), interval 1 day)
为了对源头 MySQL 数据源进行保护,避免同一时间点启动大量数据同步作业带来数据库压力过大,此处选择分批上传模式,并配置从每日 0 点开始,每 1 小时 启动 3 个数据库表同步。最后,点击提交任务按钮,这里可以看到迁移进度信息,以及每一个表的迁移任务状态。
7 . 点击 a1 表对应的迁移任务,会跳转到数据集成的任务开发界面。如下图所示:
由上图可以看到源头 a1 表对应的 MaxCompute 表 odsa1 创建成功,列的名字和类型也符合之前映射转换配置。在左侧目录树 clone_database 目录下,会有对应的所有整库迁移任务,任务命名规则是: mysql2odps源表名,如上图红框部分所示。
8 . 此时我们便完成了将一个 MySQL 数据源 clone_databae 整库迁移到 MaxCompute 的工作。 这些任务会根据配置的调度周期(默认天调度)被调度执行,您也可以使用 DataWorks DataIde 调度补数据功能完成历史数据的传输。通过数据集成-整库迁移功能可以极大减少您初始化上云的配置、迁移成本,整库迁移a1表任务执行成功的日志如下图所示:
更多数据同步方法点击
https://yq.aliyun.com/articles/65376?spm=0.0.0.0.sjT1UY