618粉丝狂欢节来了，你的小邮局爆仓没有？

2017-01-17 4618

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 618大促马上来了，快递企业包裹量又要剧增了。数据显示，2017年全行业快件量会接近400亿件。虽然各大快递公司都事先增加了人员、设备、仓库，提升了运能，但面临的压力仍旧空前。

免费开通大数据服务：https://www.aliyun.com/product/odps

618大促马上来了，快递企业包裹量又要剧增了。数据显示，2017年全行业快件量会接近400亿件。

虽然各大快递公司都事先增加了人员、设备、仓库，提升了运能，但面临的压力仍旧空前。

去年 618菜鸟凭借着强大的物流云仓储、计算能力斩获首单；

历史告诉我们，有些事情不要等发生了再干！

介绍神器前，我们先来看一下某互联网大数据企业使用洪荒之力后的收益

1.数据仓库迁移到阿里云MaxCompute后，流程上做了优化，省掉了编写MR程序的工作，日志数据全部通过SQL进行分析,效率提升了5倍以上。
2.存储方面，MaxCompute的表按列压缩存储，更节省存储空间，整体存储和计算的费用比之前省了70%，性能和稳定性也有很大提升。

3.可以借助MaxCompute上的机器学习算法，对数据进行深度挖掘，为用户提供个性化的服务。
4.阿里云MaxCompute提供更为易用、全面的大数据分析功能。MaxCompute可根据业务情况做到计算资源自动弹性伸缩，天然集成存储功能。通过简单的几项配置操作后，即可完成数据上传，同时实现了多种开源软件的对接。

接下来，我们给分析师宝宝们两件神器，TB级数据整库同步工具-数加大数据开发套件，海量数据存储及计算平台MaxCompute。

神器介绍：

阿里云大数据计算服务MaxCompute https://www.aliyun.com/product/odps

阿里云大数据开发套件DataIDE https://data.aliyun.com/product/ide

【如何发动洪荒之力】

数加大数据开发套件中的整库迁移是为了提升用户效率、降低用户使用成本的一种快捷工具，它可以快速完成用户把一个 Mysql DB 库内所有表一并上传到 MaxCompute 的工作。

本文将通过实践操作，为大家介绍如何使用整库迁移功能，完成 MySQL 数据整库迁移到 MaxCompute。具体步骤如下：

登录到数加数据集成产品页并单击左侧的离线同步-数据源标签，进入数据源管理页面，如下图所示：
点击右上角的新增数据源，添加一个面向整库迁移的 MySQL 数据源clone_databae，点击测试连通性验证数据源访问正确无误后，确认并保存此数据源。如下图所示：
新增数据源成功后，即可在数据源列表中看到新增的 MySQL 数据源clone_databae。点击对应 MySQL 数据源后的“整库迁移”，即可进入对应数据源的整库迁移功能界面，如下图所示：
整库迁移界面主要分为3块功能区域，如下图所示：

待迁移表筛选区，此处将 MySQL 数据源 clone_databae 下所有数据库表以表格的形式展现出来，您可以根据实际需要批量选择待迁移的数据库表；
高级设置，此处提供了 MySQL 数据表和 MaxCompute 数据表的表名称、列名称、列类型的映射转换规则；
迁移模式、并发控制区，此处可以控制整库迁移的模式（全量、增量）、并发度配置（分批上次、整批上传）、提交迁移任务进度状态信息等。

5 . 点击“高级设置”按钮，您可以根据您具体需求选择转换规则。比如 MaxCompute 端建表时统一增加了 ods_ 这一前缀，如下图所示：

6 . 在迁移模式、并发控制区中，选择同步方式为”每日增量”，并配置增量字段为 gmt_modified，数据集成默认会根据您选择的增量字段生成具体每个任务的增量抽取where条件，并配合 DataWorks DataIde 调度参数比如 ${bdp.system.bizdate} 形成针对每天的数据抽取条件。如下图所示：

数据集成抽取 MySQL 库表的数据是通过 JDBC 连接远程 MySQL 数据库，并执行相应的 SQL 语句将数据从 MySQL 库中 SELECT 出来，由于是标准的 SQL 抽取语句，可以配置 WHERE 子句控制数据范围。此处您可以查看到增量抽取的 where 条件是:


 
 

  
  STR_TO_DATE('${bdp.system.bizdate}', '%Y%m%d') <= gmt_modified AND gmt_modified < DATE_ADD(STR_TO_DATE('${bdp.system.bizdate}', '%Y%m%d'), interval 1 day)

为了对源头 MySQL 数据源进行保护，避免同一时间点启动大量数据同步作业带来数据库压力过大，此处选择分批上传模式，并配置从每日 0 点开始，每 1 小时启动 3 个数据库表同步。最后，点击提交任务按钮，这里可以看到迁移进度信息，以及每一个表的迁移任务状态。

7 . 点击 a1 表对应的迁移任务，会跳转到数据集成的任务开发界面。如下图所示:

由上图可以看到源头 a1 表对应的 MaxCompute 表 odsa1 创建成功，列的名字和类型也符合之前映射转换配置。在左侧目录树 clone_database 目录下，会有对应的所有整库迁移任务，任务命名规则是: mysql2odps源表名，如上图红框部分所示。

8 . 此时我们便完成了将一个 MySQL 数据源 clone_databae 整库迁移到 MaxCompute 的工作。这些任务会根据配置的调度周期（默认天调度）被调度执行，您也可以使用 DataWorks DataIde 调度补数据功能完成历史数据的传输。通过数据集成-整库迁移功能可以极大减少您初始化上云的配置、迁移成本，整库迁移a1表任务执行成功的日志如下图所示:

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps