618粉丝狂欢节来了,你的小邮局爆仓没有?

简介: 618大促马上来了,快递企业包裹量又要剧增了。数据显示,2017年全行业快件量会接近400亿件。 虽然各大快递公司都事先增加了人员、设备、仓库,提升了运能,但面临的压力仍旧空前。

免费开通大数据服务:https://www.aliyun.com/product/odps


618大促马上来了,快递企业包裹量又要剧增了。数据显示,2017年全行业快件量会接近400亿件。


虽然各大快递公司都事先增加了人员、设备、仓库,提升了运能,但面临的压力仍旧空前。


dda88dc9e05106807c1b8b90c5916e62092b1272


去年 618菜鸟凭借着强大的物流云仓储、计算能力斩获首单;

历史告诉我们,有些事情不要等发生了再干!

介绍神器前,我们先来看一下某互联网大数据企业使用洪荒之力后的收益

1.数据仓库迁移到阿里云MaxCompute后,流程上做了优化,省掉了编写MR程序的工作,日志数据全部通过SQL进行分析,效率提升了5倍以上。
2.存储方面,MaxCompute的表按列压缩存储,更节省存储空间,整体存储和计算的费用比之前省了70%,性能和稳定性也有很大提升。
3.可以借助MaxCompute上的机器学习算法,对数据进行深度挖掘,为用户提供个性化的服务。
4.阿里云MaxCompute提供更为易用、全面的大数据分析功能。MaxCompute可根据业务情况做到计算资源自动弹性伸缩,天然集成存储功能。通过简单的几项配置操作后,即可完成数据上传,同时实现了多种开源软件的对接。


接下来,我们给分析师宝宝们两件神器,TB级数据整库同步工具-数加大数据开发套件,海量数据存储及计算平台MaxCompute。

Z

神器介绍:

阿里云大数据计算服务MaxCompute https://www.aliyun.com/product/odps

阿里云大数据开发套件DataIDE https://data.aliyun.com/product/ide 


【如何发动洪荒之力】

ac9b99d2f6af34b7ee46f2dec88b8552265ec446


数加大数据开发套件中的整库迁移是为了提升用户效率、降低用户使用成本的一种快捷工具,它可以快速完成用户把一个 Mysql DB 库内所有表一并上传到 MaxCompute 的工作。


本文将通过实践操作,为大家介绍如何使用整库迁移功能,完成 MySQL 数据整库迁移到 MaxCompute。具体步骤如下:

  1. 登录到数加 数据集成产品页 并单击左侧的离线同步-数据源标签,进入数据源管理页面,如下图所示:

    1

  2. 点击右上角的新增数据源,添加一个面向整库迁移的 MySQL 数据源clone_databae,点击测试连通性验证数据源访问正确无误后,确认并保存此数据源。如下图所示:

    1

  3. 新增数据源成功后,即可在数据源列表中看到新增的 MySQL 数据源clone_databae。点击对应 MySQL 数据源后的“整库迁移”,即可进入对应数据源的整库迁移功能界面,如下图所示:

    1

  4. 整库迁移界面主要分为3块功能区域,如下图所示:

    1

  • 待迁移表筛选区,此处将 MySQL 数据源 clone_databae 下所有数据库表以表格的形式展现出来,您可以根据实际需要批量选择待迁移的数据库表;
  • 高级设置,此处提供了 MySQL 数据表和 MaxCompute 数据表的表名称、列名称、列类型的映射转换规则;
  • 迁移模式、并发控制区,此处可以控制整库迁移的模式(全量、增量)、并发度配置(分批上次、整批上传)、提交迁移任务进度状态信息等。

5 . 点击“高级设置”按钮,您可以根据您具体需求选择转换规则。比如 MaxCompute 端建表时统一增加了 ods_ 这一前缀,如下图所示:

1

6 . 在迁移模式、并发控制区中,选择同步方式为”每日增量”,并配置增量字段为 gmt_modified,数据集成默认会根据您选择的增量字段生成具体每个任务的增量抽取where条件,并配合 DataWorks DataIde 调度参数比如 ${bdp.system.bizdate} 形成针对每天的数据抽取条件。如下图所示:

1

数据集成抽取 MySQL 库表的数据是通过 JDBC 连接远程 MySQL 数据库,并执行相应的 SQL 语句将数据从 MySQL 库中 SELECT 出来,由于是标准的 SQL 抽取语句,可以配置 WHERE 子句控制数据范围。此处您可以查看到增量抽取的 where 条件是:

 
  1. STR_TO_DATE('${bdp.system.bizdate}', '%Y%m%d') <= gmt_modified AND gmt_modified < DATE_ADD(STR_TO_DATE('${bdp.system.bizdate}', '%Y%m%d'), interval 1 day)

为了对源头 MySQL 数据源进行保护,避免同一时间点启动大量数据同步作业带来数据库压力过大,此处选择分批上传模式,并配置从每日 0 点开始,每 1 小时 启动 3 个数据库表同步。最后,点击提交任务按钮,这里可以看到迁移进度信息,以及每一个表的迁移任务状态。

7 . 点击 a1 表对应的迁移任务,会跳转到数据集成的任务开发界面。如下图所示:

1

由上图可以看到源头 a1 表对应的 MaxCompute 表 odsa1 创建成功,列的名字和类型也符合之前映射转换配置。在左侧目录树 clone_database 目录下,会有对应的所有整库迁移任务,任务命名规则是: mysql2odps源表名,如上图红框部分所示。

8 . 此时我们便完成了将一个 MySQL 数据源 clone_databae 整库迁移到 MaxCompute 的工作。 这些任务会根据配置的调度周期(默认天调度)被调度执行,您也可以使用 DataWorks DataIde 调度补数据功能完成历史数据的传输。通过数据集成-整库迁移功能可以极大减少您初始化上云的配置、迁移成本,整库迁移a1表任务执行成功的日志如下图所示:

1



更多数据同步方法点击  

https://yq.aliyun.com/articles/65376?spm=0.0.0.0.sjT1UY


c35f8419f39373be2b6c7b53c4b6c38757999e8b

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
JavaScript 前端开发 安全
【How To 系列】好友裂变平台搭建
本期 How To 系列,码匠将带领大家搭建一个好友裂变平台,希望对您的工作有所帮助。
237 0
【How To 系列】好友裂变平台搭建
|
搜索推荐 视频直播 双11
春晚与微博成“老夫老妻”,社交媒体为何从不缺席?
春晚与微博成“老夫老妻”,社交媒体为何从不缺席?
127 0
春晚与微博成“老夫老妻”,社交媒体为何从不缺席?
原金立总裁卢伟冰加入小米,雷军发微博欢迎
国内有媒体认为其有可能会担任副总裁的职位,并且负责小米的海外市场业务。
670 0
|
Java API 开发者
[阿里大鱼] 发短信!
[阿里大鱼] 发短信!
10257 0
收废品的大生意,我爱收获天使轮融资
我爱收成立于2017年,是一家以智能设备终端形式切入的再生资源回收平台,目前以纸回收业务为主。
551 0
好友辞职的一些想法
换公司是说我的一个同事,即将辞职换一家新的公司,做了4年同学,大半年的同事,想提供一些最后的想法与建议。 他也是公司的初创成员之一,暂时离开公司并不代表人的能力有很大的问题,只好说是相互不合适,一些不太适合的点,我再提一次,希望在新的公司不存在这些问题,让自己做的更好。
909 0

相关产品

  • 云原生大数据计算服务 MaxCompute