美柚与MaxCompute数据同步架构说明

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 美柚与MaxCompute数据同步架构说明

大美柚与MaxCompute数据同步架构说明

            2017/8/10   九戒
AI 代码解读

本文涉及到的重要概念:

  • MaxCompute:简单可以理解为开源的hadoop集群,可提供我们常用的MapReduce和SQL计算模型和数据存储.
  • 数加:基于MaxCompute之上封装的便于我们使用和管理MaxCompute的一个壳
  • ECS:阿里的云服务器
  • tunnelServer:用于和MaxCompute上传下载的数据通道
  • Datax:是一个异构数据源离线同步工具,Datax的odps插件底层基于tunnel SDK实现.
  • 默认资源:数加提供的用于运行Datax的服务器资源(常用于和MaxCompute之间的数据同步),目前只有在华东2区(上海)有机器
  • 自定义资源:我们提供的用于运行Datax的服务器资源,目前我们只有华北2区(北京)2台ECS
  • 专线:目前北京机房和北京ECS(华北2区)通专线,简单理解就是北京机房和北京ECS同属一个局域网,让两个机房间的通讯更稳定,快速.
  • 端口转发:简单的理解,一个网络端口,转发到另一个网络端口上(我们常用的是:从外网的某个端口转发到内网的某台机器的某个端口,这里是指从ECS的外网端口,转发到北京机房的某台机器的某个端口).
  • MaxCompute上传收费:上传不收费
  • MaxCompute下载收费:通过公网下载收费,是指MaxCompute到datax这个过程,我们在使用自定义资源的时候需在odps那端(reader)要使用"tunnelServer": "http://dt-ext.nu16.odps.aliyun-inc.com",这个配置才能走MaxCompute专线,且不收费,默认是走公网需要收费,这点大家要特别注意一下

敲黑板

在使用自定义资源与MaxCompute做数据同步任务,务必在odps端加上"tunnelServer": "http://dt-ext.nu16.odps.aliyun-inc.com",配置.免费且能提升同步速度

网络拓扑图

既然数加提供了默认资源为什么我们还要使用自定义资源?

目前默认资源只在华东2区有,而我们大部分的数据和机器在北京,只能通过公网进行数据同步,网络延迟比较大(33ms),且不稳定,经常出现time out情况.且默认资源会限速,而我们需要上传的日志量比较大,数据延迟会比较大,不能很好的满足业务需求.

为什么自定义资源放在华北2区?

因为我们北京机房和华北2区有专线连接,方便与北京机房的机器做数据同步

使用自定义资源给我们带来了什么好处?

  1. 华北2区的自定义资源可以通过MaxCompute专线(需要在任务里配置tunnelServer)连接MaxCompute服务,比通过公网连接更稳定,更快.
  2. 另一端,自定义资源和北京机房或北京ECS是通过专线或内网连接,网络也比公网更有保障.

总结一下怎么选择资源组

  1. 如果MaxCompute和华东区的ECS的数据同步,请选用默认资源
  2. 如果MaxCompute和(华北ECS或者北京机房)的数据同步有两种方式:
    • 通过自定义资源(如果操作见下文)
    • 通过华北ECS做端口转发:只需将北京机房对应机器的端口(一般是22端口),转发到ECS出口的某个端口(例如21222),然后使用默认资源,使用ECS的外网ip和端口就可以了.

什么时候用自定义资源?什么时候用端口转发?

  1. 对网络延迟比较敏感的用自定义资源(例如数据要写到北京ECS或机房上mysql,如果使用默认资源,容易报错,连接超时)
  2. 对网络延迟不那么敏感,且数据量不是很大的,可通过端口转发的方式进行数据同步,通过端口转发方式能满足需求的尽量使用这种方式,以免自定义资源负载过高.

    怎么使用自定义资源?

  3. 项目配置自定义资源组:一个项目只需要配置一次,而且只有项目owner才有权限(这个不需要大家操作)
  4. 配置数据源:由项目管理员配置(一般来说一台服务器只需要配置一次),需要配置数据源服务器的内网地址,因此datax通过内网地址读写,更快速,稳定; 此时不需要测试连接,因为测试连接是通过默认资源发起的测试,所以网络不通.
  5. 编写数据同步任务:只是数据源需要用第2步配置的数据源
  6. 修改任务的资源组:见下图步骤
  7. 运行: 这里只对新生成的实例生效,例如测试运行或补数据;而之前生成的实例,还是会用默认资源,会导致失败.

最后的废话

其实使用默认资源也是以上的这些步骤,只是有些步骤是默认值,不需要更改,例如:

  1. 项目配置资源组(数加项目生成的时候,就已经有了默认资源组,不需要我们额外配置)
  2. 配置数据源(默认有odps_first,指该odps项目),我们自己的数据源同样需要配置
  3. 编写数据同步任务(一样)
  4. 修改任务的资源组(默认值是默认资源组,无需修改)
  5. 运行数据同步任务(一样)

在实际使用过程中,出现失败的话,多思考一下:

数据同步基于datax , 是通过datax到reader数据源抽取数据,在通过writer数据源写数据,
多思考一下网络方面的原因:例如防火墙,mysql的白名单,账号是否有权限等等.

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
0
0
0
78898
分享
相关文章
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
19章构建企业级大数据平台:从架构设计到数据治理的完整链路
开源社区: 贡献者路径:从提交Issue到成为Committer 会议演讲:通过DataWorks Summit提升影响力 标准制定: 白皮书撰写:通过DAMA数据治理框架认证 专利布局:通过架构设计专利构建技术壁垒
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
“一上来就搞大数据架构?等等,你真想清楚了吗?”
“一上来就搞大数据架构?等等,你真想清楚了吗?”
25 1
从大数据时代变迁到数据架构师的精通之路
无论从事何种职业,自学能力都显得尤为重要。为了不断提升自己,我们可以尝试建立一套个性化的知识目录或索引,通过它来发现自身的不足,并有针对性地进行学习。对于数据架构师而言,他们需要掌握的知识领域广泛而深入,不仅包括硬件、网络、安全等基础技术,还要了解应用层面,并熟练掌握至少一门编程语言。同时,深入理解数据库技术、具备大数据实操经验以及精通数据仓库建模和ELT技术也是必不可少的。只有这样,数据架构师才能具备足够的深度和广度,应对复杂的业务和技术挑战。 构建个人知识体系是数据架构师在学习和工作中的一项重要任务。通过系统化、不断深化的知识积累,数据架构师能够有效应对快速变化的商业环境和技术革新,进一
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡故障排除与解决方案
本文深入探讨 MySQL 集群架构负载均衡的常见故障及排除方法。涵盖请求分配不均、节点无法响应、负载均衡器故障等现象,介绍多种负载均衡算法及故障排除步骤,包括检查负载均衡器状态、调整算法、诊断修复节点故障等。还阐述了预防措施与确保系统稳定性的方法,如定期监控维护、备份恢复策略、团队协作与知识管理等。为确保 MySQL 数据库系统高可用性提供全面指导。
【赵渝强老师】大数据主从架构的单点故障
大数据体系架构中,核心组件采用主从架构,存在单点故障问题。为提高系统可用性,需实现高可用(HA)架构,通常借助ZooKeeper来实现。ZooKeeper提供配置维护、分布式同步等功能,确保集群稳定运行。下图展示了基于ZooKeeper的HDFS HA架构。
177 0
网易游戏 x Apache Doris:湖仓一体架构演进之路
网易游戏 Apache Doris 集群超 20 个 ,总节点数百个,已对接内部 200+ 项目,日均查询量超过 1500 万,总存储数据量 PB 级别。
网易游戏 x Apache Doris:湖仓一体架构演进之路
别光堆数据,架构才是大数据的灵魂!
别光堆数据,架构才是大数据的灵魂!
164 13
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
838 1

相关产品

  • 云原生大数据计算服务 MaxCompute
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等