
MaxCompute技术支持
MaxCompute使用load overwrite或load into命令将外部存储的数据(如:oss)导入到MaxCompute前的授权操作。一.导入之前需要先对MaxCompute进行授权。当MaxCompute和OSS的Owner是同一个账号时,单击此处完成一键授权。(本文已此为例进行授权说明)当MaxCompute和OSS的Owner不是同一个账号时,需进行自定义授权,详情请参见STS模式授权二.由于OSS数据设置KMS加密,所以需要目标Bucket的文件访问权限。 否则报以下错误:解决方案:第一种方式:1.登陆RAM访问控制台,点击RAM角色管理2.搜索框搜索odps使用访问oss的角色AliyunODPSDefaultRole3.添加权限4.选择自定义策略权限。(前提要新建完成自定义策略,脚本模式配置可参考如下:){ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt" ], "Resource": [ "acs:kms:*:xxxxx:*"//示例表示具有当前所有KMS的解密权限。若要针对某个KMS密钥进行解密,此处可输入对应的CMK ID。 ] } ]}5.点击确定第二种方式:1.登陆RAM访问控制台,点击RAM角色管理2.搜索框搜索odps使用访问oss的角色AliyunODPSDefaultRole3.添加权限4.选择系统策略权限AliyunKMSFullAccess(管理密钥管理服务(KMS)的权限),管理KMS最大的权限可以选择使用5.点击确定三.验证结果最后本文实践主要说明使用load overwrite或load into命令将外部存储的数据(如:oss)导入到MaxCompute前的授权问题,如有需要进一步详细了解后续如何导入数据,请参见:LOAD大家如果对MaxCompute有更多咨询或者建议,欢迎扫码加入 MaxCompute开发者社区钉钉群,或点击链接 申请加入。
背景漏斗模型其实是通过产品各项数据的转化率来判断产品运营情况的工具。转化漏斗则是通过各阶段数据的转化,来判断产品在哪一个环节出了问题,然后不断优化产品。电商漏斗模型,用户购买商品的路径,从浏览商品到支付订单的每一个环节的转化。本文将展示从用户「浏览-点击-购买」环节做漏斗分析及展示。前提条件开通日志服务开通MaxCompute开通Dataworks开通Quick BI案例1.业务架构图2.业务流程通过阿里云日志服务采集日志数据。日志服务的数据同步至大数据计算服务MaxCompute。MaxCompute做离线计算。通过阿里云Quick BI进行数据可视化展示。3.准备工作将日志服务采集的数据增量同步到MaxCompute分区表中(本文案例以时间天为单位,展示每个环节的转化率)。具体步骤请参见:日志服务迁移至MaxCompute。并通过Dataworks设置定时调度执行,每天凌晨定时取前一天的数据,计算以天为单位的转化率漏斗图。详情见参见:调度参数表1. 日志源表:ods_user_trans_d表2. 创建ODS层表:ods_user_trace_data,相关数仓模型定义请参见:数据引入层(ODS)CREATE TABLE IF NOT EXISTS ods_user_trace_data ( md5 STRING COMMENT '用户uid的md5值前8位', uid STRING COMMENT '用户uid', ts BIGINT COMMENT '用户操作时间戳', ip STRING COMMENT 'ip地址', status BIGINT COMMENT '服务器返回状态码', bytes BIGINT COMMENT '返回给客户端的字节数', device_brand STRING COMMENT '设备品牌', device STRING COMMENT '终端型号', system_type STRING COMMENT '系统类型,Android、IOS、ipad、Windows_phone', customize_event STRING COMMENT '自定义事件:登录/退出/购买/注册/点击/后台/切换用户/浏览/评论', use_time BIGINT COMMENT 'APP单次使用时长,当事件为退出、后台、切换用户时有该项', customize_event_content STRING COMMENT '用户关注内容信息,在customize_event为浏览和评论时,包含该列' ) PARTITIONED BY ( dt STRING --以dt作为时间分区,单位为天。 );表3. 创建dw层表:dw_user_trace_data,相关数仓模型定义请参见:明细粒度事实层(DWD)CREATE TABLE IF NOT EXISTS dw_user_trace_data ( uid STRING COMMENT '用户uid', device_brand STRING COMMENT '设备品牌', device STRING COMMENT '终端型号', system_type STRING COMMENT '系统类型,Android、IOS、ipad、Windows_phone', customize_event STRING COMMENT '自定义事件:登录/退出/购买/注册/点击/后台/切换用户/浏览/评论', use_time BIGINT COMMENT 'APP单次使用时长,当事件为退出、后台、切换用户时有该项', customize_event_content STRING COMMENT '用户关注内容信息,在customize_event为浏览和评论时,包含该列' ) PARTITIONED BY ( dt STRING --以dt作为时间分区,单位为天。 );表4. 创建ADS层结果表:rpt_user_trace_data,相关数仓模型定义请参见:数仓分层CREATE TABLE IF NOT EXISTS rpt_user_trace_data ( browse STRING COMMENT '浏览量', click STRING COMMENT '点击量', purchase STRING COMMENT '购买量', browse_rate STRING COMMENT '浏览转化率', click_rate STRING COMMENT '点击转化量' ) PARTITIONED BY ( dt STRING --以dt作为时间分区,单位为天。 );4.编写业务逻辑 用户路径:浏览->点击->购买,各个环节的转化率(转化率 = 从当一个页面进入下一页面的人数比率)。insert OVERWRITE table rpt_user_trace_data PARTITION (dt=${bdp.system.bizdate}) SELECT browse as 浏览量 ,click as 点击量 ,purchase as 购买量 ,concat(round((click/browse)*100,2),'%') as 点击转化率 ,concat(round((purchase/click)*100,2),'%') as 购买转化率 from (SELECT dt,count(1) browse from dw_user_trace_data where customize_event='browse' and dt = ${bdp.system.bizdate} group by dt) a left JOIN (select dt,count(1) click from dw_user_trace_data where customize_event='click' and dt = ${bdp.system.bizdate} group by dt) b on a.dt=b.dt left JOIN (select dt,count(1) purchase from dw_user_trace_data where customize_event='purchase' and dt = ${bdp.system.bizdate} group by dt)c on a.dt=c.dt ;5.结果6.数据可视化展示通过Quick BI创建网站用户分析画像的仪表板,实现该数据表的可视化。详情请参见:Quick BI从上图中我们发现,浏览到点击中的业务量呈现了明显的缩减的趋势,转化率较低。分析到哪个环节是当前业务流程中的薄弱环节,可以帮助人们更加专注于薄弱环节提高整个流程的产出。进而提高整个流程的效率。测试数据根据上文介绍的漏斗模型的案例,阿里云为您提供了部分DEMO数据,您可以下载数据并根据上文示例完成整个案例的操作,从而得到您的漏斗模型图。数据如下:测试数据以上是关于如何使用MaxCompute并制作漏斗图的介绍。更多关于大数据计算、云数仓技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
背景漏斗模型其实是通过产品各项数据的转化率来判断产品运营情况的工具。转化漏斗则是通过各阶段数据的转化,来判断产品在哪一个环节出了问题,然后不断优化产品。电商漏斗模型,用户购买商品的路径,从浏览商品到支付订单的每一个环节的转化。本文将展示从用户「浏览-点击-购买」环节做漏斗分析及展示。前提条件开通日志服务开通MaxCompute开通Dataworks开通Quick BI案例1.业务架构图2.业务流程通过阿里云日志服务采集日志数据。日志服务的数据同步至大数据计算服务MaxCompute。MaxCompute做离线计算。通过阿里云Quick BI进行数据可视化展示。3.准备工作将日志服务采集的数据增量同步到MaxCompute分区表中(本文案例以时间天为单位,展示每个环节的转化率)。具体步骤请参见:日志服务迁移至MaxCompute。并通过Dataworks设置定时调度执行,每天凌晨定时取前一天的数据,计算以天为单位的转化率漏斗图。详情见参见:调度参数表1. 日志源表:ods_user_trans_d表2. 创建ODS层表:ods_user_trace_data,相关数仓模型定义请参见:数据引入层(ODS)CREATE TABLE IF NOT EXISTS ods_user_trace_data ( md5 STRING COMMENT '用户uid的md5值前8位', uid STRING COMMENT '用户uid', ts BIGINT COMMENT '用户操作时间戳', ip STRING COMMENT 'ip地址', status BIGINT COMMENT '服务器返回状态码', bytes BIGINT COMMENT '返回给客户端的字节数', device_brand STRING COMMENT '设备品牌', device STRING COMMENT '终端型号', system_type STRING COMMENT '系统类型,Android、IOS、ipad、Windows_phone', customize_event STRING COMMENT '自定义事件:登录/退出/购买/注册/点击/后台/切换用户/浏览/评论', use_time BIGINT COMMENT 'APP单次使用时长,当事件为退出、后台、切换用户时有该项', customize_event_content STRING COMMENT '用户关注内容信息,在customize_event为浏览和评论时,包含该列' ) PARTITIONED BY ( dt STRING --以dt作为时间分区,单位为天。 );表3. 创建dw层表:dw_user_trace_data,相关数仓模型定义请参见:明细粒度事实层(DWD)CREATE TABLE IF NOT EXISTS dw_user_trace_data ( uid STRING COMMENT '用户uid', device_brand STRING COMMENT '设备品牌', device STRING COMMENT '终端型号', system_type STRING COMMENT '系统类型,Android、IOS、ipad、Windows_phone', customize_event STRING COMMENT '自定义事件:登录/退出/购买/注册/点击/后台/切换用户/浏览/评论', use_time BIGINT COMMENT 'APP单次使用时长,当事件为退出、后台、切换用户时有该项', customize_event_content STRING COMMENT '用户关注内容信息,在customize_event为浏览和评论时,包含该列' ) PARTITIONED BY ( dt STRING --以dt作为时间分区,单位为天。 );表4. 创建ADS层结果表:rpt_user_trace_data,相关数仓模型定义请参见:数仓分层CREATE TABLE IF NOT EXISTS rpt_user_trace_data ( browse STRING COMMENT '浏览量', click STRING COMMENT '点击量', purchase STRING COMMENT '购买量', browse_rate STRING COMMENT '浏览转化率', click_rate STRING COMMENT '点击转化量' ) PARTITIONED BY ( dt STRING --以dt作为时间分区,单位为天。 );4.编写业务逻辑 用户路径:浏览->点击->购买,各个环节的转化率(转化率 = 从当一个页面进入下一页面的人数比率)。insert OVERWRITE table rpt_user_trace_data PARTITION (dt=${bdp.system.bizdate}) SELECT browse as 浏览量 ,click as 点击量 ,purchase as 购买量 ,concat(round((click/browse)*100,2),'%') as 点击转化率 ,concat(round((purchase/click)*100,2),'%') as 购买转化率 from (SELECT dt,count(1) browse from dw_user_trace_data where customize_event='browse' and dt = ${bdp.system.bizdate} group by dt) a left JOIN (select dt,count(1) click from dw_user_trace_data where customize_event='click' and dt = ${bdp.system.bizdate} group by dt) b on a.dt=b.dt left JOIN (select dt,count(1) purchase from dw_user_trace_data where customize_event='purchase' and dt = ${bdp.system.bizdate} group by dt)c on a.dt=c.dt ;5.结果6.数据可视化展示通过Quick BI创建网站用户分析画像的仪表板,实现该数据表的可视化。详情请参见:Quick BI从上图中我们发现,浏览到点击中的业务量呈现了明显的缩减的趋势,转化率较低。分析到哪个环节是当前业务流程中的薄弱环节,可以帮助人们更加专注于薄弱环节提高整个流程的产出。进而提高整个流程的效率。测试数据根据上文介绍的漏斗模型的案例,阿里云为您提供了部分DEMO数据,您可以下载数据并根据上文示例完成整个案例的操作,从而得到您的漏斗模型图。数据如下:测试数据以上是关于如何使用离线计算并制作漏斗图的介绍。更多关于大数据计算、云数仓技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
摘要:阿里巴巴技术专家张雅静为大家带来DataWorks数据集成与开源Sqoop的对比演讲。主要从介绍Sqoop开始谈起,接着详细介绍了DataWorks数据集成与开源Sqoop对比以及注意事项,然后着重说明了DataWorks数据集成并进行了实操演示,最后对全文进行了总结。 本次分享主要围绕以下四个方面:一、Sqoop简介二、DataWorks数据集成与开源Sqoop的对比及注意事项三、DataWorks数据集成的介绍四、数据集成与Sqoop对比总结 以下是精彩视频内容整理: 一、Sqoop简介 Sqoop是一款开源的数据同步工具,是Hadoop生态环境中数据迁移的首选。Sqoop即SQL to Hadoop,是一款方便的在传统型数据库(mysql、oracle)与Hadoop之间进行数据迁移的工具,充分利用MapReduce并行特点以批处理的方式加快数据传输,提供了很高的并行性能及良好的容错性,发展至今主要演化了二大版本,Sqoop1和Sqoop2。Sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive、hdfs、hbase之间数据的相互导入,可以使用全表导入和增量导入。 Sqoop的优势包括以下几方面:高效可控的利用资源,任务并行度,超时时间。数据类型映射与转化,可自动进行,用户也可自定义。支持多种主流数据库,MySQL,Oracle,SQL Server等等。 二、DataWorks数据集成与开源Sqoop对比以及注意事项 1. 处理方式DataWorks数据集成:底层是DataX进行数据的抽取及加载。数据通道通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(Reader)、数据写入插件(Writer),并基于此框架设计一套简化版的中间数据传输格式,从而实现任意结构化、半结构化数据源之间数据传输。Sqoop:Sqoop底层用MapReduce程序实现抽取,转换,加载。Sqoop根据输入条件,生成一个map-reduce的作业,在Hadoop的框架中运行。2. 支持数据源数据集成支持的数据源:任意数据源,任意格式,任意位置,任意复杂网络下的高效数据采集传输。具体包括以下几方面:关系数据库:MySQL,SQL Server,DRDS,POLARDB,HybridDB for MySQL,AnalyticDB for PostgreSQL,AnalyticDB for MySQL 2.0,AnalyticDB for MySQL 3.0,PostgreSQL,Oracle,DM 大数据存储:MaxCompute (ODPS),DataHub,Data Lake Analytics(DLA),Vertica,GBase8a,Hive,Hbase。半结构化:OSS,HDFS,FTP。NOSQL:MongoDB,Memcache (OCS),Redis,Table Store (OTS),GDB,Elasticsearch消息队列:LogHub (日志服务)实时:MySQL Binlog,Oracle (CDC)而Sqoop是Hadoop和关系型数据库(RDBMS)之间相互迁移的工具。支持Hive,Hbase,MySQL,Oracle。3. 资源问题DataWorks数据集成:可以通过开通独享数据集成资源组来解决数据同步过程中资源不足的问题。而Sqoop没有特定的资源划分。4. 开发模式DataWorks数据集成提供向导模式和脚本模式。如图所示,可以配置数据来源和数据去向,或者是利用脚本模式配置,而Sqoop提供命令行的模式。 5. 网络环境DataWorks数据集成网络类型包括经典网络、专有网络(VPC)和本地IDC网络:经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理由阿里云负责,更适合对网络易用性要求比较高的客户。IP地址由阿里云统一分配,配置简便,使用方便。专有网络:基于阿里云构建出一个隔离的网络环境。与在数据中心运行的传统网络相似,托管在VPC内的是私有云服务资源,比如云主机、负载均衡和云数据库,您可以完全掌控自己的虚拟网络,包括选择自有的IP地址范围,划分网段以及配置路由表、网关。专有网络构建了一个隔离的网络环境,您可以自定义IP地址范围、网段、网关等参数。也可以通过VPN或专线VPC以数据中心灵活部署混合云。适用于网络安全性比较高及有一定网络管理能力的用户。本地IDC网络而Sqoop是自身构建机房的网络环境。 注意事项 1. 添加安全组和白名单如果您使用的是ECS自建数据库,则必须添加安全组才能保证数据源连通性正常。如果您使用的是RDS数据源,必须添加白名单才能保证数据连通性正常。为保证数据库的安全稳定,在开始使用数据库的实例前,您需要将访问数据库的IP地址或IP段加到目标实例的白名单或安全组中。如何添加安全组?如果您的ECS上的自建数据源同步任务运行在自定资源组上,需要给自定资源组机器授权,将自定义机器内/外网的IP和端口添加到ECS安全组上。如果您的ECS上的自建数据源运行在默认的资源组上,需要给默认的机器授权。根据您的ECS的机器区域来选择添加您的安全组内容,例如您的ECS是华北2,安全组便添加华北2(北京):sg-2ze3236e8pcbxw61o9y0和1156529087455811内容,并且只能在华北2添加数据源。添加安全组首先要登录云服务器ECS的管理控制台。然后进入网络和安全——>安全组页面,选择目标区域。 找到要配置授权规则的安全组,单击操作列下的配置规则。 填写添加安全组规则对话框中的配置。如放行端口和授权对象等。 如何添加白名单?根据工作空间所在的区域选择相应的白名单。目前,部分数据源有白名单的限制,需要对数据集成的访问IP进行放行。例如,RDS、MongoDB和Redis等常见的数据源,需要在相应的控制台对下列IP进行开放。通常添加白名单有以下两种情况:(1)同步任务运行在自定资源组上,需要给自定资源组机器授权,将自定义机器内/外网IP添加数据源的白名单列表。(2)同步任务运行在默认资源组上,需要给底层运行机器授予访问权限,根据您选择DataWorks的区域来填写您需要添加的白名单,内容如上表所示。进入RDS控制台,在页面左上角,选择实例所在地域。找到目标实例,单击实例ID。在左侧导航栏中选择数据安全性。 2. 数据集成的网络连通数据同步之前需要打通数据库网络问题,可以通过高速通道打通跨地域、跨用户的VPC、内网或者物理专线连接实现云下的IDC接入云上。 三、 DataWorks数据集成介绍 阿里云重要的PaaS平台产品,为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。DataWorks为您提供全链路智能大数据及AI开发和治理服务。本文主要介绍数据集成服务,其他功能不一一介绍。DataWorks数据集成 数据集成是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力;包括20+种异构数据源,支持经典/专有等网络环境,同步任务调度和监控报警,支持多种同步方式。 离线(批量)的数据通道通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(Reader)、数据写入插件(Writer),并基于此框架设计一套简化版的中间数据传输格式,从而实现任意结构化、半结构化数据源之间数据传输。 独享资源组什么是独享资源组?使用独享资源组可以解决数据同步过程中的资源不足问题。不仅可以隔离用户间的资源使用,也可以隔离不同工作空间任务的资源使用。此外,独享资源也支持灵活的扩容、缩容功能,可以满足资源独享、灵活配置等需求。独享资源组可以访问在同一地域下的VPC数据源,同时也可以访问跨地域的公网RDS地址。怎么购买?DataWorks独享资源采用包年包月的方式购买,您可以通过产品详情页或新增独享资源两个入口进行购买:产品详情页入口进入DataWorks产品页面,单击独享资源组,即可跳转至购买页面。新增独享资源入口:登录DataWorks控制台。单击左侧导航栏中的资源组列表,默认进入独享资源组页面。如果您在该地域未购买过独享资源,单击新增独享资源组。在新增独享资源对话框中,单击订单号后的购买,即可跳转至购买页面。 进入购买页面后,请根据实际需要,选择相应的地域、独享资源类型、独享调度资源、资源数量和计费周期,单击立即购买。在资源组列表——>独享资源组页面,单击相应资源后的修改归属工作空间,绑定独享数据集成资源归属的工作空间。配置数据集成任务时,将默认资源组配置为需要的独享数据集成资源。通过向导模式配置任务时,在通道控制——>任务资源组下拉框中,选择相应的独享数据集成资源。脚本模式时,配置任务资源组下拉框中选择独享数据集成资源。 在您的任务没有把相应的独享资源组占满的前提下,可以保证您的任务及时得到响应。具备打通您的VPC、IDC的能力。而且,与默认资源组相比,支持更多类型的数据源。可以被多个DataWorks工作空间共享,实现资源的复用。特别说明,如果已经打通本地IDC和阿里云专有网络,您可以使用数据集成资源同步任务。请购买独享数据集成资源后,提交工单进行处理。独享数据集成资源组不支持跨区域的VPC数据库同步。如果需要在独享数据集成资源组上进行添加路由等操作,请提交工单进行申请。使用数据集成独享资源组时,请保证数据源自身所在机器可以被该资源组绑定的VPC访问。如果有安全拦截,请对相应的白名单放行,即在数据源侧的白名单添加该资源组绑定的VPC网段。 数据集成-全程可视化如图,从添加数据源到创建数据同步的节点,再到运维中心的监控,都是可以全程监控的。 四、总结 DataWorks数据集成和开源Sqoop都是解决异构环境的数据交换问题,都支持Oracle、Mysql、HDFS、Hive互相转换,对数据库的支持都是插件式的,对新增的数据源类型只需要开发一个插件就行了,Sqoop是工具,数据集成是产品,和DataWorks工作流无缝对接,构成一体化数据加工链路。DataWorks和Sqoop都支持离线数据同步,数据集成还支持实时同步,两者都支持全量增量的数据同步;DataWorks底层是DataX进行数据的抽取及加载,Sqoop底层是MapReduce程序实现抽取,转换,加载;DataWorks支持关系型数据库、大数据存储,半结构化,NOSQL,消息队列等,Sqoop是Hadoop和关系型数据库(RDBMS)之间相互迁移的工具;DataWorks支持独享资源组/自定义资源组,Sqoop没有特定的资源划分;DataWorks支持向导模式/脚本模式,Sqoop支持命令行模式;DataWorks支持经典网络、专有网络、本地IDC,Sqoop是自身构建机房的网络环境。 欢迎加入“MaxCompute开发者社区2群”,点击链接MaxCompute开发者社区2群申请加入或扫描二维码
MaxCompute可以通过数据集成加载不同数据源(例如:MySQL数据库等)数据,同样也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已经集成到DataWorks作为数据同步任务进行配置、运行。您可直接在DataWorks上配置MaxCompute数据源,再配置读取MaxCompute表或者写入MaxCompute表任务,数据的导入和导出整个过程只需在一个平台上进行操作。 DataWorks数据集成是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。支持跨经典网络、专有vpc网络的数据同步以及本地IDC的数据同步。还支持20+种异构数据源,包括关系型数据库、大数据存储、非结构化存储、NoSql数据库之间的数据同步。那么在使用DataWorks进行数据同步的过程中,源数据端和目的端数据源的网络连通性就尤为重要。本文主要描述数据集成的通用连通配置问题。 一.网络类型 经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理云负责,更适合对网络易用性要求比较高的客户。 专有网络VPC(Virtual Private Cloud):专有网络是您基于阿里云创建的自定义私有网络,不同的专有网络之间逻辑上彻底隔离。您可以在自己创建的专有网络内创建和管理云资源,例如ECS、SLB和RDS等。您也可以完全掌控自己的虚拟网络,包括选择自有的IP地址范围,划分网段以及配置路由表,网关。详情请参见:专有网络VPC 那么ECS 经典网络(Classic)和VPC专有网络特点和区别呢?• 经典网络:采用三层隔离,是一个共享的基础网络。网络里的ECS实例都在一个共同的生态环境里。如果将经典网络比喻为城市那么网络里的实例就相当于一条街道的房屋或楼宇。房屋配套的围墙和门锁用以提供安全防护,其中围墙相当于安全组,门锁相当于安全组规则。为避免黑客侵入您需要时常关注安全组状况,避免漏设,并防止权限控制漏洞,一旦马虎,黑客便会伺机攻击您的ECS实例。所以经典网络的安全防护高度依赖安全组的权限控制。并且非常忌讳将安全组授权对象设置为0.0.0.0/0这相当于对外不设防风险非常大。• 专有网络VPC:采用二层隔离是安全增强性网络,更是阿里云首推的独有的云上私有网络。网络里的实例都高度隔绝,相对于经典网络而言,VPC具有更高的安全性和灵活性。每组VPC相当于不同纬度的平行空间,空间之间既不会相交也不会重合,即使单个空间出现了问题也无法影响到其他的空间。即使您不小心忘记设置安全组规则,外人也无法踏足您的网络领域。要实现空间通信两组VPC之间需要建立高能量的高速通道才能通信。使用VPC还能帮您建立起精细的网络管理能力,通过建立虚拟交换机划分子网建立网络隔离机制。 本地IDC网络:您自身构建机房的网络环境,与阿里云网络隔离。 二.独享资源组和自定义资源组 独享资源组 独享资源组主要解决在数据同步过程中资源不足的问题,这时可以通过新增独享资源组的方式进行数据同步。独享资源模式下,机器的物理资源(网络、磁盘、CPU和内存等)完全独享。不仅可以隔离用户间的资源使用,也可以隔离不同工作空间任务的资源使用。此外,独享资源也支持灵活的扩容、缩容功能,可以满足资源独享、灵活配置等需求。独享资源组可以访问在同一地域下的VPC数据源,同时也可以访问跨地域的公网RDS地址。详情请参见:独享资源组 说明 •如果已经打通本地IDC和阿里云专有网络,您可以使用数据集成资源同步任务。请购买独享数据集成资源后,提交工单进行处理,详情请参见独享数据集成资源。 • 独享数据集成资源无法访问阿里云经典网络。如果您的数据源是经典网络,建议使用默认资源组进行同步任务运行。 • 独享数据集成资源组不支持跨区域的VPC数据库同步。 • 如果需要在独享数据集成资源组上进行添加路由等操作,请提交工单进行申请。 • 使用数据集成独享资源组时,请保证数据源自身所在机器可以被该资源组绑定的VPC访问。如果有安全拦截,请对相应的白名单放行,即在数据源侧的白名单添加该资源组绑定的VPC网段。 独享资源部署在DataWorks托管的专有网络(VPC)中,如果需要与您自己的专有网络连通,请进行专有网络绑定操作。具体步骤:• 进入DataWorks管理控制台,单击概览中的资源组列表。• 单击相应的资源后的专有网络绑定。 说明:绑定专有网络前,您需要进行RAM授权,让DataWorks拥有访问云资源的权限。 配置完成后,单击创建。 自定义资源组 DataWorks可以通过免费传输能力(默认任务资源组)进行海量数据上云,但默认资源组无法实现传输速度存在较高要求或复杂环境中的数据源同步上云的需求。您可以新增自定义资源组运行数据同步任务,解决DataWorks默认资源组与您的数据源不通的问题,或实现更高速度的传输能力。详情请参见:自定义资源组 复杂网络环境主要包含以下两种情况: (1)数据的来源端和目标端有一端为私网环境。• VPC环境(除RDS)<->公网环境• 金融云环境<->公网环境• 本地自建无公网环境<->公网环境 (2)数据的来源端和目标端均为私网环境。• VPC环境(除RDS)<->VPC环境(除RDS)• 金融云环境<->金融云环境• 本地自建无公网环境<->本地自建无公网环境• 本地自建无公网环境<->VPC环境(除RDS)• 本地自建无公网环境<->金融云环境 三.应用场景 本地IDC• 有公网• 无公网 ECS自建数据源• 有公网• 经典网络• 专有网络 阿里云产品• 实例模式添加数据源• 有公网• 经典网络• 专有网络 独享资源组应用场景 场景一:VPC数据源和DataWorks不在同一个地域。独享数据集成资源不支持跨VPC访问,如果您的数据源与DataWorks项目不在同一个地域,操作如下: 在DataWorks工作空间所在的地域创建一个专有网络。 使用云企业网等打通数据源所在专有网络和工作空间所在地域创建的专有网络。 购买与打通的专有网络同可用区的独享数据集成资源,并绑定已打通的专有网络。 提交工单,进行后续网络打通的处理。 场景二:VPC数据源和DataWork在同一个地域。VPC数据源需要使用独享数据集成资源同步任务,需要购买与数据源同可用区的独享数据集成资源,绑定数据源所在的专有网络。如果绑定后同步任务仍然执行失败,请加入专有网络的IP网段至数据源的访问许可内。 自定义资源组的应用场景 • 保证运行资源:由于集群共享默认资源组,会存在水位变高导致任务长时间等待的情况。如果您对任务有较高的资源使用需求,可以使用自定义资源组来自建任务运行集群。• 连通网络:由于默认资源组无法连通VPC环境下的数据库,您可以使用自定义资源组进行网络连通。• 用于调度资源组:调度槽位资源紧张的情况下,您可以使用自定义资源组。• 提升并发能力:默认资源组的运行槽位有限,您可以通过自定义资源组扩大槽位资源,允许更多的并发任务同时调度运行。 四.网络打通解决方案 • 云企业网使用场景示例,请参见云企业网。• 高速通道使用场景示例,请参见高速通道。• VPN网关使用场景示例,请参见VPN网关。 更多阿里巴巴大数据计算技术和产品信息,可点击链接加入 MaxCompute开发者社区2群https://h5.dingtalk.com/invite-page/index.html?bizSource=____source____&corpId=dingb682fb31ec15e09f35c2f4657eb6378f&inviterUid=E3F28CD2308408A8&encodeDeptId=0054DC2B53AFE745或扫码加入
2021年06月
2021年03月
2020年03月
2020年02月