AWS Data Pipeline调研-阿里云开发者社区

AWS Data Pipeline调研

2022-09-28 282

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，20GB 3个月

对象存储 OSS，恶意文件检测 1000次 1年

对象存储 OSS，内容安全 1000次 1年

简介： AWS Data Pipeline是AWS提供的一项用于在不同计算和存储服务之间大规模传输、转换和处理数据的Web服务。利用AWS Data Pipeline，用户在不用关心计算存储网络等资源的情况下轻松创建出高可用的复杂数据处理任务，可以定期地读取并处理用户存储在AWS上的数据，最终高效地将计算结果传输到如 Amazon S3、Amazon RDS、Amazon DynamoDB 和 Amazon EMR等各种AWS服务中。

AWS Data Pipeline是AWS提供的一项用于在不同计算和存储服务之间大规模传输、转换和处理数据的Web服务。利用AWS Data Pipeline，用户在不用关心计算存储网络等资源的情况下轻松创建出高可用的复杂数据处理任务，可以定期地读取并处理用户存储在AWS上的数据，最终高效地将计算结果传输到各种AWS服务中。借助AWS Data Pipeline，用户不用关系任务间的依赖关系、任务的故障或者超时重试以及在出错时的故障通知系统等问题，并且可以传输和处理之本地数据孤岛中锁定的数据。

AWS Data Pipeline支持的数据输入和输出位置包括Amazon DynamoDB、Amazon Redshift、Amazon S3以及SQL数据表，其中SQL数据表不仅可以是Amazon的RDS数据库，还支持JDBC协议的各种数据库。Data Pipeline支持的数据活动包括复制活动、SQL查询活动、Hive查询活动、在 Amazon EMR 集群上运行 Pig 脚本以及运行自定义 UNIX/Linux shell 命令。

本文以一个导出DynamoDB数据到S3的示例来介绍一下AWS Data Pipeline的使用和常用功能。

准备工作

创建一个DynamoDB表

创建一个名为SLS-user的DynamoDB表，并给其中写入一些数据。

创建IAM的策略和角色

为了将DynamoDB中的数据传输到S3中，还需创建两个IAM角色和需要的策略。

在IAM创建角色的页面，搜索Data Pipeline，选择Data Pipeline，创建一个名为sls-data的角色。

在IAM创建角色的页面，选择EC2，在下一步添加权限的时候搜索AmazonEC2RoleforDataPipelineRole，选中后创建一个名为sls-ec2-role的角色。

在EC2控制台上，选中EC2实例，在Actions->Security->Modify IAM role中选择sls-ec2-role这个角色。

创建一个S3 Bucket

选择跟DynamoDB相同的Region，取消勾选Block all public access，其余保持默认。

给上面创建的Bucket添加下面的访问策略，注意替换123456789为您的账户ID，以及角色名称和Bucket的ARN也需要替换为正确的名称。

{

"Version": "2012-10-17",

"Statement": [

{

"Sid": "PublicReadGetObject",

"Effect": "Allow",

"Principal": {

"AWS": [

"arn:aws:iam::123456789:role/sls-data",

"arn:aws:iam::123456789:role/sls-ec2-role"

]

"Action": [

"s3:PutObject",

"s3:GetObject"

"Resource": [

"arn:aws:s3:::sls-user-data/*"

]

}

]

}

Data Pipeline使用

创建一个管道

进入AWS Data Pipeline的控制台，创建一个数据管道。参数的配置如下，source选择Export DynamoDB table to S3，输入表名，选择创建的S3的Bucket，注意下面的区域需要选择DynamoDB表所在的区域。本示例中调度类型选择的是管道激活，最后选择上面创建的两个角色即可完整任务的创建。