E-Mapreduce如何处理RDS的数据

本文涉及的产品
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介:

一、引言

目前网站的一些业务数据存在数据库中,这些数据往往需要做进一步的分析,如:需要根据一些日志数据关联分析,或者需要进行一些如机器学习的分析。在阿里云上,目前E-Mapreduce能满足这种分析的需求。
在E-Mapredcue中操纵RDS中数据(这里以mysql为例),一般有三种方式,下面分别说明下。
为了实验,笔者创建了一个mysql的示例,创建了一个数据库school,在其中创建一个表student,并导入了一部分的数据。

二、从mysql导入到oss中,再启用e-mapreduce分析

从mysql导入到oss中,可以使用 数据集成这个产品。

1、 使用数据集成 把数据导入到OSS中(都是页面配置)
  • 进入数据集成的控制平台,创建一个Pipeline或者Ecs Pipeline
  • 在新创建的Pipeline中,新建作业。目前没有直接的页视图,可以直接使用JSON视图
  • 源类型选择Mysql,目标类型选择OSS,填写一些信息。再立即执行,脚本参考:
    {
        "type": "job",
        "traceId": "stream to stream job test",
        "version": "1.0",
        "configuration": {
            "setting": {},
            "reader": {
                "plugin": "mysql",
                "parameter": {
                    "instanceName": "rdst1234567890",
                    "database": "school",
                    "table": "student",
                    "splitPk": "",
                    "username": "hadoop",
                    "password": "hadoop",
                    "column": ["*"],
                    "where": ""
                }
            },
            "writer": {
                "plugin": "oss",
                "parameter": {
                    "endpoint": "http://oss-xxx",
                    "accessId": "your accessId",
                    "accessKey": "your accessKey",
                    "bucket": "your bucket",
                    "object": "your bucket,eg:   emr/school/student",
                    "writeMode": "truncate",
                    "encoding": "UTF-8",
                    "nullFormat": "",
                    "dateFormat": "",
                    "fieldDelimiter": ","
                }
            }
        }
    }
2、编写hive脚本

此部分可以参考文档:在Hive中使用OSS
特别如果想登陆到机器上执行hive脚本,一定要 sudo su hadoop到hadoop账户下或者新建一个账号。不要在root下操作。

三、通过sqoop导入mysql数据到HDFS中

目前E-Mapreduce镜像中没有直接提供sqoop,你可以登陆master机器,sudo su hadoop帐号下,再下载sqoop(master机器是可以访问互联网的)

  • 下载sqoop及mysql-connector-java,目前列出的地址可以访问,如果不能访问,请直接访问官方下载。
    //下载
    wget http://apache.fayea.com/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
    wget http://cdn.mysql.com//Downloads/Connector-J/mysql-connector-java-5.1.38.tar.gz
    //解压
    tar -xvf mysql-connector-java-5.1.38.tar.gz
    tar -xvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
    //把mysql-connector-java的jar拷贝到sqoop的lib中
    cp mysql-connector-java-5.1.38/mysql-connector-java-5.1.38-bin.jar sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/
  • 执行命令,拷贝数据。sqoop有很多的用法,大家可以看下sqoop官方文档,或者google。
     ./sqoop-1.4.6.bin__hadoop-2.0.4-alpha/bin/sqoop import  --connect jdbc:mysql://rdsmcnlgxxxxxxx.mysql.rds.aliyuncs.com:3306/school --username yourMysqlusername--password yourMysqlPassword --table student --hive-import --hive-table school.student --target-dir student
  • 查询下
    hive> select count(*) from student;
    Query ID = hadoop_20160408180707_a3326bcd-3a06-433c-94ba-002a29bb71ab
    840
    Time taken: 25.898 seconds, Fetched: 1 row(s)

四、可以直接连接mysql

这一步是需要写一些代码的,在代码中可以直接配置访问mysql。

package com.aliyun.emr;

import org.apache.spark.SparkConf;
import org.apache.spark.SparkContext;
import org.apache.spark.sql.DataFrameReader;
import org.apache.spark.sql.SQLContext;

/**
 * Hello world!
 */
public class VisitMysql {
    public static void main(String[] args) {
        String url = "jdbc:mysql://rdstxxxxxxxxxxxx.mysql.rds.aliyuncs.com:3306/school";
        SparkConf conf = new SparkConf();
        conf.setAppName("test");
        SparkContext sc = new SparkContext(conf);
        SQLContext sqlContext = new SQLContext(sc);
        DataFrameReader reader = sqlContext.read().format("jdbc");
        reader.option("url", url);
        reader.option("dbtable", "student");
        reader.option("driver", "com.mysql.jdbc.Driver");
        reader.option("user", "hadoop");
        reader.option("password", "hadoop");
        reader.load().show();
    }
}

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>com.aliyun.emr</groupId>
  <artifactId>examples</artifactId>
  <packaging>jar</packaging>
  <version>1.0-SNAPSHOT</version>
  <name>examples</name>
  <url>http://maven.apache.org</url>
  <dependencies>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.10</artifactId>
      <version>1.6.0</version>
    </dependency>
    <dependency>
      <groupId>com.aliyun.emr</groupId>
      <artifactId>emr-sdk_2.10</artifactId>
      <version>1.1.0</version>
    </dependency>
    <dependency>
      <groupId>mysql</groupId>
      <artifactId>mysql-connector-java</artifactId>
      <version>5.1.30</version>
    </dependency>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>3.8.1</version>
      <scope>test</scope>
    </dependency>
  </dependencies>
</project>

注意

RDS默认是拒绝访问的,所以需要在RDS中配置网络白名单。在数据安全性->添加白名单分组。
如果是使用数据集成,则需要配置数据集成的IP地址,如果是使用sqoop或者直接相连,则需要配置E-Mapreduce的白名单(这个可以在集群的详情页看到)


HBase技术交流社区 - 阿里官方“HBase生态+Spark社区大群”点击加入:https://dwz.cn/Fvqv066s

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
2月前
|
关系型数据库 MySQL Java
【MySQL+java+jpa】MySQL数据返回项目的感悟
【MySQL+java+jpa】MySQL数据返回项目的感悟
45 1
|
2月前
|
安全 关系型数据库 MySQL
如何将数据从MySQL同步到其他系统
【10月更文挑战第17天】如何将数据从MySQL同步到其他系统
209 0
|
2月前
|
SQL 前端开发 关系型数据库
全表数据核对 ,行数据核对,列数据核对,Mysql 8.0 实例(sample database classicmodels _No.3 )
全表数据核对 ,行数据核对,列数据核对,Mysql 8.0 实例(sample database classicmodels _No.3 )
53 0
全表数据核对 ,行数据核对,列数据核对,Mysql 8.0 实例(sample database classicmodels _No.3 )
|
2月前
|
关系型数据库 MySQL 数据库
mysql 里创建表并插入数据
【10月更文挑战第5天】
137 1
|
2月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
51 3
|
27天前
|
存储 Oracle 关系型数据库
【赵渝强老师】MySQL InnoDB的数据文件与重做日志文件
本文介绍了MySQL InnoDB存储引擎中的数据文件和重做日志文件。数据文件包括`.ibd`和`ibdata`文件,用于存放InnoDB数据和索引。重做日志文件(redo log)确保数据的可靠性和事务的持久性,其大小和路径可由相关参数配置。文章还提供了视频讲解和示例代码。
131 11
【赵渝强老师】MySQL InnoDB的数据文件与重做日志文件
|
27天前
|
缓存 NoSQL 关系型数据库
Redis和Mysql如何保证数据⼀致?
在项目中,为了解决Redis与Mysql的数据一致性问题,我们采用了多种策略:对于低一致性要求的数据,不做特别处理;时效性数据通过设置缓存过期时间来减少不一致风险;高一致性但时效性要求不高的数据,利用MQ异步同步确保最终一致性;而对一致性和时效性都有高要求的数据,则采用分布式事务(如Seata TCC模式)来保障。
58 14
|
1月前
|
SQL 前端开发 关系型数据库
SpringBoot使用mysql查询昨天、今天、过去一周、过去半年、过去一年数据
SpringBoot使用mysql查询昨天、今天、过去一周、过去半年、过去一年数据
54 9
|
2月前
|
SQL Java 关系型数据库
java连接mysql查询数据(基础版,无框架)
【10月更文挑战第12天】该示例展示了如何使用Java通过JDBC连接MySQL数据库并查询数据。首先在项目中引入`mysql-connector-java`依赖,然后通过`JdbcUtil`类中的`main`方法实现数据库连接、执行SQL查询及结果处理,最后关闭相关资源。
|
1月前
|
SQL 关系型数据库 MySQL
定时任务频繁插入数据导致锁表问题 -> 查询mysql进程
定时任务频繁插入数据导致锁表问题 -> 查询mysql进程
47 1