E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎。EMR计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK、专有云平台。
产品优势
开源生态:提供高性能、稳定版本Hadoop、Spark、Hive、Flink、Kafka、HBase、Presto、Impala、Hudi等开源大数据组件,客户可根据场景灵活搭配使用
引擎优化:多引擎性能优化,如Spark SQL较开源版本提升6倍。采用JindoFS+OSS,保证数据可靠性基础上,性能大幅提升
便捷运维:在阿里云控制台和OpenAPI方便地对集群、节点和服务进行监控和运维操作。助您大幅提升运维工作效率,让数据工程师更专注于业务开发
节约成本:集群资源可自动按需匹配,您只需要按实际使用量付费,减少资源浪费成本。支持阿里云抢占式实例、预留实例券(RI),进一步降低成本
弹性资源:可以灵活调整集群资源,在数分钟内创建出基于云服务器 ECS、容器 ACK的集群,快速响应业务需求
安全可靠:通过 VPC 和安全组设置集群网络安全策略,支持Kerberos身份认证和数据加密,使用Ranger数据访问控制。支持数据加密,保证数据安全
1.登录成功后进入阿里云控制台首页。
2.点击左侧菜单,输入关键词“emr”,点击 E-MapReduce 进入管理页面。
3.在E-MapReduce控制台页面上方,选择资源所在地域。
说明:您可以在云产品资源列表中查看到您的E-MapReduce资源所在地域。
4.在E-MapReduce控制台页面的集群列表区域,单击您的集群名/ID。
说明:您可以在云产品资源列表中查看到您的E-MapReduce集群名/ID。
5.集群基础信息页面的主机信息区域,复制MASTER的节点的公网ip地址。
- 打开远程桌面终端LxShell
- 在终端中输入连接命令ssh root@[ipaddress]。您需要将[ipaddress]替换成第3步中复制公网地址,例如:ssh root@xxx.xxx.xxx.xxx
- 输入 yes。
- 同意继续后将会提示输入登录密码。
- 执行如下命令,创建HDFS目录。
hdfs dfs -mkdir -p /data/student
- 上传文件到hadoop文件系统。 hdfs dfs -put u.txt /data/student
- 查看文件。hdfs dfs -ls /data/student
- 执行hive命令,登录hive数据库。
- 创建user表。
CREATE TABLE emrusers (
userid INT,
movieid INT,
rating INT,
unixtime STRING )
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
;
- 执行如下命令,从hadoop文件系统加载数据到hive数据表。
LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers; - 查看5行表数据。
select * from emrusers limit 5;
- 查询数据表中有多少条数据。
select count(*) from emrusers;
- 查询数据表中评级最高的三个。
select movieid,sum(rating) as rat from emrusers group by movieid order by rat desc limit 3;