1、基于EMR离线数据分析
(1)创建资源
(2)登陆集群
1)进入开源大数据平台E-MapReduce


2)在终端中登录该公网IP
(3)上传数据到HDFS
1)创建HDFS目录hdfs dfs -mkdir -p /data/student
2)上传文件到hadoop文件系统
(4)使用hive创建表
1)登录hive数据库hive
2)创建user表
3)从hadoop文件系统加载数据到hive数据表
LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;
(5)对表进行操作
1) 查看5行表数据
select * from emrusers limit 5;
2)询数据表中有多少条数据
select count(*) from emrusers;
3)查询数据表中评级最高的三个电影
select movieid,sum(rating) as rat from emrusers group by movieid order by rat desc limit 3;
2、使用阿里云Elasticsearch快速搭建智能运维系统
(1)创建资源
(2)登录集群
https://elasticsearch-cn-hangzhou.console.aliyun.com
(3)登录Kibana,开启自动创建索引功能
1)在集群管理中,修改实例配置,开启Kibana私网访问后,单击公网入口进行登录。
2)在Console页签下,执行如下命令,开启阿里云ES实例的自动创建索引功能
PUT _cluster/settings
{
"persistent": {
"action.auto_create_index": "true"
}
}
(4)使用Metricbeat采集ECS上的系统数据
1)阿里云Elasticsearch管理控制台,单击Beats数据采集 > 创建采集器;
2)在创建采集器窗口中,单击Metricbeat,在采集器配置向导中,输入或选择采集器信息,复制左侧云产品资源列表下的Elasticsearch登录名和Elasticsearch登录密码,至用户名密码。
3)在metricbeat.yml中末尾添加如下脚本
metricbeat.modules:
module: system
metricsets:- cpu
- load
- memory
- network
- process
- process_summary
- uptime
- socket_summary
- core
- diskio
- filesystem
- fsstat
enabled: true
period: 10s
processes: ['.*']
cpu.metrics: ["percentages"]
core.metrics: ["percentages"]
4)启动采集器并查看采集器安装情况
(5)使用Filebeat采集ECS上的Nginx服务数据
1)返回阿里云Elasticsearch管理控制台 > Beats数据采集中心;
2)在采集器配置向导中,输入或选择采集器信息;
3)在filebeat.yml中更改脚本:在第24行enabled更改为true。在第28行更改paths:- /var/log/nginx/*.log
4)选择采集器安装的ECS实例,启动采集器并查看采集器安装情况。