基于EMR离线数据分析 -学习报告
登录Kibana,开启自动创建索引功能
在右侧概览页面Elasticsearch区域中,单击集群管理。
在Elasticsearch实例列表中,单击实例ID。
在左侧导航栏,选择配置与管理 > 可视化控制。
在Kibana区域中,单击修改配置。
开启Kibana私网访问,此变更过程需等待3-5分钟。
返回上级页面,在Kibana区域中,单击公网入口。
复制左侧云产品资源列表下的Elasticsearch登录名和Elasticsearch登录密码,至Kibana登录页面的账号和密码,单击登录。
在登录成功页面,单击Explore on my own。
在左侧导航栏,单击Dev Tools(开发工具),再单击Go to work。
在Console页签下,执行如下命令,开启阿里云ES实例的自动创建索引功能。
PUT _cluster/settings
{
"persistent": {
"action.auto_create_index": "true"
}
}
开启成功后,结果如下。
使用Metricbeat采集ECS上的系统数据
返回阿里云Elasticsearch管理控制台,单击Beats数据采集 > 创建采集器。
在创建采集器窗口中,单击Metricbeat。
在系统弹出的确定服务授权对话框,单击确认,授权创建服务关联角色。
在采集器配置向导中,输入或选择采集器信息,复制左侧云产品资源列表下的Elasticsearch登录名和Elasticsearch登录密码,至用户名密码。
在metricbeat.yml中末尾添加如下脚本,单击下一步。
选择采集器安装的ECS实例。
启动采集器并查看采集器安装情况,此生效过程需等待3~5分钟。
单击启动。启动成功后,系统弹出启动成功对话框。
单击前往采集中心查看,在采集器管理区域中,查看启动成功的Metricbeat采集器,等待采集器状态变为已生效1/1。
返回Kibana页面,在左侧导航栏,单击Dev Tools(开发工具)。
在Console页签下,执行如下命令,查看索引。
GET _cat/indices?v
索引创建成功后,结果如下。
在左侧导航栏,单击Dashboard,搜索[Metricbeat System] Overview。
单击进入[Metricbeat System] Overview页面,再单击Host Overview,可查看监控仪表板。
基于EMR离线数据分析 -学习报告
上传数据到HDFS
执行如下命令,创建HDFS目录。
说明:在LX终端中,粘贴快捷键为SHIFT+CTRL+V。
hdfs dfs -mkdir -p /data/student
上传文件到hadoop文件系统。
a.执行如下命令,创建u.txt文件。
创建u.txt文件
vim u.txt
b.按 "i" 键进入编辑模式,通过粘贴快捷键(SHIFT+CTRL+V)将下方内容复制到文件中,按"Esc"返回命令模式,输入":wq"保存
说明:第一列表示userid,第二列表示movieid,第三列表示rating,第四列表示unixtime。
使用hive创建表
本步骤将指导您如何使用hive创建数据表,并使用hadoop文件系统中的数据加载到hive数据表中。
执行如下命令,登录hive数据库。
执行如下命令,从hadoop文件系统加载数据到hive数据表。
LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;
对表进行操作
本步骤将指导您如何使用hive对数据表进行查询等操作。
查看5行表数据。
select * from emrusers limit 5;
查询数据表中有多少条数据。
select count(*) from emrusers;
返回结果如下,您可以看到您数据表中一共有多少数据,
查询数据表中评级最高的三个电影。
select movieid,sum(rating) as rat from emrusers group by movieid order by rat desc limit 3;
返回结果如下,您可以看到您数据表中评级最高的三个电影。