冬季实战营第五期学习报告

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 第一个场景里u.txt文件各行分隔符不统一,有tab的,有空格的,导入以后大量空列,需要编辑后才能正常体验。

1 动手实战-基于EMR离线数据分析

1.1 创建资源,连接EMR集群

场景申请到的资源

屏幕截图(735).png

登陆ram子账号,找到主节点公网IP地址

屏幕截图(737).png

   连接EMR集群,场景中的终端操作起来不太方便,使用本地putty终端也可以连接到主节点,完成后面的操作。

1.2 导入数据至EMR集群

在HDFS上创建目录,将编辑的文件放到HFDS文件系统上

[root@emr-header-1 ~]hdfs dfs -mkdir -p /data/student

[root@emr-header-1 ~]vim u.txt

[root@emr-header-1 ~] hdfs dfs -put u.txt /data/student

显示放入的文件和文件内容

[root@emr-header-1 ~]# hdfs dfs -ls /data/studentFound 1 items
-rw-r-----2 root hadoop       23912022-02-2809:30 /data/student/u.txt
[root@emr-header-1 ~]# hdfs dfs -cat /data/student/u.txt1962423881250949186302389171774222377187888711624451288060692316634618863975962984744884182806115265288117148825346558916284673054513886324817

登陆hive,创建表,导入数据

[root@emr-header-1 ~]# hiveLogging initialized using configuration in file:/etc/ecm/hive-conf-2.3.2-1.0.1/hive-log4j2.properties Async: trueHive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
    hive> CREATE TABLE emrusers (
        userid INT,
        movieid INT,
        rating INT,
        unixtime STRING )
        ROW FORMAT DELIMITED
        FIELDS TERMINATED BY '\t'        ;
    OK
    Time taken: 1.053 seconds
hive>  LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;
    Loading data to table default.emrusers
    OK
    Time taken: 0.459 seconds

1.3 查询表,在表上运行统计分析sql语句

查看表的前五行数据,sql语句被转成了map-reduce任务,花费的时间较长。

hive>select*from emrusers limit5;    OK
196242388125094918630238917177422237718788871162445128806069231663461886397596Time taken:0.069 seconds, Fetched:5 row(s)

查询表的总行数,sql语句被转成了map-reduce任务,花费的时间较长。

hive>selectcount(*)from emrusers;    WARNING: Hive-on-MR is deprecated in Hive 2and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez)or using Hive 1.X releases.
    Query ID = root_20220228110103_9aec542e-2d15-49de-b0fe-388ee617b755
    Total jobs =1    Launching Job 1 out of 1    Number of reduce tasks determined at compile time:1Inorder to change the average load for a reducer (in bytes):set hive.exec.reducers.bytes.per.reducer=<number>Inorder to limit the maximum number of reducers:set hive.exec.reducers.max=<number>Inorder to set a constant number of reducers:set mapreduce.job.reduces=<number>    Starting Job = job_1646010854736_0005, Tracking URL = http://emr-header-1.cluster-286405:20888/proxy/application_1646010854736_0005/    Kill Command =/usr/lib/hadoop-current/bin/hadoop job  -kill job_1646010854736_0005
    Hadoop job information for Stage-1: number of mappers:1; number of reducers:12022-02-2811:01:11,438 Stage-1 map =0%,  reduce =0%2022-02-2811:01:16,722 Stage-1 map =100%,  reduce =0%, Cumulative CPU 0.99 sec
2022-02-2811:01:22,891 Stage-1 map =100%,  reduce =100%, Cumulative CPU 2.28 sec
    MapReduce Total cumulative CPU time:2 seconds 280 msec
    Ended Job = job_1646010854736_0005
    MapReduce Jobs Launched:    Stage-Stage-1: Map:1  Reduce:1   Cumulative CPU:2.28 sec   HDFS Read:10079 HDFS Write:103 SUCCESS
    Total MapReduce CPU Time Spent:2 seconds 280 msec
    OK
106Time taken:20.893 seconds, Fetched:1 row(s)

查询数据表中评级最高的三个电影,sql语句被转成了map-reduce任务,花费的时间较长。

hive>select movieid,sum(rating)as rat from emrusers groupby movieid orderby rat desclimit3;    WARNING: Hive-on-MR is deprecated in Hive 2and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez)or using Hive 1.X releases.
    Query ID = root_20220228110213_6733e92a-00ed-4d71-b289-5be55aaa26af
    Total jobs =2    Launching Job 1 out of 2    Number of reduce tasks not specified. Estimated from input data size:1Inorder to change the average load for a reducer (in bytes):set hive.exec.reducers.bytes.per.reducer=<number>Inorder to limit the maximum number of reducers:set hive.exec.reducers.max=<number>Inorder to set a constant number of reducers:set mapreduce.job.reduces=<number>    Starting Job = job_1646010854736_0006, Tracking URL = http://emr-header-1.cluster-286405:20888/proxy/application_1646010854736_0006/    Kill Command =/usr/lib/hadoop-current/bin/hadoop job  -kill job_1646010854736_0006
    Hadoop job information for Stage-1: number of mappers:1; number of reducers:12022-02-2811:02:21,418 Stage-1 map =0%,  reduce =0%2022-02-2811:02:25,532 Stage-1 map =100%,  reduce =0%, Cumulative CPU 1.0 sec
2022-02-2811:02:30,664 Stage-1 map =100%,  reduce =100%, Cumulative CPU 2.0 sec
    MapReduce Total cumulative CPU time:2 seconds 0 msec
    Ended Job = job_1646010854736_0006
    Launching Job 2 out of 2    Number of reduce tasks determined at compile time:1Inorder to change the average load for a reducer (in bytes):set hive.exec.reducers.bytes.per.reducer=<number>Inorder to limit the maximum number of reducers:set hive.exec.reducers.max=<number>Inorder to set a constant number of reducers:set mapreduce.job.reduces=<number>    Starting Job = job_1646010854736_0007, Tracking URL = http://emr-header-1.cluster-286405:20888/proxy/application_1646010854736_0007/    Kill Command =/usr/lib/hadoop-current/bin/hadoop job  -kill job_1646010854736_0007
    Hadoop job information for Stage-2: number of mappers:1; number of reducers:12022-02-2811:02:38,922 Stage-2 map =0%,  reduce =0%2022-02-2811:02:43,038 Stage-2 map =100%,  reduce =0%, Cumulative CPU 1.12 sec
2022-02-2811:02:48,162 Stage-2 map =100%,  reduce =100%, Cumulative CPU 2.14 sec
    MapReduce Total cumulative CPU time:2 seconds 140 msec
    Ended Job = job_1646010854736_0007
    MapReduce Jobs Launched:    Stage-Stage-1: Map:1  Reduce:1   Cumulative CPU:2.0 sec   HDFS Read:9642 HDFS Write:2131 SUCCESS
    Stage-Stage-2: Map:1  Reduce:1   Cumulative CPU:2.14 sec   HDFS Read:7869 HDFS Write:143 SUCCESS
    Total MapReduce CPU Time Spent:4 seconds 140 msec
    OK
14413274103049Time taken:36.114 seconds, Fetched:3 row(s)


2 动手实战-使用阿里云Elasticsearch快速搭建智能运维系统

2.1 申请资源,登录Elasticsearch集群

场景申请到的资源如下

屏幕截图(739).png

登录子账号能看到三个Elasticsearch集群

屏幕截图(740).png


核对一下,本次体验申请到的资源应该是es-cn-jpy7 开头的集群

屏幕截图(744).png

修改Kibana配置,打开私网访问,从公网访问kibana。

2.2 开启自动创建索引功能

  这一步比较坑的是dev工具在左侧导航栏的最下面,不知这个导航栏是以什么顺序排列的。

2.3 创建metricbeat采集器

屏幕截图(749).png

选择ecs实例后,启动采集器

屏幕截图(751).png

查看采集器状态

屏幕截图(752).png

启动器状态为已生效

屏幕截图(759).png

一共创建了3个采集器,只有一个成功运行,状态为已生效0/1的采集器其实部署是失败的。

查看dashboard

屏幕截图(758).png


可以看到ECS的进程数,cpu、系统负载等。

2.4 总结

  这个场景有一定难度,不知为啥场景中出现了多个Elasticsearch集群,对于采集器来说只能创建,删除和重启时都提示权限不够,创建的采集器有2个部署失败,体验手册中也没有给出分析和解决办法。

3 推荐系统入门之使用协同过滤实现商品推荐

      这个场景除了需要因为版本变化需要切换到旧版本之外,其它同体验手册完全相同,甚至数据和结果也和体验手册完全一致。

    打开实验     屏幕截图(760).png

检查数据

屏幕截图(761).png

运行实验

屏幕截图(762).png

运行完成

屏幕截图(763).png

检查join-1 节点结果,显示相似条目

屏幕截图(764).png


查看全表统计-1 .显示推荐的结果

屏幕截图(765).png

查看全表统计-2,显示相关性。

屏幕截图(766).png


相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
8月前
|
前端开发
文本对齐[text-align]
文本对齐[text-align]。
86 2
|
SQL 分布式计算 运维
冬季实战营第五期学习报告
冬季实战营第五期学习报告
|
SQL 分布式计算 运维
相约在冬季实战营——第五期学习报告
https://developer.aliyun.com/adc/series/wintercamplist5 这一期的实验场景主要和阿里云的大数据相关产品相关~~~
349 1
相约在冬季实战营——第五期学习报告
|
存储 SQL 缓存
InnoDB、MyISAM、Memory 存储引擎 的区别
InnoDB、MyISAM、Memory 存储引擎 的区别
166 0
|
SQL Web App开发 弹性计算
学习报告:冬季实战营第三期
在《冬季实战营第三期:MySQL数据库进阶实战》的学习报告
269 0
学习报告:冬季实战营第三期
|
SQL 弹性计算 运维
冬季实战营第三期学习报告
通过本期学期,掌握了MySQL及RDS MySQL基本操作
158 2
|
SQL 弹性计算 分布式计算
学习报告:冬季实战营第五期
在《冬季实战营第五期:轻松入门学习大数据》的学习报告
168 0
学习报告:冬季实战营第五期
|
Web App开发 弹性计算 Kubernetes
学习报告:冬季实战营第四期
在《冬季实战营第四期:零基础容器技术实战》的学习报告
195 0
学习报告:冬季实战营第四期
|
Linux 程序员 Shell
冬季实战营第二期学习报告
针对第二期的Linux操作系统实战入门,通过动手实操的体验写出感受。时间真快,从1月24日到1月28日,参与了五天不同内容的动手实战,从中发现虽然在大学里学过这门课,但是好像没有这期收获很多没有学过的知识点,每一天都在涨知识,不得不感叹,学无止境,感觉真妙,可见大学里学的东西比较浅,还需要自学其它很多新知识点,感谢第二期Linux操作系统实战入门的体验,再接再厉~ 让我们一起向未来。
160 0
冬季实战营第二期学习报告
|
弹性计算 缓存 安全
学习报告:冬季实战营第二期
在冬季实战营第二期:Linux操作系统实战入门的学习报告
226 0
学习报告:冬季实战营第二期