冬季实战营第五期学习报告

本文涉及的产品
Elasticsearch Serverless通用抵扣包,测试体验金 200元
简介: 第一个场景里u.txt文件各行分隔符不统一,有tab的,有空格的,导入以后大量空列,需要编辑后才能正常体验。

1 动手实战-基于EMR离线数据分析

1.1 创建资源,连接EMR集群

场景申请到的资源

屏幕截图(735).png

登陆ram子账号,找到主节点公网IP地址

屏幕截图(737).png

   连接EMR集群,场景中的终端操作起来不太方便,使用本地putty终端也可以连接到主节点,完成后面的操作。

1.2 导入数据至EMR集群

在HDFS上创建目录,将编辑的文件放到HFDS文件系统上

[root@emr-header-1 ~]hdfs dfs -mkdir -p /data/student

[root@emr-header-1 ~]vim u.txt

[root@emr-header-1 ~] hdfs dfs -put u.txt /data/student

显示放入的文件和文件内容

[root@emr-header-1 ~]# hdfs dfs -ls /data/studentFound 1 items
-rw-r-----2 root hadoop       23912022-02-2809:30 /data/student/u.txt
[root@emr-header-1 ~]# hdfs dfs -cat /data/student/u.txt1962423881250949186302389171774222377187888711624451288060692316634618863975962984744884182806115265288117148825346558916284673054513886324817

登陆hive,创建表,导入数据

[root@emr-header-1 ~]# hiveLogging initialized using configuration in file:/etc/ecm/hive-conf-2.3.2-1.0.1/hive-log4j2.properties Async: trueHive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
    hive> CREATE TABLE emrusers (
        userid INT,
        movieid INT,
        rating INT,
        unixtime STRING )
        ROW FORMAT DELIMITED
        FIELDS TERMINATED BY '\t'        ;
    OK
    Time taken: 1.053 seconds
hive>  LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;
    Loading data to table default.emrusers
    OK
    Time taken: 0.459 seconds

1.3 查询表,在表上运行统计分析sql语句

查看表的前五行数据,sql语句被转成了map-reduce任务,花费的时间较长。

hive>select*from emrusers limit5;    OK
196242388125094918630238917177422237718788871162445128806069231663461886397596Time taken:0.069 seconds, Fetched:5 row(s)

查询表的总行数,sql语句被转成了map-reduce任务,花费的时间较长。

hive>selectcount(*)from emrusers;    WARNING: Hive-on-MR is deprecated in Hive 2and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez)or using Hive 1.X releases.
    Query ID = root_20220228110103_9aec542e-2d15-49de-b0fe-388ee617b755
    Total jobs =1    Launching Job 1 out of 1    Number of reduce tasks determined at compile time:1Inorder to change the average load for a reducer (in bytes):set hive.exec.reducers.bytes.per.reducer=<number>Inorder to limit the maximum number of reducers:set hive.exec.reducers.max=<number>Inorder to set a constant number of reducers:set mapreduce.job.reduces=<number>    Starting Job = job_1646010854736_0005, Tracking URL = http://emr-header-1.cluster-286405:20888/proxy/application_1646010854736_0005/    Kill Command =/usr/lib/hadoop-current/bin/hadoop job  -kill job_1646010854736_0005
    Hadoop job information for Stage-1: number of mappers:1; number of reducers:12022-02-2811:01:11,438 Stage-1 map =0%,  reduce =0%2022-02-2811:01:16,722 Stage-1 map =100%,  reduce =0%, Cumulative CPU 0.99 sec
2022-02-2811:01:22,891 Stage-1 map =100%,  reduce =100%, Cumulative CPU 2.28 sec
    MapReduce Total cumulative CPU time:2 seconds 280 msec
    Ended Job = job_1646010854736_0005
    MapReduce Jobs Launched:    Stage-Stage-1: Map:1  Reduce:1   Cumulative CPU:2.28 sec   HDFS Read:10079 HDFS Write:103 SUCCESS
    Total MapReduce CPU Time Spent:2 seconds 280 msec
    OK
106Time taken:20.893 seconds, Fetched:1 row(s)

查询数据表中评级最高的三个电影,sql语句被转成了map-reduce任务,花费的时间较长。

hive>select movieid,sum(rating)as rat from emrusers groupby movieid orderby rat desclimit3;    WARNING: Hive-on-MR is deprecated in Hive 2and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez)or using Hive 1.X releases.
    Query ID = root_20220228110213_6733e92a-00ed-4d71-b289-5be55aaa26af
    Total jobs =2    Launching Job 1 out of 2    Number of reduce tasks not specified. Estimated from input data size:1Inorder to change the average load for a reducer (in bytes):set hive.exec.reducers.bytes.per.reducer=<number>Inorder to limit the maximum number of reducers:set hive.exec.reducers.max=<number>Inorder to set a constant number of reducers:set mapreduce.job.reduces=<number>    Starting Job = job_1646010854736_0006, Tracking URL = http://emr-header-1.cluster-286405:20888/proxy/application_1646010854736_0006/    Kill Command =/usr/lib/hadoop-current/bin/hadoop job  -kill job_1646010854736_0006
    Hadoop job information for Stage-1: number of mappers:1; number of reducers:12022-02-2811:02:21,418 Stage-1 map =0%,  reduce =0%2022-02-2811:02:25,532 Stage-1 map =100%,  reduce =0%, Cumulative CPU 1.0 sec
2022-02-2811:02:30,664 Stage-1 map =100%,  reduce =100%, Cumulative CPU 2.0 sec
    MapReduce Total cumulative CPU time:2 seconds 0 msec
    Ended Job = job_1646010854736_0006
    Launching Job 2 out of 2    Number of reduce tasks determined at compile time:1Inorder to change the average load for a reducer (in bytes):set hive.exec.reducers.bytes.per.reducer=<number>Inorder to limit the maximum number of reducers:set hive.exec.reducers.max=<number>Inorder to set a constant number of reducers:set mapreduce.job.reduces=<number>    Starting Job = job_1646010854736_0007, Tracking URL = http://emr-header-1.cluster-286405:20888/proxy/application_1646010854736_0007/    Kill Command =/usr/lib/hadoop-current/bin/hadoop job  -kill job_1646010854736_0007
    Hadoop job information for Stage-2: number of mappers:1; number of reducers:12022-02-2811:02:38,922 Stage-2 map =0%,  reduce =0%2022-02-2811:02:43,038 Stage-2 map =100%,  reduce =0%, Cumulative CPU 1.12 sec
2022-02-2811:02:48,162 Stage-2 map =100%,  reduce =100%, Cumulative CPU 2.14 sec
    MapReduce Total cumulative CPU time:2 seconds 140 msec
    Ended Job = job_1646010854736_0007
    MapReduce Jobs Launched:    Stage-Stage-1: Map:1  Reduce:1   Cumulative CPU:2.0 sec   HDFS Read:9642 HDFS Write:2131 SUCCESS
    Stage-Stage-2: Map:1  Reduce:1   Cumulative CPU:2.14 sec   HDFS Read:7869 HDFS Write:143 SUCCESS
    Total MapReduce CPU Time Spent:4 seconds 140 msec
    OK
14413274103049Time taken:36.114 seconds, Fetched:3 row(s)


2 动手实战-使用阿里云Elasticsearch快速搭建智能运维系统

2.1 申请资源,登录Elasticsearch集群

场景申请到的资源如下

屏幕截图(739).png

登录子账号能看到三个Elasticsearch集群

屏幕截图(740).png


核对一下,本次体验申请到的资源应该是es-cn-jpy7 开头的集群

屏幕截图(744).png

修改Kibana配置,打开私网访问,从公网访问kibana。

2.2 开启自动创建索引功能

  这一步比较坑的是dev工具在左侧导航栏的最下面,不知这个导航栏是以什么顺序排列的。

2.3 创建metricbeat采集器

屏幕截图(749).png

选择ecs实例后,启动采集器

屏幕截图(751).png

查看采集器状态

屏幕截图(752).png

启动器状态为已生效

屏幕截图(759).png

一共创建了3个采集器,只有一个成功运行,状态为已生效0/1的采集器其实部署是失败的。

查看dashboard

屏幕截图(758).png


可以看到ECS的进程数,cpu、系统负载等。

2.4 总结

  这个场景有一定难度,不知为啥场景中出现了多个Elasticsearch集群,对于采集器来说只能创建,删除和重启时都提示权限不够,创建的采集器有2个部署失败,体验手册中也没有给出分析和解决办法。

3 推荐系统入门之使用协同过滤实现商品推荐

      这个场景除了需要因为版本变化需要切换到旧版本之外,其它同体验手册完全相同,甚至数据和结果也和体验手册完全一致。

    打开实验     屏幕截图(760).png

检查数据

屏幕截图(761).png

运行实验

屏幕截图(762).png

运行完成

屏幕截图(763).png

检查join-1 节点结果,显示相似条目

屏幕截图(764).png


查看全表统计-1 .显示推荐的结果

屏幕截图(765).png

查看全表统计-2,显示相关性。

屏幕截图(766).png


相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。 &nbsp;
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
五分钟带你了解ChatGPT的基本原理
五分钟带你了解ChatGPT的基本原理
1312 0
五分钟带你了解ChatGPT的基本原理
|
编解码 安全
租个5000人玩的游戏服务器一年多少钱?好用的游戏服务器推荐
​游戏服务器最重要的就是安全稳定,特别是需要防攻击,所以租用带防御的高防服务器是很有必要的。那么可以供5000人玩的游戏服务器一年大概多少钱呢?
4688 0
租个5000人玩的游戏服务器一年多少钱?好用的游戏服务器推荐
|
前端开发
Threejs - 加载视频纹理渲染 实现一个3D视频播放器
Threejs - 加载视频纹理渲染 实现一个3D视频播放器
2473 0
Threejs - 加载视频纹理渲染 实现一个3D视频播放器
|
9月前
|
测试技术 数据库 Python
Python装饰器实战:打造高效性能计时工具
在数据分析中,处理大规模数据时,分析代码性能至关重要。本文介绍如何使用Python装饰器实现性能计时工具,在不改变现有代码的基础上,方便快速地测试函数执行时间。该方法具有侵入性小、复用性强、灵活度高等优点,有助于快速发现性能瓶颈并优化代码。通过设置循环次数参数,可以更准确地评估函数的平均执行时间,提升开发效率。
252 61
Python装饰器实战:打造高效性能计时工具
|
机器学习/深度学习 测试技术 数据处理
KAN专家混合模型在高性能时间序列预测中的应用:RMoK模型架构探析与Python代码实验
Kolmogorov-Arnold网络(KAN)作为一种多层感知器(MLP)的替代方案,为深度学习领域带来新可能。尽管初期测试显示KAN在时间序列预测中的表现不佳,近期提出的可逆KAN混合模型(RMoK)显著提升了其性能。RMoK结合了Wav-KAN、JacobiKAN和TaylorKAN等多种专家层,通过门控网络动态选择最适合的专家层,从而灵活应对各种时间序列模式。实验结果显示,RMoK在多个数据集上表现出色,尤其是在长期预测任务中。未来研究将进一步探索RMoK在不同领域的应用潜力及其与其他先进技术的结合。
465 4
|
NoSQL 测试技术 定位技术
【MongoDB 专栏】MongoDB 的地理空间索引与位置查询
【5月更文挑战第10天】MongoDB 支持地理空间数据处理,提供2dsphere(球面)和2d(平面)索引,适用于地图导航、物流、社交网络等领域。通过创建索引,可加速位置查询,如查询范围、最近邻及地理空间聚合。案例包括地图应用、物流追踪和社交网络。注意数据准确性、索引优化和性能测试,以发挥其在地理空间处理中的潜力。学习此功能,为应用开发解锁更多可能性!
567 2
【MongoDB 专栏】MongoDB 的地理空间索引与位置查询
|
人工智能 算法 自动驾驶
AI的伦理困境:我们如何应对?
随着人工智能(AI)的发展,其伦理问题也日益凸显。本文将探讨AI的伦理困境,包括数据隐私、算法偏见和AI决策的透明度等问题,并提出可能的解决方案。
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在计算机方面的应用
人工智能在计算机方面的应用
439 0
|
数据可视化 数据安全/隐私保护 开发者
堪称最优秀的Docker可视化管理工具——Portainer深度解析与应用实践
【8月更文挑战第7天】在容器化技术日益盛行的今天,Docker以其轻量级、可移植性和灵活性的优势,成为了开发者和管理员的首选。然而,随着Docker容器的增多,如何高效地管理和监控这些容器成为了一个挑战。Portainer,作为一款开源的Docker可视化管理工具,凭借其直观的操作界面和强大的功能,赢得了广泛的赞誉。今天,我们就来深入探讨Portainer的使用技巧,看看你是否真的会用它。
532 0
|
前端开发
了解 css中 backface-visibility 属性
了解 css中 backface-visibility 属性
185 0