冬季实战营第五期:轻松入门学习大数据

简介: 冬季实战营第五期:轻松入门学习大数据

1、基于EMR离线数据分析
(1)创建资源
(2)登陆集群
1)进入开源大数据平台E-MapReduce
image.png
image.png
image.png
2)在终端中登录该公网IP
image.png
(3)上传数据到HDFS
1)创建HDFS目录hdfs dfs -mkdir -p /data/student
image.png
2)上传文件到hadoop文件系统
image.png
(4)使用hive创建表
1)登录hive数据库hive
2)创建user表
image.png
3)从hadoop文件系统加载数据到hive数据表
LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;
image.png
(5)对表进行操作
1) 查看5行表数据
select * from emrusers limit 5;
2)询数据表中有多少条数据
select count(*) from emrusers;
3)查询数据表中评级最高的三个电影
select movieid,sum(rating) as rat from emrusers group by movieid order by rat desc limit 3;
2、使用阿里云Elasticsearch快速搭建智能运维系统
(1)创建资源
(2)登录集群
https://elasticsearch-cn-hangzhou.console.aliyun.com
(3)登录Kibana,开启自动创建索引功能
1)在集群管理中,修改实例配置,开启Kibana私网访问后,单击公网入口进行登录。
2)在Console页签下,执行如下命令,开启阿里云ES实例的自动创建索引功能
PUT _cluster/settings
{
"persistent": {
"action.auto_create_index": "true"
}
}
(4)使用Metricbeat采集ECS上的系统数据
1)阿里云Elasticsearch管理控制台,单击Beats数据采集 > 创建采集器;
2)在创建采集器窗口中,单击Metricbeat,在采集器配置向导中,输入或选择采集器信息,复制左侧云产品资源列表下的Elasticsearch登录名和Elasticsearch登录密码,至用户名密码。
3)在metricbeat.yml中末尾添加如下脚本
metricbeat.modules:

  • module: system
    metricsets:

    • cpu
    • load
    • memory
    • network
    • process
    • process_summary
    • uptime
    • socket_summary
    • core
    • diskio
    • filesystem
    • fsstat

    enabled: true
    period: 10s
    processes: ['.*']
    cpu.metrics: ["percentages"]
    core.metrics: ["percentages"]

4)启动采集器并查看采集器安装情况
(5)使用Filebeat采集ECS上的Nginx服务数据
1)返回阿里云Elasticsearch管理控制台 > Beats数据采集中心;
2)在采集器配置向导中,输入或选择采集器信息;
3)在filebeat.yml中更改脚本:在第24行enabled更改为true。在第28行更改paths:- /var/log/nginx/*.log
4)选择采集器安装的ECS实例,启动采集器并查看采集器安装情况。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
7月前
|
数据采集 分布式计算 大数据
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
167 1
|
6月前
|
SQL 分布式计算 大数据
SparkSQL 入门指南:小白也能懂的大数据 SQL 处理神器
在大数据处理的领域,SparkSQL 是一种非常强大的工具,它可以让开发人员以 SQL 的方式处理和查询大规模数据集。SparkSQL 集成了 SQL 查询引擎和 Spark 的分布式计算引擎,使得我们可以在分布式环境下执行 SQL 查询,并能利用 Spark 的强大计算能力进行数据分析。
|
8月前
|
数据采集 搜索推荐 算法
Java 大视界 -- Java 大数据在智能教育学习社区用户互动分析与社区活跃度提升中的应用(274)
本文系统阐述 Java 大数据技术在智能教育学习社区中的深度应用,涵盖数据采集架构、核心分析算法、活跃度提升策略及前沿技术探索,为教育数字化转型提供完整技术解决方案。
|
10月前
|
数据采集 数据可视化 大数据
Python入门修炼:开启你在大数据世界的第一个脚本
Python入门修炼:开启你在大数据世界的第一个脚本
201 6
|
数据采集 数据可视化 大数据
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
这篇文章介绍了如何使用Python中的matplotlib和numpy库来创建箱线图,以检测和处理数据集中的异常值。
415 1
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
|
存储 SQL 分布式计算
大数据学习
【10月更文挑战第15天】
346 1
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
263 1
|
5月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
385 14
|
6月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
320 0