hive 数据源、yarn 集群测试、SQL 分组取 topN3| 学习笔记

简介: 快速学习 hive 数据源、 yarn 集群测试、SQL 分组取 topN3

开发者学堂课程【大数据实时计算框架  Spark  快速入门hive  数据源、yarn  集群测试、SQL  分组取  topN3  】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1716


hive  数据源、yarn  集群测试、SQL  分组取  topN3


内容介绍:

一、两个方法


一、两个方法

“no files matching” 这个没有找到txt这个文件,是因为我们只把  txt  文件弄到node21  上面去了。

两个方法:

1、把那两个文件都弄到里面去,

2、可以改一个代码既然  hive  里面已经有一个  table  了,那就不用再弄了

可以用第一招,如果用  class  模式的话,则要继续跟踪页面,需要不断刷新页面,跟着日志。如果用  spark Standalone  来执行的话,他里面可以有哪些选项,则是——supervise ,——kill submissicm ——statue surmission id  来查看进度,

——supervise  加就是  driver  挂了就会重示,driver  挂了,加参数就会自动起一个  driver  那么在这个地方  soark standlone and mesos only里面有一个executor_core  看有多少个现成。

下面则是关于  yarn only  的,再往下就是  driver  的内存大小,已经executor_memory 的大小,executor  则是一个G的内存, worker 配置一个 G ,最多是三个 executor. 第一个 executer  是  driver  用了, executor_cores  的数量也会决定你可以启动的  worker ,内存会管理他的上限,显存也会管理他的上限,这个看机器里面有多少个先吃完,  如果以后用yarn来跑的话, yarn 则有一个——executors  直接配上用来跑应用程序,那关于这  yarn  ,则有多少  executor 来执行,接下来则等待报错。

在公司里面要么是  executor  要么是  yarn ,保证在每个里面提交  application ,不能同时起两个。

相关文章
|
1月前
|
Kubernetes Linux API
CentOS 7.6使用kubeadm部署k8s 1.17.2测试集群实战篇
该博客文章详细介绍了在CentOS 7.6操作系统上使用kubeadm工具部署kubernetes 1.17.2版本的测试集群的过程,包括主机环境准备、安装Docker、配置kubelet、初始化集群、添加节点、部署网络插件以及配置k8s node节点管理api server服务器。
62 0
CentOS 7.6使用kubeadm部署k8s 1.17.2测试集群实战篇
|
3月前
|
SQL
SQL开发问题之当从数据源读取多个字段时优化 COUNT(DISTINCT ...) 的查询的问题如何解决
SQL开发问题之当从数据源读取多个字段时优化 COUNT(DISTINCT ...) 的查询的问题如何解决
|
3月前
|
SQL DataWorks 关系型数据库
DataWorks产品使用合集之数据集成时源头提供数据库自定义函数调用返回数据,数据源端是否可以写自定义SQL实现
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
分布式计算 大数据 Hadoop
最快方式搭建docker大数据 测试集群
【8月更文挑战第5天】快速搭建Docker大数据测试集群可采用预构建镜像与Compose文件、利用云服务如AWS的ECS、自动化工具如Ansible或参考在线教程。只需简单配置如内存分配及路径,运行`docker-compose up`即可启动含NameNode、DataNode等组件的Hadoop集群。根据需求与资源选择合适方法。
|
3月前
|
SQL
云架构数据倾斜问题之在SQL数据源读取查询时合并小文件如何解决
云架构数据倾斜问题之在SQL数据源读取查询时合并小文件如何解决
|
4月前
|
SQL druid Java
传统后端SQL数据层替代解决方案: 内置数据源+JdbcTemplate+H2数据库 详解
传统后端SQL数据层替代解决方案: 内置数据源+JdbcTemplate+H2数据库 详解
50 1
|
4月前
|
分布式计算 Shell Linux
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
52 0
|
5月前
|
SQL 分布式计算 Hadoop
Hive SQL 优化
Hive SQL 优化
89 1
|
SQL 分布式计算 负载均衡
Hive SQL优化思路
Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。
613 0
|
SQL 分布式计算 HIVE
下一篇
无影云桌面