开发者学堂课程【大数据实时计算框架 Spark 快速入门:hive 数据源、yarn 集群测试、SQL 分组取 topN3 】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/100/detail/1716
hive 数据源、yarn 集群测试、SQL 分组取 topN3
内容介绍:
一、两个方法
一、两个方法
“no files matching” 这个没有找到txt这个文件,是因为我们只把 txt 文件弄到node21 上面去了。
两个方法:
1、把那两个文件都弄到里面去,
2、可以改一个代码既然 hive 里面已经有一个 table 了,那就不用再弄了
可以用第一招,如果用 class 模式的话,则要继续跟踪页面,需要不断刷新页面,跟着日志。如果用 spark Standalone 来执行的话,他里面可以有哪些选项,则是——supervise ,——kill submissicm ——statue surmission id 来查看进度,
——supervise 加就是 driver 挂了就会重示,driver 挂了,加参数就会自动起一个 driver 那么在这个地方 soark standlone and mesos only里面有一个executor_core 看有多少个现成。
下面则是关于 yarn only 的,再往下就是 driver 的内存大小,已经executor_memory 的大小,executor 则是一个G的内存, worker 配置一个 G ,最多是三个 executor. 第一个 executer 是 driver 用了, executor_cores 的数量也会决定你可以启动的 worker ,内存会管理他的上限,显存也会管理他的上限,这个看机器里面有多少个先吃完, 如果以后用yarn来跑的话, yarn 则有一个——executors 直接配上用来跑应用程序,那关于这 yarn ,则有多少 executor 来执行,接下来则等待报错。
在公司里面要么是 executor 要么是 yarn ,保证在每个里面提交 application ,不能同时起两个。