线上 hive on spark 作业执行超时问题排查案例分享-阿里云开发者社区

线上 hive on spark 作业执行超时问题排查案例分享

2023-10-10 484

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 线上 hive on spark 作业执行超时问题排查案例分享

线上 hive on spark 作业执行超时问题排查案例分享

大家好，在此分享一个某业务系统的线上 hive on spark 作业在高并发下频现作业失败问题的原因分析和解决方法，希望对大家有所帮助。

1 问题现象

某业务系统中，HIVE SQL 以 hive on spark 模式运行在 yarn上指定的资源队列下，在业务高峰期发现部分 SQL 会报错，但重试有时又能够成功。作业具体报错信息，和示例截图如下：

SQL
failed to create spark client for spark session xx: java.util.concurrent.TimeoutException: client xx timed out waiting for connection from the remote spark driver

备注：

hive 作业的执行引擎通过参数 hive.execution.engine 指定，可选值为 mr/spark/tez；
CDP/HIVE3.0等新版本不再支持 hive on mr/spark, 只支持 hive on tez;
HIVE 作业在 YARN 上的队列使用参数mapreduce.job.queuename/mapred.job.queue.name 指定；

2 问题原因

HIVE ON SPARK 作业在高并发下运行失败报超时错误，但是重试有时又能够成功，绝大多数都是因为 yarn 中对应的资源队列上没有足够的资源以启动 spark集群，所以客户端连无可连报了超时错误。

具体的超时时间，有两个相关参数进行控制：

hive.spark.client.server.connect.timeout：该参数是服务端配置，用来控制 hive 客户端跟远程 spark 集群中的 spark driver 建立连接的超时时间，默认90秒（这里的 hive客户端是启动 spark 集群的客户端，个人认为其实就是 hs2);
hive.spark.client.connect.timeout：该参数是客户端配置，用来控制远程 spark 集群中的 spark driver 跟 hive 客户端建立连接的时间，默认1秒；

3 解决方法

解决方法可以从三个角度来考量：

减少资源需求：可以在调度系统中减少作业并发度，也可以在作业级别减少单个作业的资源需求；
增加资源供给：可以增加相应YARN队列的资源，必要时也可以对YARN集群进行扩容；
调整超时参数，增加超时时间，以期望在等待过程中能获得（其他作业释放的）资源，从而成功执行作业；

3.1 减少资源需求

减少资源需求，可以在调度系统中减小作业并发度，即减少同时提交的 HIVE SQL 作业的个数，相应地整个业务系统整体的资源需求也就降低了；（当然整个作业流程的运行时长可能会增大);
减少资源需求，也可以减少单个作业的资源需求,主要是spark 集群的 driver/executor 的 cores/memory 和 executor 的个数，以及动态资源分配的相关参数，如参数 spark.executor.cores/spark.executor.memory/spark.executor.instances/spark.driver.memory/spark.driver.cores，以及 spark.dynamicAllocation.enabled/spark.dynamicAllocation.minExecutors/spark.dynamicAllocation.maxExecutors 等。（需要注意的是，如果 executor 的 memory 调得太小，大作业可能会发生 oom 等异常，所以还是需要根据作业的数据量和业务逻辑，在作业级别针对具体作业给出不同的资源参数）；

3.2 增加资源供给

增加资源供给，可以增加作业执行时使用的YARN队列的资源，该操作一般需要集群管理员在服务端进行配置；
在整个大数据集群资源不够时，也可以通过增加节点等方式对 YARN 集群进行扩容，该操作一般也是由集群管理员进行的操作；
需要注意的是，调整相应 YARN 队列的资源时，具体的资源调度器可能对资源还有进一步的限制，比如容量调度器对于正在运行的应用程序的最大数量，对于所有 Application Master 消耗的最大资源，都有限制；
容量调度器对于所有 application master 消耗的最大资源有限制，当大于该限制时，即使 YARN 集群还有资源，新提交的作业也无法获得资源启动 application master,当然也就不能运行了，一个这种情况下yarn webui中相关作业的截图如下： (capacity scheduler 之所以对 am 占用资源的百分比进行限制，是为了避免出现整个集群中由于 am 消耗了绝大部分的 yarn资源，yarn 无法再分配新的资源给 mapper/reducer 等进行具体任务的处理)；

在容量调度器下，具体的资源管控参数，有以下这些：

##作业并行度相关参数
yarn.scheduler.capacity.maximum-applications/yarn.scheduler.capacity.<queue-path>.maximum-applications
yarn.scheduler.capacity.max-parallel-apps/yarn.scheduler.capacity.<queue-path>.max-parallel-apps
yarn.scheduler.capacity.user.max-parallel-apps/yarn.scheduler.capacity.user.<username>.max-parallel-apps
##资源相关参数
yarn.scheduler.capacity.<queue-path>.capacity/yarn.scheduler.capacity.<queue-path>.maximum-capacity
yarn.scheduler.capacity.<queue-path>.maximum-allocation-mb/yarn.scheduler.capacity.<queue-path>.maximum-allocation-vcores
yarn.scheduler.capacity.<queue-path>.user-limit-factor
## am 资源相关参数
yarn.scheduler.capacity.maximum-am-resource-percent/yarn.scheduler.capacity.<queue-path>.maximum-am-resource-percent

3.3 调整超时参数

启动 spark 集群时，具体的超时时间，有两个相关参数进行控制：

hive.spark.client.server.connect.timeout：该参数是服务端配置，用来控制 hive 客户端跟远程 spark 集群中的 spark driver 建立连接的超时时间，默认90秒（这里的 hive客户端是启动 spark 集群的客户端，个人认为其实就是 hs2);
hive.spark.client.connect.timeout：该参数是客户端配置，用来控制远程 spark 集群中的 spark driver 跟 hive 客户端建立连接的时间，默认1秒；
需要注意的是，hive.spark.client.server.connect.timeout 是服务端参数，所以需要在服务端更改配置并重启服务端（hs2)后才能生效，单纯在客户端修改该参数，虽然修改时不会报错但修改并不会生效，比如下图客户端修改该参数为100 秒后，实际使用的仍是修改前默认的90秒：

注意：

有的集群中，默认情况下不允许对上述两个超时参数进行调整：

为了调整上述两个超时参数，需要在服务端更改黑名单和白名单相关参数: hive.conf.restricted.list/hive.security.authorization.sqlstd.confwhitelist/hive.security.authorization.sqlstd.confwhitelist.append；
配置白名单时，推荐使用参数 hive.security.authorization.sqlstd.confwhitelist.append，该参数配置的内容会追加到参数 hive.security.authorization.sqlstd.confwhitelist 配置的内容之后；
黑名单参数 hive.conf.restricted.list 也需要配置，因为即使通过了白名单的校验，也仍会对黑名单进行校验；（Note that the hive.conf.restricted.list checks are still enforced after the white list check.）

线上 hive on spark 作业执行超时问题排查案例分享

线上 hive on spark 作业执行超时问题排查案例分享

1 问题现象

2 问题原因

3 解决方法

3.1 减少资源需求

3.2 增加资源供给

3.3 调整超时参数

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

线上 hive on spark 作业执行超时问题排查案例分享

线上 hive on spark 作业执行超时问题排查案例分享

1 问题现象

2 问题原因

3 解决方法

3.1 减少资源需求

3.2 增加资源供给

3.3 调整超时参数

热门文章

最新文章

相关课程

相关电子书

相关实验场景