1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
|
Hive在
0.7
开始对并发进行支持,本文简述一下Hive(CDH4.
2.0
)的锁处理流程:
1
. 首先对query进行编译,生成QueryPlan
2
. 构建读写锁对象(主要两个成员变量:LockObject,Lockmode)
对于非分区表,直接根据需要构建S或者X锁对象
对于分区表:
(此处是区分input/output)
If S mode:
直接对Table/related partition 构建S对象
Else:
If 添加新分区:
构建S对象
Else
构建X对象
End
3
. 对锁对象进行字符表排序(避免死锁),对于同一个LockObject,先获取Execlusive
4
. 遍历锁对象列表,进行锁申请
While trynumber< hive.lock.numretries(default100):
创建parent(node)目录,mode= CreateMode.PERSISTENT
创建锁目录,mode=CreateMode.EPHEMERAL_SEQUENTIAL
For Child:Children
If Child已经有写锁:
获取child写锁seqno
If mode=X 并且 Child 已经有读锁
获取child读锁seqno
If childseqno>
0
并且小于当前seqno
释放锁
Trynumber++
Sleep(hive.lock.sleep.between.retries:default1min)
|
因此对于并发相对较高的场景来说默认的sleep时间太长了,并且这里使用的sleep模型也太简单,可能与本身hive并发写场景较少有关系.
另外就是对于是否启用并发是可以在客户端设置的,因此如果对于写的ETL Job担心被读锁住时可以在脚本里关闭该特性.
本文转自MIKE老毕 51CTO博客,原文链接:http://blog.51cto.com/boylook/1308139,如需转载请自行联系原作者