hive 的 update 可以使用 kudu 解决,on hbase 的情况不太了解。
1、kudu本身就不成熟,用多了就是坑,国内都没有成熟的案例
2、建议大家用kudu去付费给商业公司或者自己有特别厉害的人
3、全部离线,就直接 转化为parquet列存,再spark分析即可
hive on hbase修改记录其实就是先查询出满足条件的数据,然后新写入一条更新列信息的同一rowkey数据,即每次修改都会有读取然后写入,如果过滤列没有没有索引批量读时会scan全表,性能很差。
建议修改数据使用phoenix,对过滤列创建二级索引,加速查询。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。