RDS什么场景用presto呢,如果presto很高效,hive,spark对比优劣,以及使用场景是什么呢?
"个的使用场景还是在交互式即席查询这一部分,可以让我们的分析变的非常丝滑 主要区别的话 第一个就是,Presto使用ANSI SQL,而Hive使用HiveQL,刚才我们简单的语句其实并没有影响,但整体上有些差异的,比如我们hive的侧窗口函数 LATERAL VIEW 第二个比较重要的就是,数据量相对大或者存在我们意料之外的数据膨胀这种场景的话,更推荐hive和spark来做每日跑批的计算。这个可以结合我们昨天的一个答疑来看,就是什么时候会落盘,spark和hive在数据量大,oom的时候会进行落盘保证任务的完成。但是presto直接抛oom异常了 impala这一块其实和presto一样都是属于olap的引擎,impala的计算速度也是出了名的快,多表查询性能和presto可以说不相上下,但是内存占用确实不小,单表查询有些逊色,使用上来说有个缺点,就是不支持date类型,需要存成string,presto支持的update等操作也不支持,综合性能上来说presto更优一些——该回答整理自钉群“企业运维训练营之大数据EMR原理与实践”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。