其中SparkSQL作为Spark生态的一员继续发展,而不再受限于Hive,只是兼容Hive;而Hive on Spark是一个Hive的发展计划,该计划将Spark作为Hive的底层引擎之一,也就是说,Hive将不再受限于一个引擎,可以采用Map-Reduce、Tez、Spark等引擎。
两者区别:
Spark SQL刚开始也是使用了hive里面一些东西的,但是Spark SQL里面的hive版本肯定要比hive社区理的版本要低一些的,那么hive里面有的东西,比如说原来跑在mapreduce之上已有的一些功能,如果你使用hive on spark的话他是能支持的,但是有一些功能想要直接在Spark SQL上直接用,很可能是没有办法支持,因为Spark SQL里面的一些功能并没有hive完善,毕竟hive已经这么多年,而Spark只是发展了这两三年而已。那么shark终止以后,在Spark界重心就已经在Spark SQL上了,Spark SQl干的事情和原来的shark是有很大的差别的,因为原来的shark依赖了很多hive的东西,那么在sparksql里面就必须要把这个依赖更好的减轻。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。