请问:spark 处理 hive 仓库数据,用sparksql 好?还是hivesql好?sparksql 操作hive 的分区分桶表麻烦吗?
两者可以混用 1、spark sql性能好一些 2、hive sql更加稳定 3、spark sql操作hive分区表比较原生 4、saprk sql操作hive的分桶表麻烦一些
spark sql速度更快,性能更高,但内存资源消耗多,稳定性不如hive sql
个人感觉基础数仓还是用hive比较好,慢是慢点,但胜在稳定,况且如果用tez引擎,也很快,spark对资源要求更高,稍微不慎就会运行失败,对于数仓分层依赖的情况是个灾难,兼容性也是一个问题
大数据计算实践乐园,近距离学习前沿技术