开发者社区> 问答> 正文

请问:spark 处理 hive 仓库数据,用sparksql 好?还是hivesql好?sparksql 操作hive 的分区分桶表麻烦吗?

请问:spark 处理 hive 仓库数据,用sparksql 好?还是hivesql好?sparksql 操作hive 的分区分桶表麻烦吗?

展开
收起
hbase小能手 2019-05-23 16:49:23 9145 0
3 条回答
写回答
取消 提交回答
  • 两者可以混用 1、spark sql性能好一些 2、hive sql更加稳定 3、spark sql操作hive分区表比较原生 4、saprk sql操作hive的分桶表麻烦一些

    2020-03-21 17:40:09
    赞同 展开评论 打赏
  • spark sql速度更快,性能更高,但内存资源消耗多,稳定性不如hive sql

    2020-03-19 20:01:06
    赞同 展开评论 打赏
  • HBase是一个分布式的、面向列的开源数据库,一个结构化数据的分布式存储系统。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。阿里云HBase技术团队共同探讨HBase及其生态的问题。

    个人感觉基础数仓还是用hive比较好,慢是慢点,但胜在稳定,况且如果用tez引擎,也很快,spark对资源要求更高,稍微不慎就会运行失败,对于数仓分层依赖的情况是个灾难,兼容性也是一个问题

    2019-07-17 23:35:57
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Comparison of Spark SQL with Hive 立即下载
Hive Bucketing in Apache Spark 立即下载
2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载